علیبابا جدیدترین مدل هوش مصنوعی خود، Qwen-Image-Edit را بهعنوان ابزاری قدرتمند و رایگان برای ویرایش تصاویر مبتنیبر دستورهای متنی رونمایی کرد.
به گزارش تکناک، تیم تحقیقاتی Qwen وابسته به علیبابا، مدل هوش مصنوعی جدیدی معرفی کرده که میتواند بسیاری از قابلیتهای فتوشاپ را تنها با دستورهای متنی شبیهسازی کند. این مدل که Qwen-Image Edit نام دارد، بهصورت متنباز و با قابلیت اجرا روی سختافزار یا فضای ابری در دسترس است و میتواند نقطه عطفی در عمومیکردن ویرایش حرفهای تصویر باشد.
ونچربیت مینویسد که Qwen-Image Edit برپایه Qwen-Image ساخته شده است؛ مدلی ۲۰ میلیارد پارامتری که اوایل همین ماه معرفی شد. این سیستم از مکانیزم دوگانه رمزگذاری (Dual Encoding) بهره میگیرد. در این مکانیزم، بخش اول ازطریق Qwen2.5-VL کنترل معنایی تصویر را برعهده دارد و امکان تغییر ساختاری و مفهومی را فراهم میکند. بخش دوم نیز با استفاده از VAE (خودرمزگذار واریاسیونال) جزئیات ظاهری تصویر را بازسازی میکند و باعث میشود ویرایشها ازنظر بصری طبیعی باقی بمانند.
این ساختار دوگانه موجب میشود تا خروجیها ضمن وفاداری به دستور کاربر، سبک و جزئیات تصویر اصلی را نیز حفظ کنند؛ موضوعی که فتوشاپ سالهاست با ابزارهای دستی در اختیار کاربران قرار میدهد؛ اما این بار بهصورت کاملاً خودکار و متنی انجام میشود.

قابلیتهای Qwen-Image Edit به دو حوزه اصلی تقسیم میشود:
- ویرایش معنایی (Semantic Editing): تغییرات گستردهای که ماهیت تصویر را دگرگون میکند؛ مثلاً تبدیل صحنهای واقعی به سبک هنری Studio Ghibli و ایجاد نسخه لگویی از تصویر شهر یا چرخاندن اشیاء برای نمایش زوایای مختلف. در این حالت، مدل بخش عمدهای از پیکسلها را بازسازی میکند؛ اما هویت و ماهیت اصلی اشیا را حفظ میکند.
- ویرایش ظاهری (Appearance Editing): تغییرات موضعی و دقیق که تنها بخش کوچکی از تصویر را تحتتأثیر قرار میدهد. نمونههایی از این نوع شامل حذف یک تار مو از پرتره و تغییر رنگ یک حرف در نوشته یا افزودن تابلویی به تصویر است که حتی بازتاب آن در سطح آب نیز بهصورت طبیعی شبیهسازی میشود.
یکی از ویژگیهای اصلی Qwen-Image Edit ویرایش متن دوزبانه (چینی و انگلیسی) درون تصاویر است. این ویژگی امکان افزودن یا حذف یا تغییر نوشتهها را بدون ازدسترفتن جزئیات فونت و اندازه و سبک فراهم میکند. این قابلیت بهویژه برای اصلاح پوسترها، تابلوهای تبلیغاتی، طرحهای گرافیکی و حتی آثار خوشنویسی اهمیت دارد. در یکی از نمایشهای آزمایشی، پژوهشگران با استفاده از این مدل توانستند اشتباهات موجود در اثر خطاطی چینی را در فرایندی مرحلهبهمرحله اصلاح کنند؛ موضوعی که نشاندهنده دقت و قابلیت این ابزار در ویرایشهای حساس است.
تیم توسعه Qwen برای Qwen-Image Edit طیف گستردهای از کاربردها را معرفی کرده است که میتواند نیازهای متنوع کاربران حرفهای و عادی را پوشش دهد. این مدل درزمینه طراحی خلاقانه و توسعه داراییهای IP به کار میرود و قابلیت تولید مجموعههایی مانند ایموجی یا طراحی کاراکترهای اختصاصی را فراهم میکند. همچنین در حوزه تبلیغات و بازاریابی، امکان ویرایش سریع و دقیق عناصر بصری همچون لوگو و تابلو و نوشتههای تبلیغاتی را به کاربران میدهد و فرایند تولید محتوای تجاری را سادهتر میسازد.
علاوهبر این، Qwen-Image Edit در هنر دیجیتال و خلق آواتارهای اختصاصی با قابلیت انتقال سبکهای هنری مختلف به کار گرفته میشود و بستری برای خلق آثار منحصربهفرد فراهم میکند. در حوزه عکاسی و استفاده شخصی نیز، قابلیتهایی مانند تغییر پسزمینه تصاویر و اصلاح لباسها یا حذف اشیاء ناخواسته به چشم میخورد. در مقابل، این مدل درزمینه حفاظت فرهنگی نقش ارزشمندی ایفا میکند و میتواند برای بازسازی و اصلاح آثار سنتی همچون خوشنویسی یا نقاشیهای کلاسیک به کار گرفته شود.
تیم توسعه Qwen طیف وسیعی از کاربردها را برای این مدل معرفی کرده است:
- طراحی خلاقانه و توسعه IP: ازجمله تولید مجموعه ایموجی یا طراحی شخصیت
- تبلیغات و بازاریابی: ویرایش سریع لوگو و تابلو یا نوشتهها در محتوای تبلیغاتی
- آواتار و هنر دیجیتال: انتقال سبک یا ایجاد شخصیتهای بصری منحصربهفرد
- عکاسی و استفاده شخصی: تغییر پسزمینه و اصلاح لباس یا حذف اشیای ناخواسته
- حفاظت فرهنگی: بازسازی و اصلاح آثار سنتی مانند خوشنویسی یا نقاشیهای کلاسیک
طبق اعلام تیم Qwen، این مدل در آزمونهای عمومی و ارزیابیهای مستقل توانسته است عملکردی در سطح پیشرفتهترین مدلهای موجود ارائه دهد. Qwen-Image پیشتر در رقابتهای بینالمللی مانند AI Arena رتبههای برتر را کسب کرده بود و نسخه ویرایشی آن نیز همین مسیر را ادامه میدهد. این ترکیب از دقت جزئیات و انعطاف گسترده باعث میشود Qwen-Image Edit هم برای استودیوهای طراحی و هم برای کاربران عادی، ابزاری ارزشمند باشد.
Qwen-Image Edit هماکنون ازطریق پلتفرمهای Qwen Chat ،Hugging Face ،ModelScope ،GitHub و بهصورت API در علیبابا کلود در دسترس است. هزینه استفاده از API برابر با ۰٫۰۴۵ دلار برای هر تصویر تعیین شده و سهمیه رایگان شامل ۱۰۰ تصویر برای ۱۸۰ روز نخست خواهد بود. رزولوشن پشتیبانیشده از ۵۱۲ تا ۴۰۹۶ پیکسل و حجم فایلها تا ۱۰ مگابایت است. خروجیها روی فضای ابری علیبابا ذخیره خواهد شد و لینک دانلود آنها تا ۲۴ ساعت معتبر خواهد بود.