Qwen-Image Edit؛ رقیب متن‌باز فتوشاپ با ویرایش هوش مصنوعی در چند ثانیه

علی‌بابا جدیدترین مدل هوش مصنوعی خود، Qwen-Image-Edit را به‌عنوان ابزاری قدرتمند و رایگان برای ویرایش تصاویر مبتنی‌بر دستورهای متنی رونمایی کرد.

به گزارش تک‌ناک،‌ تیم تحقیقاتی Qwen وابسته به علی‌بابا، مدل هوش مصنوعی جدیدی معرفی کرده که می‌تواند بسیاری از قابلیت‌های فتوشاپ را تنها با دستورهای متنی شبیه‌سازی کند. این مدل که Qwen-Image Edit نام دارد، به‌صورت متن‌باز و با قابلیت اجرا روی سخت‌افزار یا فضای ابری در دسترس است و می‌تواند نقطه عطفی در عمومی‌کردن ویرایش حرفه‌ای تصویر باشد.

ونچربیت می‌نویسد که Qwen-Image Edit برپایه Qwen-Image ساخته شده است؛ مدلی ۲۰ میلیارد پارامتری که اوایل همین ماه معرفی شد. این سیستم از مکانیزم دوگانه رمزگذاری (Dual Encoding) بهره می‌گیرد. در این مکانیزم، بخش اول ازطریق Qwen2.5-VL کنترل معنایی تصویر را برعهده دارد و امکان تغییر ساختاری و مفهومی را فراهم می‌کند. بخش دوم نیز با استفاده از VAE (خودرمزگذار واریاسیونال) جزئیات ظاهری تصویر را بازسازی می‌کند و باعث می‌شود ویرایش‌ها ازنظر بصری طبیعی باقی بمانند.

این ساختار دوگانه موجب می‌شود تا خروجی‌ها ضمن وفاداری به دستور کاربر، سبک و جزئیات تصویر اصلی را نیز حفظ کنند؛ موضوعی که فتوشاپ سال‌هاست با ابزارهای دستی در اختیار کاربران قرار می‌دهد؛ اما این بار به‌صورت کاملاً خودکار و متنی انجام می‌شود.

قابلیت‌های Qwen-Image Edit به دو حوزه اصلی تقسیم می‌شود:

ویرایش معنایی (Semantic Editing): تغییرات گسترده‌ای که ماهیت تصویر را دگرگون می‌کند؛ مثلاً تبدیل صحنه‌ای واقعی به سبک هنری Studio Ghibli و ایجاد نسخه لگویی از تصویر شهر یا چرخاندن اشیاء برای نمایش زوایای مختلف. در این حالت، مدل بخش عمده‌ای از پیکسل‌ها را بازسازی می‌کند؛ اما هویت و ماهیت اصلی اشیا را حفظ می‌کند.
ویرایش ظاهری (Appearance Editing): تغییرات موضعی و دقیق که تنها بخش کوچکی از تصویر را تحت‌تأثیر قرار می‌دهد. نمونه‌هایی از این نوع شامل حذف یک تار مو از پرتره و تغییر رنگ یک حرف در نوشته یا افزودن تابلویی به تصویر است که حتی بازتاب آن در سطح آب نیز به‌صورت طبیعی شبیه‌سازی می‌شود.

یکی از ویژگی‌های اصلی Qwen-Image Edit ویرایش متن دوزبانه (چینی و انگلیسی) درون تصاویر است. این ویژگی امکان افزودن یا حذف یا تغییر نوشته‌ها را بدون از‌دست‌رفتن جزئیات فونت و اندازه و سبک فراهم می‌کند. این قابلیت به‌ویژه برای اصلاح پوسترها، تابلوهای تبلیغاتی، طرح‌های گرافیکی و حتی آثار خوشنویسی اهمیت دارد. در یکی از نمایش‌های آزمایشی، پژوهشگران با استفاده از این مدل توانستند اشتباهات موجود در اثر خطاطی چینی را در فرایندی مرحله‌به‌مرحله اصلاح کنند؛ موضوعی که نشان‌دهنده دقت و قابلیت این ابزار در ویرایش‌های حساس است.

تیم توسعه Qwen برای Qwen-Image Edit طیف گسترده‌ای از کاربردها را معرفی کرده است که می‌تواند نیازهای متنوع کاربران حرفه‌ای و عادی را پوشش دهد. این مدل درزمینه طراحی خلاقانه و توسعه دارایی‌های IP به‌ کار می‌رود و قابلیت تولید مجموعه‌هایی مانند ایموجی یا طراحی کاراکترهای اختصاصی را فراهم می‌کند. همچنین در حوزه تبلیغات و بازاریابی، امکان ویرایش سریع و دقیق عناصر بصری همچون لوگو و تابلو و نوشته‌های تبلیغاتی را به کاربران می‌دهد و فرایند تولید محتوای تجاری را ساده‌تر می‌سازد.

علاوه‌بر این، Qwen-Image Edit در هنر دیجیتال و خلق آواتارهای اختصاصی با قابلیت انتقال سبک‌های هنری مختلف به کار گرفته می‌شود و بستری برای خلق آثار منحصربه‌فرد فراهم می‌کند. در حوزه عکاسی و استفاده شخصی نیز، قابلیت‌هایی مانند تغییر پس‌زمینه تصاویر و اصلاح لباس‌ها یا حذف اشیاء ناخواسته به چشم می‌خورد. در مقابل، این مدل درزمینه حفاظت فرهنگی نقش ارزشمندی ایفا می‌کند و می‌تواند برای بازسازی و اصلاح آثار سنتی همچون خوش‌نویسی یا نقاشی‌های کلاسیک به کار گرفته شود.

تیم توسعه Qwen طیف وسیعی از کاربردها را برای این مدل معرفی کرده است:

طراحی خلاقانه و توسعه IP: ازجمله تولید مجموعه ایموجی یا طراحی شخصیت
تبلیغات و بازاریابی: ویرایش سریع لوگو و تابلو یا نوشته‌ها در محتوای تبلیغاتی
آواتار و هنر دیجیتال: انتقال سبک یا ایجاد شخصیت‌های بصری منحصربه‌فرد
عکاسی و استفاده شخصی: تغییر پس‌زمینه و اصلاح لباس یا حذف اشیای ناخواسته
حفاظت فرهنگی: بازسازی و اصلاح آثار سنتی مانند خوش‌نویسی یا نقاشی‌های کلاسیک

طبق اعلام تیم Qwen، این مدل در آزمون‌های عمومی و ارزیابی‌های مستقل توانسته است عملکردی در سطح پیشرفته‌ترین مدل‌های موجود ارائه دهد. Qwen-Image پیش‌تر در رقابت‌های بین‌المللی مانند AI Arena رتبه‌های برتر را کسب کرده بود و نسخه ویرایشی آن نیز همین مسیر را ادامه می‌دهد. این ترکیب از دقت جزئیات و انعطاف گسترده باعث می‌شود Qwen-Image Edit هم برای استودیوهای طراحی و هم برای کاربران عادی، ابزاری ارزشمند باشد.

Qwen-Image Edit هم‌اکنون ازطریق پلتفرم‌های Qwen Chat ،‌Hugging Face ،‌ModelScope ،‌GitHub و به‌صورت API در علی‌بابا کلود در دسترس است. هزینه استفاده از API برابر با ۰٫۰۴۵ دلار برای هر تصویر تعیین شده و سهمیه رایگان شامل ۱۰۰ تصویر برای ۱۸۰ روز نخست خواهد بود. رزولوشن پشتیبانی‌شده از ۵۱۲ تا ۴۰۹۶ پیکسل و حجم فایل‌ها تا ۱۰ مگابایت است. خروجی‌ها روی فضای ابری علی‌بابا ذخیره خواهد شد و لینک دانلود آن‌ها تا ۲۴ ساعت معتبر خواهد بود.