علی‌بابا مدل متن‌باز Qwen-Image-2512 را با دقت بی‌سابقه تصویرسازی منتشر کرد

مدل متن‌باز Qwen-Image-2512 علی‌بابا اکنون تصاویر واقعی و متن‌های بدون غلط تولید می‌کند و کنترل کامل داده‌ها را به کاربر می‌دهد.

به گزارش سرویس هوش مصنوعی تک‌ناک، درحالی‌که دنیای هوش مصنوعی هنوز تحت‌تأثیر جهش خیره‌کننده گوگل با معرفی مدل نانو بنانا پرو (Gemini 3 Pro Image) در ماه نوامبر بود، علی‌بابا با معرفی جایگزینی قدرتمند و از همه مهم‌تر متن‌باز، قواعد بازی را تغییر داد. مدل جدید Qwen-Image-2512 اکنون به‌عنوان جدی‌ترین رقیب برای مدل‌های انحصاری بازار شناخته می‌شود که دقت بی‌سابقه‌ای در تولید متن و تصاویر واقعی ارائه می‌دهد.

زمانی که Gemini 3 Pro Image منتشر شد، استانداردهای جدیدی تعریف کرد. این مدل برای نخستین بار توانست معضل دیرینه غلط‌های املایی در تصاویر را حل و اینفوگرافیک‌ها و اسلایدهایی تولید کند که مستقیماً در محیط‌های سازمانی کاربردی بودند. بااین‌همه، این پیشرفت بهایی داشت: وابستگی کامل به زیرساخت ابری گوگل و هزینه‌های سنگین و نبود امکان شخصی‌سازی.

اکنون محققان هوش مصنوعی Qwen در علی‌بابا پس‌از یک سال موفقیت‌آمیز در انتشار مدل‌های زبانی، با دردسترس قراردادن Qwen-Image-2512 به این نیاز پاسخ داده‌اند. این مدل با لایسنس Apache 2.0 منتشر شده است؛ بدین‌معنا که شرکت‌ها و توسعه‌دهنده‌ها می‌توانند بدون پرداخت هزینه‌های گزاف لایسنس، از آن برای مقاصد تجاری استفاده و آن را اصلاح یا روی سرورهای شخصی خود مستقر کنند.

اسکرین‌شات از لیست رده‌بندی Elo برای مدل‌های تبدیل متن به تصویر در پلتفرم AI Arena.

به‌روزرسانی نسخه ۲۵۱۲ (دسامبر) تنها ارتقایی جزئی نیست؛ بلکه به‌طور ویژه‌ بر سه حوزه حیاتی برای کسب‌وکارها متمرکز است:

دقت در رندرینگ متن و چیدمان (Layout): بزرگ‌ترین ویژگی این مدل، توانایی تولید متن‌های بدون نقص در تصویرها و پوسترها و اسلایدها به دو زبان انگلیسی و چینی است. این همان حوزه‌ای است که پیش‌از‌این فقط در انحصار مدل‌های گوگل و OpenAI بود.
واقع‌گرایی انسانی و حذف امضای مصنوعی: Qwen موفق شده است تا ظاهرِ پلاستیکی و ساختگی (AI Look) را از بین ببرد که در بسیاری از مدل‌های متن‌باز دیده می‌شد. بافت پوست و جزئیات چهره و تناسبات بدنی در این نسخه بهبود چشمگیری یافته است.
جزئیات بافت‌های طبیعی: از مناظر پیچیده گرفته تا بافت حیوانات و اشیاء، مدل جدید با دقت فراوانی جزئیات را رندر می‌کند که نیاز به روتوش‌های دستی پس‌از تولید را به حداقل می‌رساند.

علی‌بابا برای تسهیل دسترسی کاربران، استراتژی هوشمندانه‌ای در پیش گرفته است. وزن‌های کامل مدل در پلتفرم‌های Hugging Face و ModelScope برای دانلود قرار گرفته‌اند و کد منبع آن در گیت‌هاب در دسترس است.

برای آن دسته از سازمان‌هایی که ترجیح می‌دهند درگیر مشکلات نگه‌داری زیرساخت نشوند، علی‌بابا این مدل را با نام qwen-image-max در استودیو مدلِ «علی‌بابا کلاد» منتشر کرده است. قیمت‌گذاری این سرویس ۰/۰۷۵ دلار به‌ازای هر تصویر تعیین شده است که در مقایسه با رقبا، گزینه‌ای بسیار رقابتی محسوب می‌شود.

بسیاری از پاسخ‌های اخیر به گوگل از‌جمله مدل GPT Image 1.5 شرکت OpenAI همچنان بر‌پایه «جعبه سیاه» (Black Box) بوده‌اند. این یعنی کاربر هیچ کنترلی بر مدل ندارد و داده‌ها باید به سرورهای شرکت سازنده ارسال شوند. درمقابل، مدل Qwen-Image-2512 علی‌بابا گزینه‌هایی روی میز می‌گذارد که برای صنایع حساس (مانند فین‌تک یا حوزه‌های نظامی و دولتی) حیاتی است:

حاکمیت داده: کنترل کامل بر محل ذخیره و پردازش داده‌ها
کاهش هزینه‌ها در مقیاس بالا: امکان میزبانی شخصی برای پروژه‌هایی که به تولید میلیون‌ها تصویر نیاز دارند
سفارشی‌سازی: امکان آموزش مدل (Fine-tuning) براساس راهنمای سبک (Style Guide) اختصاصی یک برند.

به نقل از ونچربیت، اگرچه گوگل همچنان از مزیت ادغام عمیق با اکوسیستم ورک‌اسپیس و Vertex AI بهره می‌برد، علی‌بابا ثابت کرد که شکاف میان مدل‌های متن‌باز و مدل‌های انحصاری به‌سرعت در‌حال بسته‌شدن است. در آزمایش‌های کوری انجام‌شده در پلتفرم AI Arena، مدل Qwen-Image-2512 به‌عنوان قدرتمندترین مدل تصویرساز متن‌باز جهان رتبه‌بندی شده است. این پیام روشنی به بازار است: از‌این‌پس، کیفیت برتر دیگر لزوماً به‌معنای انحصار نیست.