نسل جدید FLUX.2 رقابت مدل‌های تصویرساز را دگرگون می‌ کند

نسل جدید FLUX.2 با نسخه‌های متن‌باز و تجاری، کیفیت بالا، کنترل‌پذیری و هزینه کمتر، رقابت مدل‌های تصویرساز را وارد مرحله‌ تازه‌ای می‌کند.

به گزارش سرویس فناوری تک‌ناک، شرکت آلمانی Black Forest Labs این نسل جدید را با هدف استفاده سازمانی، کاربری حرفه‌ای و جریان‌های تولید محتوای مقیاس‌پذیر عرضه کرده و به صورت مستقیم رقبایی مانند Nano Banana Pro گوگل و Midjourney را هدف گرفته است.

در این معرفی، پنج نسخه از FLUX.2 شامل Pro، Flex، Dev، Klein و VAE متن‌باز ارائه شده است. مهم‌ترین جزء متن‌باز این مجموعه، Flux.2 VAE است، که تحت مجوز Apache 2.0 منتشر شده است و نقش قلب مشترک همه مدل‌ها را ایفا می‌کند. این VAE فضای نهفته استانداردی ایجاد می‌کند، که امکان استفاده یکپارچه از مدل‌های مختلف FLUX.2 را فراهم می‌سازد. به‌ گفته شرکت سازنده، انتشار یک VAE باز و سازمانی نه تنها امکان توسعه داخلی و خودمیزبان را برای کسب‌وکارها فراهم می‌کند، بلکه قفل‌شدگی به فروشنده را کاهش می‌دهد و امکان سازگاری پایدار میان ابزارهای داخلی و مدل‌های ابری را فراهم می‌کند. همچنین آموزش مدل‌ها در فضای نهفته مشترک باعث بازسازی دقیق‌تر، یادگیری کارآمدتر و ویرایش ۴ مگاپیکسلی می‌شود.

بخوانید: مدل تصویرساز پیشرفته و متن‌باز Qwen-Image معرفی شد

نسخه FLUX.2 Pro بالاترین سطح کیفیت و کمترین تأخیر را ارائه می‌دهد و برای محیط‌های تولید انبوه و گردش‌کارهای حساس به زمان طراحی شده است. این مدل از طریق BFL Playground، API و پلتفرم‌های شریک عرضه می‌شود. نسخه Flex امکان تنظیم تعداد گام‌های نمونه‌گیری، مقیاس راهنمایی و دیگر پارامترها را برای توسعه‌دهندگان فراهم می‌کند و اجازه می‌دهد که ابتدا پیش‌نمایش‌های سبک و سریع تولید و سپس خروجی‌های سنگین‌تر رندر شود. نسخه Dev به‌صورت یک مدل ۳۲ میلیارد پارامتری با وزن‌های باز منتشر شده، اما استفاده تجاری از آن نیازمند مجوز مستقل است. این مدل هم تولید متن‌به‌تصویر و هم ویرایش را در یک معماری واحد انجام می‌دهد و با ده تصویر مرجع کار می‌کند. نسخه Klein نیز نسخه‌ای فشرده و متن‌باز خواهد بود، که عملکردی فراتر از مدل‌های هم‌سایز ارائه می‌کند.

بر اساس توضیحات شرکت Black Forest Labs، نسل جدید FLUX.2 همان مسیر FLUX.1 را ادامه می‌دهد، اما بر کاربرد تولیدی تمرکز دارد و صرفاً نمایش قابلیت‌ها نیست. مدل جدید می‌تواند تا ده تصویر مرجع را دریافت کند و هویت بصری، جزئیات محصول یا سبک برند را در خروجی پایدار نگه دارد؛ قابلیتی که برای کمپین‌های تبلیغاتی، عکاسی مجازی، طراحی محصول و محتوای برند اهمیت اساسی دارد. در FLUX.2، رندر متن ارتقا یافته است و مدل می‌تواند فونت‌های ریز، چیدمان دقیق، رابط کاربری و طرح‌های اینفوگرافیک را بدون خطای املایی ایجاد کند؛ مسئله‌ای که همواره یکی از چالش‌های مدل‌های مبتنی بر دیفیوشن بوده است. پیروی از دستورهای چندبخشی، رفتار نور، منطق فضایی و یکپارچگی فیزیکی نیز در این نسخه نسبت به نسل پیش به‌طور معنادار بهتر شده است.

نسل FLUX.2 بر پایه معماری latent flow matching و یک مدل بینایی–زبانی مبتنی بر Mistral-3 ساخته شده است. مدل بینایی–زبانی مسئول درک معنایی و محتوا است و ترنسفورمر جریان‌محور ساختار، نور، جنس ماده و روابط فضایی را مدیریت می‌کند. بازطراحی فضای نهفته در VAE جدید باعث شده است که مدل بتواند هم بازسازی‌هایی با اعوجاج کمتر نسبت به FLUX.1 و SD autoencoder ارائه دهد و هم در شاخص FID عملکرد بهتری داشته باشد. این تعادل برای مدل‌هایی ضروری است که باید عملیات ویرایش دقیق، ترکیب سبک و ساختار پیچیده را پشتیبانی کنند.

پیشنهادی: مایکروسافت از نخستین مولد تصویر هوش مصنوعی اختصاصی خود رونمایی کرد

بر اساس دو مجموعه ارزیابی منتشرشده، نسل جدید FLUX.2 در برابر رقبای باز و تجاری، برتری معناداری دارد. مدل Dev در تولید متن‌به‌تصویر ۶۶.۶ درصد، در ویرایش تک‌مرجع ۵۹.۸ درصد و در ویرایش چندمرجع ۶۳.۶ درصد بهتر از مدل‌های Qwen-Image، Hunyuan Image 3.0 و FLUX.1 Kontext عمل کرده است. از نظر کیفیت–هزینه نیز نسخه‌های Pro، Flex و Dev در ناحیه کیفیت بالا و هزینه پایین قرار گرفته‌اند.

نسل جدید FLUX.2 رقابت مدل‌های تصویرساز را متحول می‌ کند

گزارش‌ها حاکی از آن است، در بخش قیمت‌گذاری، FLUX.2 Pro با هزینه ۰.۰۳ دلار به‌ازای هر مگاپیکسل عرضه می‌شود. تولید یک تصویر ۱۰۲۴×۱۰۲۴ حدود ۳ سنت هزینه دارد و ورودی‌ها نیز در محاسبه لحاظ می‌شوند. در مقابل، Nano Banana Pro گوگل بر مبنای توکن محاسبه می‌شود و برای تصاویر ۱K–۲K حدود ۰.۱۳۴ دلار و برای خروجی ۴K حدود ۰.۲۴ دلار هزینه دارد؛ یعنی حداقل چهار برابر گران‌تر در رزولوشن‌های پایه و تا هشت برابر گران‌تر در ابعاد بالا است.

نسل جدید FLUX.2 برای تیم‌های مهندسی، داده، عملیاتی و امنیتی پیامدهای مشخصی دارد. ادغام متن‌به‌تصویر و ویرایش در یک مدل واحد باعث کاهش پیچیدگی جریان داده و کاهش نقاط شکست در نسخه‌بندی، ذخیره‌سازی و نظارت می‌شود. نسخه Pro برای تیم‌هایی مناسب است که خروجی با تأخیر قابل‌پیش‌بینی می‌خواهند و نسخه Flex برای محیط‌هایی که باید تنظیمات عملکرد را دقیق کنترل کنند. نسخه Dev نیز امکان استقرار خودمیزبان را فراهم می‌کند و تیم‌ها می‌توانند مدل را وارد چرخه CI/CD کنند. برای تیم‌های امنیتی، نسخه‌های میزبانی‌شده امکان کنترل متمرکز را فراهم می‌کنند، در حالی که نسخه‌های باز نیازمند نظارت داخلی و کنترل یکپارچگی مدل هستند.

شرکت BFL در سال ۲۰۲۴ توسط خالقان Stable Diffusion تأسیس شد. FLUX.1، نخستین مدل اصلی این شرکت، با نسخه‌های Pro، Dev و Schnell به سرعت محبوب شد و به یکی از گسترده‌ترین مدل‌های باز تصویرسازی تبدیل شد. این مدل بعدها در ابزارهایی مانند Grok 2 نیز مورد استفاده قرار گرفت. همکاری با پلتفرم‌هایی مانند TogetherAI، Replicate، FAL و Freepik نیز به گسترش دسترسی کمک کرد و زیرساخت لازم را برای کاربران بدون تجهیزات سنگین فراهم ساخت.

پیشنهادی: اپلیکیشن موبایل فایرفلای ادوبی به‌همراه مدل تصویری Image Model 4 از راه رسید

نسل جدید FLUX.2 نشان‌دهنده بلوغ مدل‌های تصویرساز است؛ مدلی که فراتر از نمایش توانایی، برای تولید مستمر، قابل‌کنترل و مقیاس‌پذیر محتوا طراحی شده است. شرکت Black Forest Labs تلاش کرده است با ترکیب نسخه‌های سازمانی، وزن‌های باز، VAE متن‌باز و قیمت رقابتی، جایگاهی میان مدل‌های باز و مدل‌های تجاری شکل دهد. این انتشار رقابت در حوزه تصویرسازی هوش مصنوعی را وارد مرحله‌ جدیدی می‌کند؛ مرحله‌ای که در آن کیفیت، پایداری خروجی، قابلیت کنترل و هزینه بیش از گذشته اهمیت دارند و FLUX.2 اکنون یکی از جدی‌ترین گزینه‌ها برای زیرساخت تصویری سازمان‌ها محسوب می‌شود.