نسل جدید FLUX.2 با نسخههای متنباز و تجاری، کیفیت بالا، کنترلپذیری و هزینه کمتر، رقابت مدلهای تصویرساز را وارد مرحله تازهای میکند.
به گزارش سرویس فناوری تکناک، شرکت آلمانی Black Forest Labs این نسل جدید را با هدف استفاده سازمانی، کاربری حرفهای و جریانهای تولید محتوای مقیاسپذیر عرضه کرده و به صورت مستقیم رقبایی مانند Nano Banana Pro گوگل و Midjourney را هدف گرفته است.
در این معرفی، پنج نسخه از FLUX.2 شامل Pro، Flex، Dev، Klein و VAE متنباز ارائه شده است. مهمترین جزء متنباز این مجموعه، Flux.2 VAE است، که تحت مجوز Apache 2.0 منتشر شده است و نقش قلب مشترک همه مدلها را ایفا میکند. این VAE فضای نهفته استانداردی ایجاد میکند، که امکان استفاده یکپارچه از مدلهای مختلف FLUX.2 را فراهم میسازد. به گفته شرکت سازنده، انتشار یک VAE باز و سازمانی نه تنها امکان توسعه داخلی و خودمیزبان را برای کسبوکارها فراهم میکند، بلکه قفلشدگی به فروشنده را کاهش میدهد و امکان سازگاری پایدار میان ابزارهای داخلی و مدلهای ابری را فراهم میکند. همچنین آموزش مدلها در فضای نهفته مشترک باعث بازسازی دقیقتر، یادگیری کارآمدتر و ویرایش ۴ مگاپیکسلی میشود.
بخوانید: مدل تصویرساز پیشرفته و متنباز Qwen-Image معرفی شد
نسخه FLUX.2 Pro بالاترین سطح کیفیت و کمترین تأخیر را ارائه میدهد و برای محیطهای تولید انبوه و گردشکارهای حساس به زمان طراحی شده است. این مدل از طریق BFL Playground، API و پلتفرمهای شریک عرضه میشود. نسخه Flex امکان تنظیم تعداد گامهای نمونهگیری، مقیاس راهنمایی و دیگر پارامترها را برای توسعهدهندگان فراهم میکند و اجازه میدهد که ابتدا پیشنمایشهای سبک و سریع تولید و سپس خروجیهای سنگینتر رندر شود. نسخه Dev بهصورت یک مدل ۳۲ میلیارد پارامتری با وزنهای باز منتشر شده، اما استفاده تجاری از آن نیازمند مجوز مستقل است. این مدل هم تولید متنبهتصویر و هم ویرایش را در یک معماری واحد انجام میدهد و با ده تصویر مرجع کار میکند. نسخه Klein نیز نسخهای فشرده و متنباز خواهد بود، که عملکردی فراتر از مدلهای همسایز ارائه میکند.
بر اساس توضیحات شرکت Black Forest Labs، نسل جدید FLUX.2 همان مسیر FLUX.1 را ادامه میدهد، اما بر کاربرد تولیدی تمرکز دارد و صرفاً نمایش قابلیتها نیست. مدل جدید میتواند تا ده تصویر مرجع را دریافت کند و هویت بصری، جزئیات محصول یا سبک برند را در خروجی پایدار نگه دارد؛ قابلیتی که برای کمپینهای تبلیغاتی، عکاسی مجازی، طراحی محصول و محتوای برند اهمیت اساسی دارد. در FLUX.2، رندر متن ارتقا یافته است و مدل میتواند فونتهای ریز، چیدمان دقیق، رابط کاربری و طرحهای اینفوگرافیک را بدون خطای املایی ایجاد کند؛ مسئلهای که همواره یکی از چالشهای مدلهای مبتنی بر دیفیوشن بوده است. پیروی از دستورهای چندبخشی، رفتار نور، منطق فضایی و یکپارچگی فیزیکی نیز در این نسخه نسبت به نسل پیش بهطور معنادار بهتر شده است.
نسل FLUX.2 بر پایه معماری latent flow matching و یک مدل بینایی–زبانی مبتنی بر Mistral-3 ساخته شده است. مدل بینایی–زبانی مسئول درک معنایی و محتوا است و ترنسفورمر جریانمحور ساختار، نور، جنس ماده و روابط فضایی را مدیریت میکند. بازطراحی فضای نهفته در VAE جدید باعث شده است که مدل بتواند هم بازسازیهایی با اعوجاج کمتر نسبت به FLUX.1 و SD autoencoder ارائه دهد و هم در شاخص FID عملکرد بهتری داشته باشد. این تعادل برای مدلهایی ضروری است که باید عملیات ویرایش دقیق، ترکیب سبک و ساختار پیچیده را پشتیبانی کنند.
پیشنهادی: مایکروسافت از نخستین مولد تصویر هوش مصنوعی اختصاصی خود رونمایی کرد
بر اساس دو مجموعه ارزیابی منتشرشده، نسل جدید FLUX.2 در برابر رقبای باز و تجاری، برتری معناداری دارد. مدل Dev در تولید متنبهتصویر ۶۶.۶ درصد، در ویرایش تکمرجع ۵۹.۸ درصد و در ویرایش چندمرجع ۶۳.۶ درصد بهتر از مدلهای Qwen-Image، Hunyuan Image 3.0 و FLUX.1 Kontext عمل کرده است. از نظر کیفیت–هزینه نیز نسخههای Pro، Flex و Dev در ناحیه کیفیت بالا و هزینه پایین قرار گرفتهاند.

گزارشها حاکی از آن است، در بخش قیمتگذاری، FLUX.2 Pro با هزینه ۰.۰۳ دلار بهازای هر مگاپیکسل عرضه میشود. تولید یک تصویر ۱۰۲۴×۱۰۲۴ حدود ۳ سنت هزینه دارد و ورودیها نیز در محاسبه لحاظ میشوند. در مقابل، Nano Banana Pro گوگل بر مبنای توکن محاسبه میشود و برای تصاویر ۱K–۲K حدود ۰.۱۳۴ دلار و برای خروجی ۴K حدود ۰.۲۴ دلار هزینه دارد؛ یعنی حداقل چهار برابر گرانتر در رزولوشنهای پایه و تا هشت برابر گرانتر در ابعاد بالا است.
نسل جدید FLUX.2 برای تیمهای مهندسی، داده، عملیاتی و امنیتی پیامدهای مشخصی دارد. ادغام متنبهتصویر و ویرایش در یک مدل واحد باعث کاهش پیچیدگی جریان داده و کاهش نقاط شکست در نسخهبندی، ذخیرهسازی و نظارت میشود. نسخه Pro برای تیمهایی مناسب است که خروجی با تأخیر قابلپیشبینی میخواهند و نسخه Flex برای محیطهایی که باید تنظیمات عملکرد را دقیق کنترل کنند. نسخه Dev نیز امکان استقرار خودمیزبان را فراهم میکند و تیمها میتوانند مدل را وارد چرخه CI/CD کنند. برای تیمهای امنیتی، نسخههای میزبانیشده امکان کنترل متمرکز را فراهم میکنند، در حالی که نسخههای باز نیازمند نظارت داخلی و کنترل یکپارچگی مدل هستند.

شرکت BFL در سال ۲۰۲۴ توسط خالقان Stable Diffusion تأسیس شد. FLUX.1، نخستین مدل اصلی این شرکت، با نسخههای Pro، Dev و Schnell به سرعت محبوب شد و به یکی از گستردهترین مدلهای باز تصویرسازی تبدیل شد. این مدل بعدها در ابزارهایی مانند Grok 2 نیز مورد استفاده قرار گرفت. همکاری با پلتفرمهایی مانند TogetherAI، Replicate، FAL و Freepik نیز به گسترش دسترسی کمک کرد و زیرساخت لازم را برای کاربران بدون تجهیزات سنگین فراهم ساخت.
پیشنهادی: اپلیکیشن موبایل فایرفلای ادوبی بههمراه مدل تصویری Image Model 4 از راه رسید
نسل جدید FLUX.2 نشاندهنده بلوغ مدلهای تصویرساز است؛ مدلی که فراتر از نمایش توانایی، برای تولید مستمر، قابلکنترل و مقیاسپذیر محتوا طراحی شده است. شرکت Black Forest Labs تلاش کرده است با ترکیب نسخههای سازمانی، وزنهای باز، VAE متنباز و قیمت رقابتی، جایگاهی میان مدلهای باز و مدلهای تجاری شکل دهد. این انتشار رقابت در حوزه تصویرسازی هوش مصنوعی را وارد مرحله جدیدی میکند؛ مرحلهای که در آن کیفیت، پایداری خروجی، قابلیت کنترل و هزینه بیش از گذشته اهمیت دارند و FLUX.2 اکنون یکی از جدیترین گزینهها برای زیرساخت تصویری سازمانها محسوب میشود.

















