شرکت OpenAI قابلیت تولید تصویر مبتنی بر مدل GPT-4o را به ChatGPT اضافه کرد. این بهروزرسانی جدید دقت بالاتری در رندر متن داخل تصاویر دارد و کیفیت خروجیهای گرافیکی را بهبود میبخشد.
به گزارش تکناک، OpenAI از امروز قابلیت تازهای را با نام «Images in ChatGPT» در پلتفرم ChatGPT فعال کرده است که به کاربران امکان میدهد مستقیماً در محیط گفتوگو با کمک مدل GPT-4o، تصاویر تولید کنند. این ویژگی، که گامی مهم در مسیر ترکیب حالتهای مختلف داده بهشمار میرود، فعلاً فقط بر تولید تصویر تمرکز دارد و برای کاربران نسخههای Plus، Pro، Team و حتی نسخه رایگان در دسترس قرار گرفته است.
بر اساس توضیحات سخنگوی شرکت، محدودیت استفاده از این قابلیت در نسخه رایگان مشابه ابزار DALL-E است. تایا کریستینسن در گفتوگو با وبسایت The Verge تأکید کرد که رقم مشخصی برای سهمیه روزانه اعلام نشده و این محدودیتها ممکن است در آینده با توجه به میزان تقاضا تغییر کنند.
طبق اطلاعات منتشرشده در صفحه پرسشهای متداول ChatGPT، کاربران رایگان پیشتر میتوانستند با DALL·E 3 روزانه سه تصویر تولید کنند. کریستینسن همچنین خاطرنشان کرد که علاقهمندان DALL-E همچنان میتوانند از طریق GPT سفارشی به این ابزار دسترسی داشته باشند.
Gabriel Goh، مدیر تحقیقات OpenAI، این قابلیت جدید را یک «جهش بنیادین» نسبت به مدلهای پیشین توصیف کرد و اعلام کرد که تیم توسعه برای پیادهسازی این قابلیت از زیرساخت چندحالته (omnimodal) مدل GPT-4o بهره گرفته است. این زیرساخت امکان پردازش و تولید داده در قالبهای مختلف مانند متن، تصویر، صدا و ویدیو را فراهم میسازد.

به نقل از ورج، از جمله مهمترین بهبودهای این ابزار جدید، افزایش دقت در تشخیص و تطبیق ویژگیها و اشیاء در تصاویر تولیدی است. Goh با اشاره به چالش معروف «binding» گفت: «در مدلهای قبلی، دستور متنی برای تولید یک ستاره آبی و یک مثلث قرمز، گاه به شکل اشتباهی منجر به یک ستاره قرمز و بدون مثلث میشد.» او افزود ابزار جدید میتواند ویژگیهای بین ۱۵ تا ۲۰ شیء را بدون سردرگمی و اشتباه بازنمایی کند که نشاندهنده بهبود قابلتوجهی در دقت است.
علاوه بر این، قابلیت تولید متن درون تصویر نیز در این نسخه بهطور چشمگیری ارتقا یافته است. به گفته Goh، بازنمایی درست متن در تصویر یکی از چالشهای عمده در توسعه مدلهای تصویری محسوب میشود؛ چرا که وجود حتی یک غلط کوچک در عنوان یا نوشته میتواند کل تصویر را بیارزش کند. ابزار جدید اما توانسته است متنهای منسجم و بدون خطا را با کیفیت بالا تولید کند.
با عرضه رسمی قابلیت «Images in ChatGPT»، بهنظر میرسد OpenAI در حال آمادهسازی زمینهای برای گسترش استفاده از هوش مصنوعی چندحالته در کاربردهای عمومی و حرفهای است؛ مسیری که میتواند تجربه کاربران در تولید محتوای بصری و متنی را به شکل بنیادین تغییر دهد.