ادغام قابلیت تولید تصویر در ChatGPT

شرکت OpenAI قابلیت تولید تصویر مبتنی بر مدل GPT-4o را به ChatGPT اضافه کرد. این به‌روزرسانی جدید دقت بالاتری در رندر متن داخل تصاویر دارد و کیفیت خروجی‌های گرافیکی را بهبود می‌بخشد.

به گزارش تکناک، OpenAI از امروز قابلیت تازه‌ای را با نام «Images in ChatGPT» در پلتفرم ChatGPT فعال کرده است که به کاربران امکان می‌دهد مستقیماً در محیط گفت‌وگو با کمک مدل GPT-4o، تصاویر تولید کنند. این ویژگی، که گامی مهم در مسیر ترکیب حالت‌های مختلف داده به‌شمار می‌رود، فعلاً فقط بر تولید تصویر تمرکز دارد و برای کاربران نسخه‌های Plus، Pro، Team و حتی نسخه رایگان در دسترس قرار گرفته است.

بر اساس توضیحات سخنگوی شرکت، محدودیت استفاده از این قابلیت در نسخه رایگان مشابه ابزار DALL-E است. تایا کریستینسن در گفت‌وگو با وب‌سایت The Verge تأکید کرد که رقم مشخصی برای سهمیه روزانه اعلام نشده و این محدودیت‌ها ممکن است در آینده با توجه به میزان تقاضا تغییر کنند.

طبق اطلاعات منتشرشده در صفحه پرسش‌های متداول ChatGPT، کاربران رایگان پیش‌تر می‌توانستند با DALL·E 3 روزانه سه تصویر تولید کنند. کریستینسن همچنین خاطرنشان کرد که علاقه‌مندان DALL-E همچنان می‌توانند از طریق GPT سفارشی به این ابزار دسترسی داشته باشند.

Gabriel Goh، مدیر تحقیقات OpenAI، این قابلیت جدید را یک «جهش بنیادین» نسبت به مدل‌های پیشین توصیف کرد و اعلام کرد که تیم توسعه برای پیاده‌سازی این قابلیت از زیرساخت چندحالته (omnimodal) مدل GPT-4o بهره گرفته است. این زیرساخت امکان پردازش و تولید داده در قالب‌های مختلف مانند متن، تصویر، صدا و ویدیو را فراهم می‌سازد.

به نقل از ورج، از جمله مهم‌ترین بهبودهای این ابزار جدید، افزایش دقت در تشخیص و تطبیق ویژگی‌ها و اشیاء در تصاویر تولیدی است. Goh با اشاره به چالش معروف «binding» گفت: «در مدل‌های قبلی، دستور متنی برای تولید یک ستاره آبی و یک مثلث قرمز، گاه به شکل اشتباهی منجر به یک ستاره قرمز و بدون مثلث می‌شد.» او افزود ابزار جدید می‌تواند ویژگی‌های بین ۱۵ تا ۲۰ شیء را بدون سردرگمی و اشتباه بازنمایی کند که نشان‌دهنده بهبود قابل‌توجهی در دقت است.

علاوه بر این، قابلیت تولید متن درون تصویر نیز در این نسخه به‌طور چشمگیری ارتقا یافته است. به گفته Goh، بازنمایی درست متن در تصویر یکی از چالش‌های عمده در توسعه مدل‌های تصویری محسوب می‌شود؛ چرا که وجود حتی یک غلط کوچک در عنوان یا نوشته می‌تواند کل تصویر را بی‌ارزش کند. ابزار جدید اما توانسته است متن‌های منسجم و بدون خطا را با کیفیت بالا تولید کند.

با عرضه رسمی قابلیت «Images in ChatGPT»، به‌نظر می‌رسد OpenAI در حال آماده‌سازی زمینه‌ای برای گسترش استفاده از هوش مصنوعی چندحالته در کاربردهای عمومی و حرفه‌ای است؛ مسیری که می‌تواند تجربه کاربران در تولید محتوای بصری و متنی را به شکل بنیادین تغییر دهد.

برچسب‌ها: p6