شرکت OpenAI از عرضه GPT-4o، نسخهای از مدل زبانی بزرگ GPT-4 که، ChatGPT را پشتیبانی میکند، خبر داد.حرف “o” در GPT-4o مخفف “همه منظوره” است.
به گزارش تکناک و به نقل از سایت TechCrunch ، میرا موریتی، مدیر ارشد فناوری OpenAI، در یک رویداد زنده در روز دوشنبه اعلام کرد که این بهروزرسانی جدید به طور قابل توجهی «بسیار سریعتر» است و «قابلیتها در زمینههای متن، بینایی، و صدا» را ارتقا میدهد.
موراتی تأکید کرد که این بهروزرسانی برای تمام کاربران به صورت رایگان عرضه میشود، اما کاربران پرداخت کننده همچنان از «تا پنج برابر ظرفیت استفاده بیشتر» نسبت به کاربران رایگان بهرهمند خواهند شد
موراتی در سخنرانی اصلی خود در دفاتر OpenAI گفت:
“GPT-4o بر اساس صدا، متن و تصویر استدلال می کند. و این بسیار مهم است، زیرا ما به آینده تعامل بین خود و ماشین ها نگاه می کنیم.”
استفاده از GPT-4o تجربه کاربری با ChatGPT را به شکل چشمگیری ارتقا میبخشد. ChatGPT از مدتها پیش قابلیتی صوتی را فراهم کرده است که امکان تبدیل متنهای خود به گفتار را با استفاده از مدل تبدیل متن به گفتار دارد. با این حال، GPT-4o این ویژگی را تقویت میکند و به کاربران این امکان را میدهد که بیشتر و به شکلی شبیه به یک دستیار با ChatGPT تعامل داشته باشند.
به عنوان مثال، کاربران میتوانند سوالی از نسخه ChatGPT که با GPT-4o فعال است بپرسند و در حین پاسخ دادن، گفتار را قطع کنند. OpenAI اعلام کرده است که این مدل قادر به ارائه پاسخهایی در “زمان واقعی” است و حتی میتواند احساسات موجود در صدای کاربر را تشخیص دهد و صدا را در «مجموعهای از سبکهای احساسی مختلف» تولید کند.
GPT-4o تواناییهای بینایی ChatGPT را به شکل قابل توجهی ارتقا داده است. با استفاده از این نسخه جدید، ChatGPT میتواند با دریافت یک تصویر،چه عکس و چه صفحهای از دسکتاپ،به سوالات مرتبط به سرعت پاسخ دهد.
این سوالات میتواند شامل مواردی مانند «چه مشکلی در این کد نرمافزاری وجود دارد؟» یا «این فرد چه مارک پیراهنی پوشیده است؟» باشد. این ویژگی جدید به ChatGPT امکان میدهد که تصاویر را تجزیه و تحلیل کند و پاسخهایی دقیق و سریع ارائه دهد.
موراتی توضیح داد:
«ما آگاه هستیم که این مدلها به طور پیوسته پیچیدهتر میشوند، اما هدف ما این است که تجربه تعامل را طبیعیتر و آسانتر کنیم. ما نمیخواهیم تمرکزمان روی رابط کاربری باشد، بلکه میخواهیم تنها روی کار با GPTها متمرکز شویم.»
OpenAI همچنین ادعا میکند که GPT-4o در چندزبانه بودن پیشرفتهایی داشته و عملکرد آن در ۵۰ زبان مختلف بهبود یافته است. در API OpenAI، GPT-4o دو برابر سریعتر از GPT-4 (به طور خاص GPT-4 Turbo) است، هزینهاش نصف شده و دارای محدودیت نرخ بالاتری میباشد.
سام آلتمن، مدیرعامل OpenAI در پستی اعلام کرد که این مدل «به طور ذاتی چندوجهی» است، به این معنی که مدل میتواند محتوا را تولید کند یا دستورات را در قالب صدا، متن یا تصاویر درک کند.
پیش از عرضه GPT-4o در روز دوشنبه، گزارشهای متناقضی پیشبینی میکردند که OpenAI یک موتور جستجوی هوش مصنوعی برای رقابت با Google و Perplexity، یک دستیار صوتی تعبیهشده در GPT-4، یا یک مدل کاملاً جدید و پیشرفته به نام GPT-5 را معرفی خواهد کرد. البته OpenAI مطمئناً زمان این رونمایی را درست قبل از Google I/O، کنفرانس پرچمدار غول فناوری، انتخاب کرده است، جایی که انتظار میرود شاهد رونمایی از محصولات هوش مصنوعی مختلف از سوی تیم Gemini باشیم.