شرکت OpenAI مدل زبانی GPT-4o را عرضه کرد

شرکت OpenAI از عرضه GPT-4o، نسخه‌ای از مدل زبانی بزرگ GPT-4 که، ChatGPT را پشتیبانی می‌کند، خبر داد.حرف “o” در GPT-4o مخفف “همه منظوره” است.

به گزارش تک‌ناک و به نقل از سایت TechCrunch ، میرا موریتی، مدیر ارشد فناوری OpenAI، در یک رویداد زنده در روز دوشنبه اعلام کرد که این به‌روزرسانی جدید به طور قابل توجهی «بسیار سریع‌تر» است و «قابلیت‌ها در زمینه‌های متن، بینایی، و صدا» را ارتقا می‌دهد.

موراتی تأکید کرد که این به‌روزرسانی برای تمام کاربران به صورت رایگان عرضه می‌شود، اما کاربران پرداخت کننده همچنان از «تا پنج برابر ظرفیت استفاده بیشتر» نسبت به کاربران رایگان بهره‌مند خواهند شد

موراتی در سخنرانی اصلی خود در دفاتر OpenAI گفت:

“GPT-4o بر اساس صدا، متن و تصویر استدلال می کند. و این بسیار مهم است، زیرا ما به آینده تعامل بین خود و ماشین ها نگاه می کنیم.”

استفاده از GPT-4o تجربه کاربری با ChatGPT را به شکل چشمگیری ارتقا می‌بخشد. ChatGPT از مدت‌ها پیش قابلیتی صوتی را فراهم کرده است که امکان تبدیل متن‌های خود به گفتار را با استفاده از مدل تبدیل متن به گفتار دارد. با این حال، GPT-4o این ویژگی را تقویت می‌کند و به کاربران این امکان را می‌دهد که بیشتر و به شکلی شبیه به یک دستیار با ChatGPT تعامل داشته باشند.

به عنوان مثال، کاربران می‌توانند سوالی از نسخه ChatGPT که با GPT-4o فعال است بپرسند و در حین پاسخ دادن، گفتار را قطع کنند. OpenAI اعلام کرده است که این مدل قادر به ارائه پاسخ‌هایی در “زمان واقعی” است و حتی می‌تواند احساسات موجود در صدای کاربر را تشخیص دهد و صدا را در «مجموعه‌ای از سبک‌های احساسی مختلف» تولید کند.

GPT-4o توانایی‌های بینایی ChatGPT را به شکل قابل توجهی ارتقا داده است. با استفاده از این نسخه جدید، ChatGPT می‌تواند با دریافت یک تصویر،چه عکس و چه صفحه‌ای از دسکتاپ،به سوالات مرتبط به سرعت پاسخ دهد.

این سوالات می‌تواند شامل مواردی مانند «چه مشکلی در این کد نرم‌افزاری وجود دارد؟» یا «این فرد چه مارک پیراهنی پوشیده است؟» باشد. این ویژگی جدید به ChatGPT امکان می‌دهد که تصاویر را تجزیه و تحلیل کند و پاسخ‌هایی دقیق و سریع ارائه دهد.

موراتی توضیح داد:

«ما آگاه هستیم که این مدل‌ها به طور پیوسته پیچیده‌تر می‌شوند، اما هدف ما این است که تجربه تعامل را طبیعی‌تر و آسان‌تر کنیم. ما نمی‌خواهیم تمرکزمان روی رابط کاربری باشد، بلکه می‌خواهیم تنها روی کار با GPT‌ها متمرکز شویم.»

OpenAI همچنین ادعا می‌کند که GPT-4o در چندزبانه بودن پیشرفت‌هایی داشته و عملکرد آن در ۵۰ زبان مختلف بهبود یافته است. در API OpenAI، GPT-4o دو برابر سریع‌تر از GPT-4 (به طور خاص GPT-4 Turbo) است، هزینه‌اش نصف شده و دارای محدودیت نرخ بالاتری می‌باشد.

سام آلتمن، مدیرعامل OpenAI در پستی اعلام کرد که این مدل «به طور ذاتی چندوجهی» است، به این معنی که مدل می‌تواند محتوا را تولید کند یا دستورات را در قالب صدا، متن یا تصاویر درک کند.

پیش از عرضه GPT-4o در روز دوشنبه، گزارش‌های متناقضی پیش‌بینی می‌کردند که OpenAI یک موتور جستجوی هوش مصنوعی برای رقابت با Google و Perplexity، یک دستیار صوتی تعبیه‌شده در GPT-4، یا یک مدل کاملاً جدید و پیشرفته به نام GPT-5 را معرفی خواهد کرد. البته OpenAI مطمئناً زمان این رونمایی را درست قبل از Google I/O، کنفرانس پرچمدار غول فناوری، انتخاب کرده است، جایی که انتظار می‌رود شاهد رونمایی از محصولات هوش مصنوعی مختلف از سوی تیم Gemini باشیم.