شرکت OpenAI مدل های صوتی جدید هوش مصنوعی را معرفی کرد

شرکت OpenAI سه مدل صوتی جدید هوش مصنوعی را در API خود معرفی کرده است تا توسعه‌دهندگان، نسل تازه‌ای از اپلیکیشن‌های مبتنی بر صدا ایجاد کنند.

به گزارش سرویس هوش مصنوعی تک‌ناک، این مدل‌ها با هدف طبیعی‌تر کردن تعاملات صوتی، درک بهتر زمینه گفت‌وگو و انجام اقدامات در زمان واقعی طراحی شده‌اند.

این سه مدل شامل GPT-Realtime-2، GPT-Realtime-Translate و GPT-Realtime-Whisper هستند که سیستم‌های صوتی را از حالت ساده پرسش و پاسخ به تعاملات پیوسته و شبیه عامل هوشمند ارتقا می‌دهند؛ به‌گونه‌ای که قادر به شنیدن، تحلیل، ترجمه، تبدیل گفتار به متن و اقدام هم‌زمان در جریان مکالمه هستند.

بر اساس گزارش fonearena، این مدل‌ها گامی مهم در تبدیل تعاملات صوتی به تجربه‌ای هوشمند و سریع محسوب می‌شوند.

01
از 08
مدل صوتی GPT-Realtime-2 شرکت OpenAI

GPT-Realtime-2 نخستین مدل صوتی OpenAI با توان استدلال در سطح GPT-5 است که برای مکالمات زنده طراحی شده است. این مدل از تعاملات پیچیده پشتیبانی می‌کند و می‌تواند هم‌زمان با ادامه گفت‌وگو، فکر کند، پاسخ دهد و از ابزارها استفاده کند.

این مدل برای موقعیت‌هایی طراحی شده است که پاسخ، اقدام و استدلال باید بدون وقفه در جریان مکالمه انجام شوند.

قابلیت‌های کلیدی

پردازش درخواست‌های صوتی چندمرحله‌ای در زمان واقعی
حفظ جریان پیوسته مکالمه با درک زمینه
استفاده از ابزارها بدون اختلال در گفت‌وگو
پشتیبانی از جملات مقدماتی گفتاری
اجرای هم‌زمان چند ابزار با اطلاع‌رسانی صوتی
بهبود بازیابی خطا با پاسخ‌های طبیعی
افزایش پنجره زمینه از 32K به 128K
درک بهتر اصطلاحات تخصصی و اسامی خاص
پشتیبانی از تنظیم لحن
سطوح مختلف استدلال قابل تنظیم

بهبود عملکرد

بهبود 15.2 درصدی در Big Bench Audio نسبت به نسخه قبلی
بهبود 13.8 درصدی در Audio MultiChallenge

02
از 08
مدل صوتی GPT-Realtime-Translate شرکت OpenAI

این مدل امکان ارتباط صوتی چندزبانه در زمان واقعی را فراهم می‌کند و گفتار را با حفظ معنا و ریتم، به‌ صورت آنی ترجمه می‌کند. همچنین قابلیت رونویسی هم‌زمان را دارد.

این سیستم برای حفظ دقت در شرایط گفتار طبیعی مانند وقفه‌ها، لهجه‌ها و تغییر زمینه طراحی شده است.

قابلیت‌های کلیدی

پشتیبانی از بیش از 70 زبان ورودی
خروجی در 13 زبان
ترجمه هم‌زمان گفتار با حفظ معنا
رونویسی زنده در کنار ترجمه
پشتیبانی از لهجه‌ها و اصطلاحات تخصصی
حفظ روانی در گفتار طبیعی

کاربردها

پشتیبانی مشتری چندزبانه
آموزش و کلاس‌های درس
ارتباطات بین‌المللی
رسانه و رویدادها

برای نمونه، Deutsche Telekom در حال آزمایش این فناوری برای مکالمات چندزبانه با تأخیر کم است.

03
از 08
مدل صوتی GPT-Realtime-Whisper شرکت OpenAI

این مدل یک سیستم تبدیل گفتار به متن با تأخیر پایین است که می‌تواند هم‌زمان با صحبت، متن تولید کند و درک بلادرنگ را ممکن سازد.

این قابلیت امکان استفاده فوری از داده‌های صوتی را در جریان کار فراهم می‌کند.

قابلیت‌های کلیدی این مدل صوتی OpenAI

رونویسی در لحظه
زیرنویس زنده با تأخیر کم
درک پیوسته مکالمات
مناسب برای اپلیکیشن‌های واکنش‌گرا

کاربردها

یادداشت‌برداری جلسات
آموزش
پخش زنده
پشتیبانی مشتری
سیستم‌های سلامت و فروش

04
از 08
صدا به‌ عنوان رابط نرم‌افزار

شرکت OpenAI تأکید کرده که صدا یکی از طبیعی‌ترین روش‌های تعامل با نرم‌افزار است و به کاربران امکان انجام کارها بدون نیاز به تایپ را می‌دهد.

با وجود این، یک سیستم صوتی مؤثر باید بتواند:

هدف کاربر را درک کند.
با تغییرات مکالمه سازگار شود.
هم‌زمان از ابزارها استفاده کند.
در برابر خطاها به‌ خوبی بازیابی شود.
متناسب با شرایط پاسخ دهد.

05
از 08
الگوهای نوظهور در هوش صوتی

شرکت OpenAI سه الگوی کلیدی را معرفی می‌کند:

Voice-to-action: اجرای وظایف بر اساس دستور صوتی
Systems-to-voice: تبدیل داده‌های سیستم به راهنمای صوتی
Voice-to-voice: مکالمه چندزبانه در زمان واقعی

06
از 08
ایمنی و الزامات

این API دارای لایه‌های مختلف ایمنی است، که از جمله آنها می‌توان به موارد زیر اشاره کرد:

پایش زنده مکالمات
امکان افزودن محافظت‌های بیشتر توسط توسعه‌دهندگان
ممنوعیت سوءاستفاده و فریب
الزام به اطلاع‌رسانی درباره تعامل با AI
پشتیبانی از قوانین داده اتحادیه اروپا

07
از 08
قیمت و دسترسی

این مدل‌ها از طریق Realtime API در دسترس هستند.

GPT-Realtime-2: هزینه بر اساس توکن‌های صوتی
GPT-Realtime-Translate: هر دقیقه 0.034 دلار
GPT-Realtime-Whisper: هر دقیقه 0.017 دلار

08
از 08
شروع به کار سه مدل صوتی جدید OpenAI

توسعه‌دهندگان می‌توانند این مدل‌ها را در OpenAI Playground آزمایش کنند و از طریق ابزارهایی مانند Codex در اپلیکیشن‌های خود پیاده‌سازی نمایند.

شرکت OpenAI مدل های صوتی جدید هوش مصنوعی را معرفی کرد

سید محمد برازنده

مطالب مرتبط

اسپیس ایکس از کپسول باری مداری Starfall رونمایی کرد

ساخت نخستین ابرآلیاژ جهان با استحکامی دو برابر فولاد

سیستم چندعاملی Fugu معرفی شد

حمله سایبری به تاتا الکترونیکس؛ داده‌های حساس اپل و تسلا در خطر

تغییر مدیریت واتساپ؛ متا رئیس جدید این پیام‌رسان را معرفی کرد

ترفند جدید مایکروسافت برای افزایش سرعت ویندوز ۱۱

دیدگاهتان را بنویسید لغو پاسخ

پیشنهادی

مدل‌های هوش مصنوعی گوگل و متا هک شدند

پهپاد شناسایی RQ-70 مجهز به هوش مصنوعی رونمایی شد

داغ‌ترین‌های روز

ساخت نخستین ابرآلیاژ جهان با استحکامی دو برابر فولاد

به‌روزرسانی HyperOS 4 با تغییرات بزرگ نرم‌‌افزاری معرفی می‌‌شود

سلاح لیزری ضدپهپاد قابل‌حمل چین رونمایی شد

ایلان ماسک: تراشه جدید ما ۳ برابر بهتر از انویدیا است

با ۶ پهپاد نظامی برتر و پیشرفته دنیا آشنا شوید

تازه‌ها

اسپیس ایکس از کپسول باری مداری Starfall رونمایی کرد

ساخت نخستین ابرآلیاژ جهان با استحکامی دو برابر فولاد

مرسدس بنز از مینی‌ون لوکس تمام برقی VLE-Class رونمایی کرد + تصویر

سیستم چندعاملی Fugu معرفی شد

دسترسی سریع

شرکت OpenAI مدل های صوتی جدید هوش مصنوعی را معرفی کرد

01 از 08مدل صوتی GPT-Realtime-2 شرکت OpenAI

قابلیت‌های کلیدی

بهبود عملکرد

02 از 08مدل صوتی GPT-Realtime-Translate شرکت OpenAI

قابلیت‌های کلیدی

کاربردها

03 از 08مدل صوتی GPT-Realtime-Whisper شرکت OpenAI

قابلیت‌های کلیدی این مدل صوتی OpenAI

کاربردها

04 از 08صدا به‌ عنوان رابط نرم‌افزار

05 از 08الگوهای نوظهور در هوش صوتی

06 از 08ایمنی و الزامات

07 از 08قیمت و دسترسی

08 از 08شروع به کار سه مدل صوتی جدید OpenAI

مطالب مرتبط

دیدگاهتان را بنویسید لغو پاسخ

پیشنهادی

داغ‌ترین‌های روز

تازه‌ها

دسترسی سریع

01
از 08
مدل صوتی GPT-Realtime-2 شرکت OpenAI

02
از 08
مدل صوتی GPT-Realtime-Translate شرکت OpenAI

03
از 08
مدل صوتی GPT-Realtime-Whisper شرکت OpenAI

04
از 08
صدا به‌ عنوان رابط نرم‌افزار

05
از 08
الگوهای نوظهور در هوش صوتی

06
از 08
ایمنی و الزامات

07
از 08
قیمت و دسترسی

08
از 08
شروع به کار سه مدل صوتی جدید OpenAI