فهرست مطالب
شرکت OpenAI سه مدل صوتی جدید هوش مصنوعی را در API خود معرفی کرده است تا توسعهدهندگان، نسل تازهای از اپلیکیشنهای مبتنی بر صدا ایجاد کنند.
به گزارش سرویس هوش مصنوعی تکناک، این مدلها با هدف طبیعیتر کردن تعاملات صوتی، درک بهتر زمینه گفتوگو و انجام اقدامات در زمان واقعی طراحی شدهاند.
این سه مدل شامل GPT-Realtime-2، GPT-Realtime-Translate و GPT-Realtime-Whisper هستند که سیستمهای صوتی را از حالت ساده پرسش و پاسخ به تعاملات پیوسته و شبیه عامل هوشمند ارتقا میدهند؛ بهگونهای که قادر به شنیدن، تحلیل، ترجمه، تبدیل گفتار به متن و اقدام همزمان در جریان مکالمه هستند.
بر اساس گزارش fonearena، این مدلها گامی مهم در تبدیل تعاملات صوتی به تجربهای هوشمند و سریع محسوب میشوند.
01
از 08مدل صوتی GPT-Realtime-2 شرکت OpenAI
GPT-Realtime-2 نخستین مدل صوتی OpenAI با توان استدلال در سطح GPT-5 است که برای مکالمات زنده طراحی شده است. این مدل از تعاملات پیچیده پشتیبانی میکند و میتواند همزمان با ادامه گفتوگو، فکر کند، پاسخ دهد و از ابزارها استفاده کند.
این مدل برای موقعیتهایی طراحی شده است که پاسخ، اقدام و استدلال باید بدون وقفه در جریان مکالمه انجام شوند.
قابلیتهای کلیدی
- پردازش درخواستهای صوتی چندمرحلهای در زمان واقعی
- حفظ جریان پیوسته مکالمه با درک زمینه
- استفاده از ابزارها بدون اختلال در گفتوگو
- پشتیبانی از جملات مقدماتی گفتاری
- اجرای همزمان چند ابزار با اطلاعرسانی صوتی
- بهبود بازیابی خطا با پاسخهای طبیعی
- افزایش پنجره زمینه از 32K به 128K
- درک بهتر اصطلاحات تخصصی و اسامی خاص
- پشتیبانی از تنظیم لحن
- سطوح مختلف استدلال قابل تنظیم
بهبود عملکرد
- بهبود 15.2 درصدی در Big Bench Audio نسبت به نسخه قبلی
- بهبود 13.8 درصدی در Audio MultiChallenge
02
از 08مدل صوتی GPT-Realtime-Translate شرکت OpenAI
این مدل امکان ارتباط صوتی چندزبانه در زمان واقعی را فراهم میکند و گفتار را با حفظ معنا و ریتم، به صورت آنی ترجمه میکند. همچنین قابلیت رونویسی همزمان را دارد.
این سیستم برای حفظ دقت در شرایط گفتار طبیعی مانند وقفهها، لهجهها و تغییر زمینه طراحی شده است.
قابلیتهای کلیدی
- پشتیبانی از بیش از 70 زبان ورودی
- خروجی در 13 زبان
- ترجمه همزمان گفتار با حفظ معنا
- رونویسی زنده در کنار ترجمه
- پشتیبانی از لهجهها و اصطلاحات تخصصی
- حفظ روانی در گفتار طبیعی
کاربردها
- پشتیبانی مشتری چندزبانه
- آموزش و کلاسهای درس
- ارتباطات بینالمللی
- رسانه و رویدادها
برای نمونه، Deutsche Telekom در حال آزمایش این فناوری برای مکالمات چندزبانه با تأخیر کم است.
03
از 08مدل صوتی GPT-Realtime-Whisper شرکت OpenAI
این مدل یک سیستم تبدیل گفتار به متن با تأخیر پایین است که میتواند همزمان با صحبت، متن تولید کند و درک بلادرنگ را ممکن سازد.
این قابلیت امکان استفاده فوری از دادههای صوتی را در جریان کار فراهم میکند.
قابلیتهای کلیدی این مدل صوتی OpenAI
- رونویسی در لحظه
- زیرنویس زنده با تأخیر کم
- درک پیوسته مکالمات
- مناسب برای اپلیکیشنهای واکنشگرا
کاربردها
- یادداشتبرداری جلسات
- آموزش
- پخش زنده
- پشتیبانی مشتری
- سیستمهای سلامت و فروش
04
از 08صدا به عنوان رابط نرمافزار
شرکت OpenAI تأکید کرده که صدا یکی از طبیعیترین روشهای تعامل با نرمافزار است و به کاربران امکان انجام کارها بدون نیاز به تایپ را میدهد.
با وجود این، یک سیستم صوتی مؤثر باید بتواند:
- هدف کاربر را درک کند.
- با تغییرات مکالمه سازگار شود.
- همزمان از ابزارها استفاده کند.
- در برابر خطاها به خوبی بازیابی شود.
- متناسب با شرایط پاسخ دهد.
05
از 08الگوهای نوظهور در هوش صوتی
شرکت OpenAI سه الگوی کلیدی را معرفی میکند:
- Voice-to-action: اجرای وظایف بر اساس دستور صوتی
- Systems-to-voice: تبدیل دادههای سیستم به راهنمای صوتی
- Voice-to-voice: مکالمه چندزبانه در زمان واقعی
06
از 08ایمنی و الزامات
این API دارای لایههای مختلف ایمنی است، که از جمله آنها میتوان به موارد زیر اشاره کرد:
- پایش زنده مکالمات
- امکان افزودن محافظتهای بیشتر توسط توسعهدهندگان
- ممنوعیت سوءاستفاده و فریب
- الزام به اطلاعرسانی درباره تعامل با AI
- پشتیبانی از قوانین داده اتحادیه اروپا
07
از 08قیمت و دسترسی
این مدلها از طریق Realtime API در دسترس هستند.
- GPT-Realtime-2: هزینه بر اساس توکنهای صوتی
- GPT-Realtime-Translate: هر دقیقه 0.034 دلار
- GPT-Realtime-Whisper: هر دقیقه 0.017 دلار
08
از 08شروع به کار سه مدل صوتی جدید OpenAI
توسعهدهندگان میتوانند این مدلها را در OpenAI Playground آزمایش کنند و از طریق ابزارهایی مانند Codex در اپلیکیشنهای خود پیادهسازی نمایند.















