شرکت آمازون امروز از مدل صوتی نوا سونیک، یک مدل پیشرفته تبدیل گفتار به گفتار رونمایی کرد.
به گزارش تکناک، مدل صوتی نوا سونیک به توسعهدهندگان این امکان را میدهد تا اپلیکیشنهایی با مکالمات صوتی شبیه انسان و در زمان واقعی بسازند.
توسعهدهندگان به طور معمول، برای توسعه یک اپلیکیشن صوتی نیاز دارند که با چندین مدل کار کنند، که برای مثال میتوان به یک مدل تشخیص گفتار برای تبدیل گفتار به متن، مدلهای زبان بزرگ برای درک و تولید پاسخها و مدل تبدیل متن به گفتار برای بازگرداندن متن به صوت اشاره کرد. این روش نه تنها پیچیده است، بلکه اغلب قادر به درک و انتقال زمینههای آکوستیک و ظرافتهایی مانند: لحن، آهنگ و سبک صحبت نمیباشد.
مدل صوتی نوا سونیک آمازون این چالش را با یکپارچهسازی قابلیتهای درک و تولید صوت در یک مدل واحد برطرف میکند. این رویکرد یکپارچه به مدل اجازه میدهد که لحن، سبک و ورودی صحبتشده را درک کند و نتیجه آن مکالمات طبیعیتر خواهد بود. همچنین میتواند زمان مناسب برای پاسخدهی را تعیین کند و بهتر از پس وقفهها (interruptions) برآید.
این مدل از صداهای مردانه و زنانه در لهجههای مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی میکند. توسعهدهندگان میتوانند از طریق Amazon Bedrock و API استریم دوطرفه به این مدل دسترسی داشته باشند. همچنین شامل حفاظتهای داخلی مانند: نظارت بر محتوا و واترمارکگذاری است.

جزئیات مدل صوتی نوا سونیک آمازون را در زیر مشاهده میکنید:
ویژگی | جزئیات |
شناسه مدل | amazon.nova-sonic-v1:0 |
مدالیتهای ورودی | گفتار |
مدالیتهای خروجی | گفتار با تبدیل به متن و پاسخهای متنی |
پنجره زمینه | 300K زمینه |
حداکثر مدت اتصال | 8 دقیقه زمان قطع اتصال، با حداکثر 20 اتصال همزمان برای هر مشتری. |
زبانهای پشتیبانیشده | انگلیسی |
مناطق | US East (N. Virginia) |
پشتیبانی از API استریم دوطرفه | بله |
پایگاههای دانش Bedrock | پشتیبانی از طریق استفاده از ابزار (فراخوانی توابع) |
در همین راستا، ماه گذشته OpenAI مدلهای جدید گفتار به متن خود را به نامهای gpt-4o-transcribe و gpt-4o-mini-transcribe معرفی کرد، که بهبودهای قابل توجهی در نرخ خطای کلمات، شناسایی زبان و دقت نسبت به مدلهای Whisper موجود خود ارائه میدهد.