آمازون مدل صوتی نوا سونیک را معرفی کرد

شرکت آمازون امروز از مدل صوتی نوا سونیک، یک مدل پیشرفته تبدیل گفتار به گفتار رونمایی کرد.

به گزارش تک‌ناک، مدل صوتی نوا سونیک به توسعه‌دهندگان این امکان را می‌دهد تا اپلیکیشن‌هایی با مکالمات صوتی شبیه انسان و در زمان واقعی بسازند.

توسعه‌دهندگان به طور معمول، برای توسعه یک اپلیکیشن صوتی نیاز دارند که با چندین مدل کار کنند، که برای مثال می‌توان به یک مدل تشخیص گفتار برای تبدیل گفتار به متن، مدل‌های زبان بزرگ برای درک و تولید پاسخ‌ها و مدل تبدیل متن به گفتار برای بازگرداندن متن به صوت اشاره کرد. این روش نه تنها پیچیده است، بلکه اغلب قادر به درک و انتقال زمینه‌های آکوستیک و ظرافت‌هایی مانند: لحن، آهنگ و سبک صحبت نمی‌باشد.

مدل صوتی نوا سونیک آمازون این چالش را با یکپارچه‌سازی قابلیت‌های درک و تولید صوت در یک مدل واحد برطرف می‌کند. این رویکرد یکپارچه به مدل اجازه می‌دهد که لحن، سبک و ورودی صحبت‌شده را درک کند و نتیجه آن مکالمات طبیعی‌تر خواهد بود. همچنین می‌تواند زمان مناسب برای پاسخ‌دهی را تعیین کند و بهتر از پس وقفه‌ها (interruptions) برآید.

این مدل از صداهای مردانه و زنانه در لهجه‌های مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند از طریق Amazon Bedrock و API استریم دوطرفه به این مدل دسترسی داشته باشند. همچنین شامل حفاظت‌های داخلی مانند: نظارت بر محتوا و واترمارک‌گذاری است.

جزئیات مدل صوتی نوا سونیک آمازون را در زیر مشاهده می‌کنید:

ویژگی	جزئیات
شناسه مدل	amazon.nova-sonic-v1:0
مدالیت‌های ورودی	گفتار
مدالیت‌های خروجی	گفتار با تبدیل به متن و پاسخ‌های متنی
پنجره زمینه	300K زمینه
حداکثر مدت اتصال	8 دقیقه زمان قطع اتصال، با حداکثر 20 اتصال همزمان برای هر مشتری.
زبان‌های پشتیبانی‌شده	انگلیسی
مناطق	US East (N. Virginia)
پشتیبانی از API استریم دوطرفه	بله
پایگاه‌های دانش Bedrock	پشتیبانی از طریق استفاده از ابزار (فراخوانی توابع)

در همین راستا، ماه گذشته OpenAI مدل‌های جدید گفتار به متن خود را به نام‌های gpt-4o-transcribe و gpt-4o-mini-transcribe معرفی کرد، که بهبودهای قابل توجهی در نرخ خطای کلمات، شناسایی زبان و دقت نسبت به مدل‌های Whisper موجود خود ارائه می‌دهد.