شرکت میسترال با معرفی Voxtral، نخستین مدل صوتی متنباز خود، در تلاش است تا شکاف میان مدلهای صوتی گرانقیمت و ارزانقیمت را پر کند.
به گزارش تکناک، میسترال، شرکت فرانسوی فعال در حوزه هوش مصنوعی، نخستین مدل صوتی متنباز خود با نام Voxtral را رونمایی کرد. این مدل برای استفاده تجاری طراحی و بهعنوان جایگزینی متنباز و مقرونبهصرفه در مقابل سیستمهای صوتی بسته و گرانقیمت معرفی شده است.
با پیشرفت سریع سامانههای هوش مصنوعی، گفتار در حال تبدیلشدن به شیوه غالب تعامل میان انسان و ماشین است. میسترال نیز با ورود به عرصه فناوری صوتی، تلاش میکند تا جایگاه خود را در میان غولهای فناوری تثبیت کند. این شرکت مدعی است که Voxtral نخستین مدل متنبازی است که «هوش گفتاری واقعاً کاربردی در محیط تولید» را فراهم میکند.
تککرانچ مینویسد که تا پیشاز این، توسعهدهندگان ناگزیر بودند میان سامانههای باز و ارزان اما ناکارآمد و سامانههای بسته و قدرتمند اما گرانقیمت، یکی را انتخاب کنند. اما اکنون، میسترال با ارائه مدل Voxtral تلاش کرده است تا این شکاف را پر کند. به گفته شرکت توسعهدهنده، Voxtral با قیمتی کمتر از نصف راهحلهای مشابه، جایگزینی اقتصادی و کارآمد به شمار میرود.
فهرست مطالب
ویژگیهای فنی و کاربردی
مدل Voxtral میسترال میتواند تا ۳۰ دقیقه صوت را رونویسی کند. این مدل با بهرهگیری از موتور LLM به نام Mistral Small 3.1 از پس درک حداکثر ۴۰ دقیقه صوت برمیآید. کاربران میتوانند از این مدل برای پرسش درباره محتوای صوتی یا تولید خلاصه یا اجرای فرمانهای صوتی در قالب اقدامات بلادرنگ مانند فراخوانی API یا اجرای توابع استفاده کنند. مدل یادشده از زبانهای مختلف ازجمله انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، هلندی و ایتالیایی پشتیبانی میکند.

میسترال دو نسخه از مدل Voxtral را ارائه کرده است:
- Voxtral Small با ۲۴ میلیارد پارامتر که برای استقرار در مقیاس تولید مناسب است و با مدلهایی نظیر ElevenLabs Scribe و GPT-4o-mini و Gemini 2.5 Flash رقابت میکند.
- Voxtral Mini با ۳ میلیارد پارامتر که برای پیادهسازی محلی و کاربردهای لبهای مناسب است.
علاوهبر این، نسخهای بهینهشده برای کاربردهای صرفاً رونویسی با نام Voxtral Mini Transcribe منتشر شده است که بسیار سریع و سبک و اقتصادی است. شرکت میگوید که این مدل عملکردی بهتر از OpenAI Whisper دارد و با قیمتی کمتر از نصف آن در دسترس است.
دسترسی و هزینه استفاده
کاربران میتوانند ازطریق Hugging Face یا چتبات اختصاصی میسترال با نام Le Chat، بهرایگان از مدلهای Voxtral استفاده کنند. همچنین، ادغام API این مدل در اپلیکیشنها با هزینه پایه ۰/۰۰۱ دلار برای هر دقیقه امکانپذیر است. مدل Voxtral میسترال، تنها یک ماه پساز خانواده مدلهای استدلالی میسترال با نام Magistral معرفی میشود که با هدف حل مرحلهبهمرحله مسائل برای افزایش دقت طراحی شدهاند.
میسترال، یکی از پیشتازان هوش مصنوعی در اروپا، بهدلیل حمایت گسترده از مدلهای متنباز شناخته شده است. طبق گزارش تککرانچ، این شرکت در حال مذاکره با سرمایهگذارانی همچون صندوق MGX وابسته به ابوظبی است تا حداکثر یکمیلیارد دلار سرمایه جذب کند.