شرکت شیائومی این هفته، گام جسورانهای برداشت و از متنباز شدن Xiaomi-MiMo-Audio، مدل صوتی پرچمدار و تمامعیار خود در حوزه هوش مصنوعی خبر داد.
به گزارش تکناک، اهمیت این اقدام در آن است که Xiaomi-MiMo-Audio برای یادگیری درونمتنی واقعی در گفتار طراحی شده است؛ دستاوردی که میتواند نحوه درک و تعامل هوش مصنوعی در پلتفرمهای مبتنی بر صدا را متحول کند.
مدل هوش مصنوعی صوتی شیائومی به جای روشهای قدیمی که نیازمند حجم عظیمی از دادههای برچسبگذاریشده بودند، قادر است تنها با چند نمونه به وظایف جدید تعمیم داده و سازگار شود. این رویکرد یادآور تحولی است که با ظهور مدلهایی مانند GPT-3 در حوزه زبان رخ داد، با این تفاوت که اکنون این اتفاق در دنیای صدا جریان دارد. این مدل با آموزش روی صدها میلیون ساعت داده صوتی، نهتنها توانایی درک محتوای گفتاری (IQ) بلکه توانایی تشخیص لحن و نیت (EQ) را نیز کسب کرده است؛ قابلیتی که برای کاربردهای تجاری و محصولات کاربرمحور یک جهش چشمگیر محسوب میشود.
فهرست مطالب
نوآوری مدل هوش مصنوعی صوتی شیائومی
وجه تمایز MiMo-Audio با دیگر راهکارها، جهش فنی آن در پیشپردازش فشردهسازی بدون افت کیفیت است. این رویکرد امکان تعمیم متقابل وظایف در مقیاس وسیع را فراهم میکند. به زبان ساده، این ویژگی به کسبوکارها اجازه میدهد تا برنامههای هوش مصنوعی صوتی را با نیاز به داده بسیار کمتر و سرعت راهاندازی بسیار سریعتر در صنایع مختلف پیادهسازی کنند.

رهبری در حوزه متنباز صداهای مولد
شرکت شیائومی تنها به نوآوری بسنده نکرده، بلکه دسترسی به این فناوری را نیز عمومی کرده است. این شرکت نهتنها مدل اصلی را منتشر کرده، بلکه توکنایزر، ساختار جدید مدل، ابزارهای پیشرفته آموزشی و مجموعه ارزیابی آن را نیز در اختیار توسعهدهندگان گذاشته است. این اقدام میتواند روند پیشرفت در اکوسیستم هوش مصنوعی صوتی را سرعت بخشد و به شرکتها و برنامهنویسان امکان دهد از فناوری بالغ و آزموده برای نیازهای اختصاصی خود بهره ببرند.

دسترسی و پیادهسازی
مدلهای پیشآموزش و ریزتنظیم Xiaomi-MiMo-Audio هماکنون از طریق پلتفرم Huggingface در دسترس قرار دارند و توکنایزر آن نیز در GitHub منتشر شده است. این مدل هوش مصنوعی صوتی شیائومی بر پایه معماری Transformer با ۱٫۲ میلیارد پارامتر ساخته شده است، که آن را برای بازسازی صدا و وظایف صوت به متن قدرتمند میسازد. اپلیکیشنهای سیستمی برای کسبوکارها و کاربران حرفهای، از طریق HyperOSUpdates.com قابل دسترسی هستند و اپلیکیشن MemeOS Enhancer نیز در Google Play امکانات تکمیلی، بهروزرسانیهای سیستمی و ویژگیهای آزمایشی را ارائه میدهد.