شرکت مایکروسافت دو مدل جدید زبان کوچک Phi-4-multimodal و Phi-4-mini را به خانواده Phi-4 اضافه کرد.
به گزارش تکناک، این شرکت در دسامبر ۲۰۲۴ مدل Phi-4 را به عنوان یک مدل زبان کوچک (SLM) با عملکردی پیشرفته در رده خود معرفی کرده بود.
مدل Phi-4-multimodal بهطور همزمان از گفتار، تصویر و متن پشتیبانی میکند، در حالی که Phi-4-mini برای پردازش وظایف مبتنی بر متن طراحی شده است.
همچنین مدل Phi-4-multimodal با ۵.۶ میلیارد پارامتر، نخستین مدل زبان چندوجهی مایکروسافت است، که قابلیتهای پردازش گفتار، تصویر و متن را در یک معماری یکپارچه ترکیب میکند. این مدل در مقایسه با سایر مدلهای پیشرفته، از جمله Gemini 2.0 Flash و Gemini 2.0 Flash Lite شرکت گوگل، در چندین بنچمارک عملکرد بهتری ارائه داده است.
مدل زبان کوچک Phi-4-multimodal مایکروسافت در حوزه پردازش گفتار توانسته است مدلهای تخصصی گفتار مانند: WhisperV3 و SeamlessM4T-v2-Large را در زمینههای تشخیص خودکار گفتار (ASR) و ترجمه گفتار (ST) پشت سر بگذارد.
شرکت مایکروسافت اعلام کرده است که این مدل در جدول رتبهبندی Hugging Face OpenASR با نرخ خطای کلمات ۶.۱۴ درصدی، جایگاه نخست را به خود اختصاص داده است.

مدل Phi-4-multimodal در حوزه پردازش تصویر، عملکردی قوی در استدلال ریاضی و علمی دارد. این مدل در قابلیتهای چندوجهی رایج، از جمله درک اسناد و نمودارها، OCR و استدلال بصری علمی، عملکردی برابر یا برتر از مدلهای شناختهشدهای مانند: Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet ارائه داده است.
مدل زبان کوچک Phi-4-mini مایکروسافت که دارای ۳.۸ میلیارد پارامتر است، در وظایف متنی مانند: استدلال، حل مسائل ریاضی، کدنویسی، اجرای دستورالعملها و فراخوانی توابع، عملکردی بهتر از بسیاری از مدلهای زبان بزرگ ارائه کرده است.
شرکت مایکروسافت برای اطمینان از امنیت این مدلها، آزمایشهایی را با همکاری کارشناسان امنیتی داخلی و خارجی انجام داده و از راهکارهایی که توسط Microsoft AI Red Team (AIRT) تدوین شده، استفاده کرده است.
هر دو مدل Phi-4-mini و Phi-4-multimodal را میتوان با ONNX Runtime بهینهسازی کرد تا بهصورت داخلی و بدون نیاز به اتصال به سرور اجرا شوند. این ویژگی، امکان استفاده از این مدلها را در دستگاههای کمهزینه و کاربردهای با تأخیر کم فراهم میکند.
مدلهای Phi-4-multimodal و Phi-4-mini اکنون برای توسعهدهندگان در Azure AI Foundry، Hugging Face و NVIDIA API Catalog در دسترس هستند. همچنین مایکروسافت یک مقاله فنی منتشر کرده، که شامل موارد استفاده پیشنهادی و محدودیتهای این مدلها است.
مدلهای جدید خانواده Phi-4، پیشرفت چشمگیری در هوش مصنوعی کارآمد به حساب میآیند و قابلیتهای قدرتمند چندوجهی و پردازش متنی را برای طیف وسیعی از کاربردهای هوش مصنوعی ارائه میکنند.