مایکروسافت مدل زبان کوچک و سبکی به نام Phi-3-vision معرفی کرده است که میتواند تصاویر را مشاهده و درک کند و به سؤالات مربوط به تصاویر یا نمودارها جواب دهد.
بهگزارش تکناک، مایکروسافت نسخهی جدیدی از مدل زبان کوچک خود، Phi-3-vision را معرفی کرد که میتواند به تصاویر نگاه کند و به شما بگوید چه چیزهایی در آنها وجود دارد. Phi-3-vision مدلی چندوجهی است. این یعنی میتواند هم متن و هم تصاویر را بخواند و بهترین عملکرد آن روی دستگاههای تلفنهمراه است.
مایکروسافت میگوید Phi-3-vision که هماکنون در نسخهی پیشنمایش دردسترس است، مدلی با ۴/۲ میلیارد پارامتر است که میتواند کارهای کلی استدلال بصری مانند سؤالکردن دربارهی نمودارها یا تصاویر را انجام دهد.
Phi-3-vision بسیار کوچکتر از سایر مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E شرکت OpenAI یا Stable Diffusion شرکت Stability AI است. برخلاف آنها، Phi-3-vision تصویر تولید نمیکند؛ اما میتواند آنچه در تصویر است، درک و آن را برای کاربر تجزیهوتحلیل کند.
ورج مینویسد که مایکروسافت در آوریل همراه با Phi-3-mini، کوچکترین مدل از خانواده Phi-3 با ۳/۸ میلیارد پارامتر، نسخهی Phi-3 را معرفی کرد. این خانواده دو عضو دیگر نیز دارد: Phi-3-small (با ۷ میلیارد پارامتر) و Phi-3-medium (با ۱۴ میلیارد پارامتر).
با افزایش تقاضا برای استفاده از سرویسهای هوش مصنوعی کمهزینهتر و با مصرف انرژی کمتر، توسعهدهندگان مدلهای هوش مصنوعی مدلهای کوچک و سبکوزنی مانند Phi-3 را ارائه کردهاند. این مدلهای کوچک را میتوان برای راهاندازی قابلیتهای هوش مصنوعی روی دستگاههایی مانند تلفن و لپتاپ بدون نیاز به اشغال فضای زیاد حافظه استفاده کرد.
مایکروسافت علاوهبر Phi-3 و مدل قبلی آن، Phi-2، مدلهای کوچک دیگری نیز منتشر کرده است. طبق گزارشها، مدل حل مسائل ریاضی آن، Orca-Math، بهتر از نمونههای بزرگتر مانند Gemini Pro گوگل به پرسشهای ریاضی پاسخ میدهد.
Phi-3-vision هماکنون در نسخهی پیشنمایش دردسترس است. سایر اعضای خانواده Phi-3 شامل Phi-3-mini و Phi-3-small و Phi-3-medium نیز اکنون ازطریق کتابخانه مدلهای آژور دردسترس هستند.