توانایی ویژه Phi-3-vision، مدل زبانی کوچک مایکروسافت، در درک تصاویر

مایکروسافت مدل زبان کوچک و سبکی به نام Phi-3-vision معرفی کرده است که می‌تواند تصاویر را مشاهده و درک کند و به سؤالات مربوط به تصاویر یا نمودارها جواب دهد.

به‌گزارش تک‌ناک، مایکروسافت نسخه‌ی جدیدی از مدل زبان کوچک خود، Phi-3-vision را معرفی کرد که می‌تواند به تصاویر نگاه کند و به شما بگوید چه چیزهایی در آن‌ها وجود دارد. Phi-3-vision مدلی چندوجهی است. این یعنی می‌تواند هم متن و هم تصاویر را بخواند و بهترین عملکرد آن روی دستگاه‌های تلفن‌همراه است.

مایکروسافت می‌گوید Phi-3-vision که هم‌اکنون در نسخه‌ی پیش‌نمایش در‌دسترس است، مدلی با ۴/۲ میلیارد پارامتر است که می‌تواند کارهای کلی استدلال بصری مانند سؤال‌کردن درباره‌ی نمودارها یا تصاویر را انجام دهد.

Phi-3-vision بسیار کوچک‌تر از سایر مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E شرکت OpenAI یا Stable Diffusion شرکت Stability AI است. برخلاف آن‌ها، Phi-3-vision تصویر تولید نمی‌کند؛ اما می‌تواند آنچه در تصویر است، درک و آن را برای کاربر تجزیه‌و‌تحلیل کند.

ورج می‌نویسد که مایکروسافت در آوریل همراه با Phi-3-mini، کوچک‌ترین مدل از خانواده Phi-3 با ۳/۸ میلیارد پارامتر، نسخه‌ی Phi-3 را معرفی کرد. این خانواده دو عضو دیگر نیز دارد: Phi-3-small (با ۷ میلیارد پارامتر) و Phi-3-medium (با ۱۴ میلیارد پارامتر).

با افزایش تقاضا برای استفاده از سرویس‌های هوش مصنوعی کم‌هزینه‌تر و با مصرف انرژی کمتر، توسعه‌دهندگان مدل‌های هوش مصنوعی مدل‌های کوچک و سبک‌وزنی مانند Phi-3 را ارائه کرده‌اند. این مدل‌های کوچک را می‌توان برای راه‌اندازی قابلیت‌های هوش مصنوعی روی دستگاه‌هایی مانند تلفن و لپ‌تاپ بدون نیاز به اشغال فضای زیاد حافظه استفاده کرد.

مایکروسافت علاوه‌بر Phi-3 و مدل قبلی آن، Phi-2، مدل‌های کوچک دیگری نیز منتشر کرده است. طبق گزارش‌ها، مدل حل مسائل ریاضی آن، Orca-Math، بهتر از نمونه‌های بزرگ‌تر مانند Gemini Pro گوگل به پرسش‌های ریاضی پاسخ می‌دهد.

Phi-3-vision هم‌اکنون در نسخه‌ی پیش‌نمایش در‌دسترس است. سایر اعضای خانواده Phi-3 شامل Phi-3-mini و Phi-3-small و Phi-3-medium نیز اکنون از‌طریق کتابخانه مدل‌های آژور در‌دسترس هستند.