رونمایی مایکروسافت از مدل هوش مصنوعی چندوجهی

شرکت مایکروسافت اقدام به رونمایی از مدل هوش مصنوعی چندوجهی (Multimodal) خود کرده است که می تواند حالت‌ های مختلف ورودی مانند متن، صدا، تصاویر و ویدئو را دریافت و ارزیابی کند.

به گزارش تکناک، محققان مایکروسافت مدل هوش مصنوعی چندوجهی Kosmos-1 را معرفی کردند. تجزیه و تحلیل محتوای تصاویر، حل معماهای بصری و تشخیص متون بصری از قابلیت های این مدل است. علاوه بر این، این مدل می تواند تست‌ های هوش بصری را انجام دهد و دستورالعمل ‌های زبان طبیعی را درک کند.

با توجه به گزارش‌ها، محققان بر این باورند که هوش مصنوعی چندوجهی قادر به ادغام حالت‌ های مختلف ورودی مانند متن، صدا، تصاویر و ویدئو است که این، یک گام کلیدی برای تولید هوش مصنوعی عمومی (AGI) محسوب می‌ شود.

محققان مایکروسافت در مقاله خود بیان کرده‌اند که ادراک چندوجهی به عنوان بخشی اساسی از هوش مصنوعی، برای دستیابی به هوش مصنوعی عمومی، ضروری است. آنها ادامه داده‌اند: زبان تمام چیزی نیست که شما به آن نیاز دارید، در واقع همسو کردن ادراک با زبان، مسئله ی مهم تری است.

نمونه‌ های تصویری از مقاله‌ منتشر شده در مورد Kosmos-1 نشان می ‌دهد که این هوش مصنوعی تصاویر را تجزیه و تحلیل کرده و به سؤالات مربوط به آن‌ ها پاسخ می ‌دهد. همچنین، متن را از یک تصویر می ‌خواند، شرح عکس ‌ها را می‌ نویسد و تست هوش بصری را با دقت 22 تا 26 درصد انجام می ‌دهد.

در حالی که رسانه ‌ها با اخبار مربوط به مدل‌ های زبانی بزرگ (LLM) مشغول هستند، برخی کارشناسان به هوش مصنوعی چندوجهی به‌ عنوان مسیری روشن برای استفاده از هوش مصنوعی عمومی نگاه می‌ کنند. هوش مصنوعی عمومی یک فناوری فرضی است که می ‌تواند جایگزین انسان ‌ها در بیشتر کارهای فکری (و مشاغل فکری) شود.

در این مورد، به نظر می ‌رسد که هوش مصنوعی Kosmos-1، اولین پروژه خالص مایکروسافت بدون دخالت OpenAI است. محققان این فناوری را “مدل زبان بزرگ چندوجهی” (Multimodal Large Language Model – MLLM) می ‌نامند، زیرا ریشه آن در پردازش زبان طبیعی همچون یک LLM فقط متنی مانند ChatGPT است اما برای اینکه Kosmos-1 ورودی تصویر را بپذیرد، محققان باید ابتدا تصویر را به یک سری نشانه‌های خاص (به طور اساسی متن) ترجمه کنند که LLM بتواند آن را بفهمد.

مایکروسافت با استفاده از داده‌های وب از جمله گزیده‌ هایی از منبع متن انگلیسی 800 گیگابایتی به نام The Pile و Common Crawl، Kosmos-1 را آموزش داد. پس از آموزش، محققان مایکروسافت توانایی‌های Kosmos-1 را در چندین آزمون، از جمله درک زبان، تولید زبان، طبقه‌ بندی متن بدون تشخیص کاراکتر نوری، توضیح تصویر، پاسخ ‌گویی به سؤالات تصویری و پاسخ‌ گویی به سؤالات صفحه وب ارزیابی کردند. به گفته مایکروسافت، در بسیاری از این آزمایش‌ها، Kosmos-1 بهتر از نمونه‌های هوش مصنوعی پیشرفته فعلی عمل کرد.

نمونه ای از تست هوش ریون که وظیفه حل آن را به Kosmos-1 بر عهده داشت

عملکرد Kosmos-1 در حل تست هوش ریون، که با ارائه دنباله‌ای از اشکال، از آزمون‌ دهنده درخواست می‌ کند تا دنباله را کامل کند، جالب توجه است. برای آزمایش Kosmos-1، محققان یک تست پر شده را یک به یک با هر گزینه تکمیل کردند و از این هوش مصنوعی پرسیدند که آیا پاسخ صحیح است یا خیر. Kosmos-1 فقط در 22 درصد مواقع می‌ توانست به سؤالات در آزمون ریون، پاسخ صحیح دهد. این موفقیت به هیچ وجه شانسی نبود و اشتباهات در پاسخ می توانست بر نتایج تأثیر بگذارد، اما Kosmos-1 از تست هوش ریون هم سربلند بیرون آمد.

اگرچه Kosmos-1 به عنوان یکی از گام‌ های اولیه در حوزه هوش مصنوعی چندوجهی مطرح شده است، اما به راحتی می‌ توان تصور کرد که بهینه ‌سازی ‌های آینده این هوش مصنوعی می‌ تواند نتایج مهم ‌تری به همراه داشته باشند و به مدل‌ های دیگر هوش مصنوعی اجازه دهند هر شکلی از رسانه را درک کرده و بر اساس آن عمل کنند.

این امر توانایی ‌های این هوش ‌های مصنوعی را به میزان زیادی افزایش خواهد داد. محققان اعلام کرده‌اند که در آینده، قصد دارند Kosmos-1 را توسعه دهند و قابلیت گفتار آن را نیز بهبود بخشند. همچنین، شرکت مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در دسترس برنامه ‌نویسان قرار دهد.