پژوهشگران اپل با مدل زبان بزرگ چندرسانهای جدید خود به نام MM1 روشهای جدیدی برای آموزش مدلهای زبان بزرگ بر اساس متن و تصویر توسعه دادهاند که به دستیابی به سیستمهای هوش مصنوعی قدرتمندتر و انعطافپذیرتر منجر میشود.
به گزارش تکناک این پژوهش که در مقاله تحقیقی با عنوان «MM1: روشها، تحلیل و بینشهایی از پیش-آموزش مدلهای زبان بزرگ چندوجهی» که این هفته به طور ناگهانی در سایت arxiv.org منتشر شد، نشان میدهد که چگونه ترکیب دقیق انواع مختلف دادههای آموزشی و ساختارهای مدل میتواند به عملکردی در سطح فناوریهای پیشرفته در طیف وسیعی از معیارهای هوش مصنوعی منجر شود.
پژوهشگران توضیح میدهند: «ما نشان میدهیم که برای پیشآموزش چندوجهی در مقیاس بزرگ، استفاده از ترکیبی دقیق از شرح تصویر، متن و تصویر درهمآمیخته و دادههای صرفا متنی برای دستیابی به نتایج برتر در چند نمونه بر روی معیارهای مختلف بسیار مهم است.» با آموزش مدلها روی مجموعهی دادههای متنوعی که اطلاعات بصری و زبانی را در بر میگیرد، مدلهای MM1 توانستند در کارهایی مانند شرح تصویر، پاسخ به پرسشهای تصویری و استنتاج زبان طبیعی عملکرد فوقالعادهای داشته باشند.
مقیاسگذاری مؤلفههای بصری کلیدی است پژوهشگران همچنین دریافتند که انتخاب کدگذار تصویر و رزولوشن تصاویر ورودی تأثیر چشمگیری بر عملکرد مدل دارد. آنها گفتند: «ما نشان میدهیم که کدگذار تصویر به همراه رزولوشن تصویر و تعداد نشانههای تصویر تأثیر قابل توجهی دارد، در حالی که طراحی اتصال زبان-بینایی از اهمیت نسبتاً ناچیزی برخوردار است.» این نشان میدهد که مقیاسگذاری و بهبود مستمر مؤلفههای بصری این مدلهای چندوجهی برای دستیابی به پیشرفتهای بیشتر کلیدی خواهد بود.
این مدل در اندازههای ۳ میلیارد، ۷ میلیارد و ۳۰ میلیارد پارامتری ارائه میشود. محققان از این مدلها برای انجام آزمایشها استفاده کردند و عوامل کلیدی تأثیرگذار بر عملکرد را مشخص کردند. جالب اینجاست که وضوح تصویر و تعداد تگهای تصویر تأثیر بیشتری نسبت به اتصالدهندههای زبان بصری دارند و مجموعه دادههای پیشآموزش متفاوت میتوانند تأثیر قابل توجهی بر اثربخشی مدل داشته باشند.
تیم تحقیقاتی با استفاده از معماری «Mixture of Experts» و روش «گیتزنی ۲تایی»، MM1 را با دقت ساختهاند. این رویکرد نه تنها در معیارهای پیشآموزش نتایج عالی به دست آورد، بلکه به عملکرد قوی در معیارهای چندرسانهای موجود نیز ترجمه شد. حتی پس از تنظیم دقیق برای وظایف خاص، مدلهای MM1 همچنان عملکرد رقابتی را حفظ کردند.
Mixture of Experts (MoE) یک مدل یادگیری ماشینی است که بر اساس ایده ترکیب چندین مدل کارشناس (expert) مختلف برای حل یک مسئله خاص طراحی شده است. در این روش، هر کارشناس مسئول حل بخشی از مسئله است و یک گیتزن (gating network) وجود دارد که تعیین میکند کدام کارشناس باید برای هر نمونه دادهای فعال شود.
روش گیتزنی ۲تایی (Binary Gating) یک روش در زمینه پردازش سیگنالهای دیجیتال و شبکههای عصبی مصنوعی است که برای کنترل جریان اطلاعات در یک سیستم استفاده میشود. این روش از گیتهایی استفاده میکند که میتوانند به دو حالت ۰ (بسته) یا ۱ (باز) باشند. این گیتها به گونهای طراحی شدهاند که بتوانند جریان اطلاعات را بر اساس نیاز سیستم مدیریت کنند.
آزمایشها نشان داد که مدلهای MM1-3B-Chat و MM1-7B-Chat از اکثر رقبای هماندازه خود در بازار عملکرد بهتری دارند. این مدلها به طور خاص در کارهایی مانند VQAv2 (پاسخ به سوال بر اساس تصویر و متن)، TextVQA (پاسخ به سوال متنی درباره یک تصویر) و ScienceQA (پاسخ به سوال علمی) درخشش دارند. با این حال، عملکرد کلی MM1 هنوز از مدلهای Gemini گوگل یا GPT-4V OpenAI (هنوز) فراتر نمیرود. در حالی که MM1 ممکن است هنوز رهبر مطلق نباشد، همچنان جهشی قابل توجه برای اپل در زمینه هوش مصنوعی است. این شرکت همچنین اخیراً DarwinAI را به دست آورده است، برای اطلاعات بیشتر در این مورد اینجا را بخوانید.