اپل با مدل چندوجهی Ferret-UI Lite و بهرهگیری از شیوههای پیشرفته تولید داده مصنوعی عملکردی همسطح مدلهای GUI تا ۲۴ برابر بزرگتر ارائه داد.
به گزارش سرویس هوش مصنوعی تکناک، در پیشرفتی چشمگیر برای هوش مصنوعی روی دستگاه (on-device AI)، پژوهشگران اپل مدل جدیدی به نام Ferret-UI Lite را معرفی کردهاند که با وجود تنها ۳ میلیارد پارامتر، در بنچمارکهای مهم عملکردی مشابه یا حتی بهتر از مدلهای رقیب از خود نشان میدهد که تا ۲۴ برابر بزرگتر هستند. این دستاورد میتواند راه را برای عاملهای رابط کاربری (GUI agents) هوشمندتر و خصوصیتر و کارآمدتر بر روی دستگاههای شخصی هموار کند.
داستان Ferret در دسامبر ۲۰۲۳ آغاز شد؛ زمانی که تیمی نُهنفره از پژوهشگران مقالهای با عنوان «FERRET؛ ارجاع و زمینهیابی هر چیزی، هرجا، با هر دانهبندی» منتشر کردند. این مطالعه مدل زبان بزرگ چندوجهی (MLLM) را معرفی کرد که میتواند ارجاعات زبان طبیعی به بخشهای خاصی از یک تصویر را درک کند.
پساز آن، اپل مدلهای سری Ferret را با نسخههایی مانند Ferretv2 و Ferret-UI و Ferret-UI 2 گسترش داد. بهطور خاص، مدلهای Ferret-UI بر قابلیتهای اصلی Ferret افزودند و برای غلبه بر کاستیهای مدلهای MLLM عمومی در درک و تعامل با نمایشگرهای رابط کاربری (UI) آموزش دیدند.
پژوهشگران در مقاله اصلی Ferret-UI اشاره کردند: «این MLLMهای عمومی اغلب در توانایی خود برای درک و تعامل مؤثر با نمایشگرهای رابط کاربری (UI) کوتاهی میکنند.» Ferret-UI با قابلیت هر رزولوشنی خود، توانایی بزرگنمایی جزئیات کوچک رابط کاربری را داشت.

Ferret-UI اصلی روی مدلی ۱۳ میلیارد پارامتری ساخته شده بود که عمدتاً بر درک رابط کاربری موبایل متمرکز بود؛ درحالیکه Ferret-UI 2 این سیستم را به پلتفرمهای متعدد و درک با رزولوشن بیشتر گسترش داد. بااینحال Ferret-UI Lite، جدیدترین عضو این سری، رویکرد متفاوتی در پیش گرفته است. مدل مذکور نسخهای بسیار سبکتر با ۳ میلیارد پارامتر است که برای اجرای مستقیم روی دستگاه طراحی شده است؛ درحالیکه همچنان میتواند با عاملهای رابط گرافیکی (GUI) بزرگتر رقابت کند.
پژوهشگران در مقاله جدید خود با عنوان «Ferret-UI Lite؛ درسهایی از ساخت عاملهای GUI کوچک روی دستگاه»، به این نکته اشاره میکنند که اکثر عاملهای رابط گرافیکی (GUI) موجود بر مدلهای پایه بزرگ و سمت سرور متکی هستند. این مدلهای بزرگ قابلیتهای استدلال و برنامهریزی قدرتمندی دارند؛ اما برای اجرا روی دستگاه بیشازحد سنگین و نیازمند محاسبات پیچیده هستند.

Ferret-UI Lite با بهرهگیری از دادههای آموزشی واقعی و مصنوعی از دامنههای مختلف رابط گرافیکی (GUI)، شیوههای برش و بزرگنمایی در لحظه یا زمان استنتاج و تکنیکهای تنظیم دقیق نظارتشده و یادگیری تقویتی، این مشکل را برطرف میکند. شیوههای برش و بزرگنمایی به مدل کوچک کمک میکنند تا با انجام پیشبینی اولیه و برشدادن ناحیه مربوتبط و سپس پیشبینی مجدد در ناحیه بزرگنماییشده، ظرفیت محدود خود را برای پردازش تعداد زیادی توکن تصویر جبران کند.
یکی از مشارکتهای مهم این مقاله روشی است که Ferret-UI Lite دادههای آموزشی خود را تولید میکند. پژوهشگران سیستمی چندعاملی ساختهاند که مستقیماً با پلتفرمهای رابط گرافیکی (GUI) زنده تعامل میکند تا مثالهای آموزشی مصنوعی را در مقیاس وسیع تولید کند. این سیستم شامل مولد وظایف، عامل برنامهریز، عامل زمینهیاب و مدل منتقد است که با همکاری یکدیگر، ابهام تعاملهای دنیای واقعی مانند خطاها و حالتهای غیرمنتظره را ثبت و دادههای آموزشی غنی و واقعگرایانه تولید میکنند

نکته جالب این است که Ferret-UI Lite برخلاف Ferret-UI و Ferret-UI 2 که بر رابطهای کاربری اپل متمرکز بودند، روی محیطهای رابط گرافیکی (GUI) اندروید و وب و دسکتاپ آموزش دیده و ارزیابی شده است و از بنچمارکهایی مانند AndroidWorld و OSWorld بهره میبرد. این انتخاب احتمالاً بهدلیل دردسترسبودن بسترهای آزمایشی عامل رابط گرافیکی (GUI) در مقیاس بزرگ و با قابلیت بازتولید در این پلتفرمها است.
9to5mac مینویسد که پژوهشگران اذعان میکنند Ferret-UI Lite اپل در وظایف کوتاهمدت و سطح پایین عملکرد درخشانی از خود نشان داده؛ اما در تعاملهای پیچیدهتر و چندمرحلهای به همان اندازه قوی عمل نکرده است که با توجه به محدودیتهای مدل کوچک روی دستگاه قابل انتظار است.
بااینحال، اهمیت این مدل در توانایی آن برای ارائه عامل محلی و خصوصی است که بهطور مستقل با رابطهای کاربری برنامهها براساس درخواستهای کاربر تعامل میکند، بدون نیاز به ارسال دادهها به فضای ابری و پردازش روی سرورهای راه دور. این قابلیت حریم خصوصی و امنیت کاربر را افزایش میدهد و دریچهای نو بهسوی آینده هوش مصنوعی در دستگاههای شخصی میگشاید.

















