اپل با مدل SlowFast-LLaVA-1.5 انقلابی در تحلیل ویدیوهای بلند ایجاد کرد

مدل زبان بزرگ SlowFast-LLaVA-1.5 اپل ویدئوهای بلند را با دو جریان پردازش هم‌زمان تحلیل می‌کند و دقت تصویر و ویدئو را به حداکثر می‌رساند.

به گزارش تک‌ناک، محققان اپل با معرفی مدل زبان بزرگ جدید SlowFast-LLaVA-1.5، گام بزرگی در مسیر تحلیل و درک ویدئوهای بلند برداشته‌اند. این مدل به‌طور خاص برای درک و تحلیل ویدیوهای بلند طراحی شده است. مدل SlowFast-LLaVA-1.5 از ترکیب دو جریان مختلف برای پردازش ویدئو استفاده می‌کند: جریان کُند که به تعداد کمتری از فریم‌ها نگاه و جزئیات بیشتری را استخراج می‌کند و جریان سریع که به فریم‌های بیشتری با جزئیات کمتری توجه دارد. این طراحی باعث می‌شود تا مدل بتواند به‌طور بهینه و کارآمدتر اطلاعات ویدیویی را پردازش کند.

9to5mac می‌نویسد که در مقایسه با مدل‌های بزرگ‌تر و پیچیده‌تر، مدل SlowFast-LLaVA-1.5 توانسته است نتایج بهتری در پردازش و تحلیل ویدئوهای بلند ارائه دهد. محققان اپل گزارش داده‌اند که این مدل حتی در نسخه‌های کوچک‌تر خود مانند مدل 1B (با یک میلیارد پارامتر)، توانسته است مدل‌های بزرگ‌تر را پشت‌سر بگذارد و در ارزیابی‌های استاندارد ویدئویی مانند LongVideoBench و MLVU رکوردهای جدیدی ثبت کند.

یکی از مزیت‌های اصلی مدل SlowFast-LLaVA-1.5 اپل این است که نه‌تنها می‌تواند ویدئوها را پردازش کند؛ بلکه در تحلیل تصاویر نیز عملکرد موفقی از خود نشان داده است. این مدل می‌تواند وظایف مختلفی ازجمله استدلال ریاضی و تشخیص متن در تصاویر (OCR) و تحلیل‌های متنی پیچیده را انجام دهد. این ویژگی مدل اپل را به مدلی چندمنظوره تبدیل کرده است که می‌تواند به‌طور مؤثر در تحلیل و پردازش انواع داده‌ها استفاده شود.

یکی از ویژگی‌ها مهم مدل SlowFast-LLaVA-1.5 این است که اپل از داده‌های عمومی برای آموزش آن استفاده کرده است. این امر به اپل امکان داده است تا مدلی توسعه دهد که بتواند به‌طور عمومی در دسترس باشد و محققان و توسعه‌دهندگان دیگر به‌راحتی بتوانند از آن استفاده کنند. به‌علاوه، مدل یادشده به‌طور خاص برای انجام تحلیل‌های ویدئویی و تصویری بهینه شده است و توانسته است عملکرد عالی در هر دو زمینه ارائه دهد.

با وجود پیشرفت‌های چشمگیر، SlowFast-LLaVA-1.5 هنوز محدودیت‌هایی دارد که باید برطرف شود. یکی از محدودیت‌های مهم حداکثر طول فریم ورودی مدل است که به ۱۲۸ فریم محدود می‌شود. این محدودیت ممکن است باعث شود تا برخی از فریم‌های مهم در ویدئوهای بلند از دست بروند یا مدل نتواند به‌درستی سرعت پخش ویدئو را تشخیص دهد. به‌علاوه، محققان اپل به این نکته اشاره کرده‌اند که بهبود عملکرد مدل نیازمند تنظیمات پیچیده‌ای است که به حافظه GPU زیاد نیاز دارد.

پژوهشگران اپل اعلام کرده‌اند که SlowFast-LLaVA-1.5 هنوز قابلیت‌های زیادی برای بهبود دارد. یکی از این قابلیت‌ها تنظیم پارامترهای مختلف برای افزایش دقت مدل و بهبود عملکرد آن در پردازش ویدئوهای بلند است. افزون‌بر این، پژوهشگران اپل پیشنهاد کرده‌اند که می‌توان از شیوه‌های صرفه‌جویی در حافظه مانند Stochastic BP برای کاهش هزینه‌های حافظه GPU استفاده کرد.

مدل SlowFast-LLaVA-1.5 اپل به‌عنوان مدلی منبع باز در دسترس عموم قرار گرفته است. این مدل اکنون از‌طریق گیت‌هاب و Hugging Face در دسترس است و محققان و توسعه‌دهندگان می‌توانند از آن برای پروژه‌های خود استفاده کنند. این دسترس‌پذیری بدین‌معناست که دیگران نیز می‌توانند از پیشرفت‌های این مدل بهره‌برداری کنند و آن را برای تحلیل و پردازش ویدئوهای بلند و تصاویر به کار گیرند.