گوگل مدل جدید زبان-تصویر به نام PaliGemma 2 را معرفی کرد. این مدل ترکیبی از قابلیتهای پردازش تصویر و زبان است که با استفاده از هوش مصنوعی پیشرفته، امکان درک و تفسیر همزمان تصاویر و متون را فراهم میکند.
به گزارش تکناک، این مدل در زمینههایی مانند توصیف تصاویر، پاسخ به سوالات مرتبط با محتوای بصری و تحلیل دادههای چندرسانهای کاربرد دارد و بهبودهای قابلتوجهی در دقت و عملکرد نسبت به نسخههای قبلی ارائه میدهد.
پس از معرفی مدل زبان-تصویر Gemma 2 در رویداد I/O 2024 در ماه می، گوگل امروز از جدیدترین مدل خود با نام PaliGemma 2 پرده برداشت. این مدل بهعنوان یک مدل باز زبان-تصویر (VLM) عرضه شده و قابلیتهای پیشرفتهای را در زمینه پردازش و تحلیل تصاویر و ویدیوها ارائه میدهد.
9to5google مینویسد که نسخه اول PaliGemma که در ماه مه معرفی شد، برای کاربردهایی مانند زیرنویس تصاویر و ویدیوهای کوتاه، درک متن در تصاویر، شناسایی اشیاء، تقسیمبندی اشیاء و پاسخ به سوالات بصری توسعه یافته بود. اما مدل جدید، PaliGemma 2، علاوه بر حفظ این ویژگیها، چندین قابلیت جدید و بهبود یافته را نیز شامل میشود.
یکی از مهمترین ویژگیهای جدید این مدل، قابلیت “زیرنویس طولانی” است که به آن امکان تولید “زیرنویسهای دقیق و مرتبط با متن” برای تصاویر را میدهد. این مدل قادر است فراتر از شناسایی ساده اشیاء، به توصیف اقدامات، احساسات و روایت کلی صحنه بپردازد. در واقع، PaliGemma 2 توانسته است که تصاویر را بهطور عمیقتر و با جزئیات بیشتری تحلیل کرده و تصویر کلیتری از آنچه در حال وقوع است، ارائه دهد.

مدل جدید در اندازههای مختلف با 3B، 10B و 28B پارامتر و همچنین وضوحهای 224px، 448px و 896px در دسترس قرار دارد. علاوه بر این، PaliGemma 2 بهطور ویژه در زمینههایی چون شناسایی دقیق کاراکترهای نوری (OCR)، درک ساختار و محتوای جداول در اسناد و شناسایی فرمولهای شیمیایی و نتهای موسیقی عملکرد برجستهای از خود نشان داده است. همچنین، این مدل در تولید گزارشهای رادیوگرافی قفسه سینه نیز توانسته است نتایج قابل توجهی را ارائه دهد.
گوگل اعلام کرده است که PaliGemma 2 بهگونهای طراحی شده که بهعنوان یک جایگزین فوری برای کاربران مدل قبلی عمل کند. از آنجا که این مدل برای بیشتر وظایف بدون نیاز به تغییرات عمده در کد، عملکرد بهتری دارد، توسعهدهندگان میتوانند از بهبودهای فوری در عملکرد بهرهمند شوند. یکی دیگر از ویژگیهای جذاب PaliGemma 2، سهولت در تنظیم دقیق مدل برای استفادههای خاص است.
مدلهای از پیشآموزشدیده شده و کدهای مربوط به PaliGemma 2 هماکنون از طریق پلتفرمهای Kaggle، Hugging Face و Ollama در دسترس عموم قرار گرفتهاند. این مدل جدید نه تنها به توسعهدهندگان ابزارهای پیشرفتهتری برای پردازش زبان و تصویر ارائه میدهد، بلکه بهعنوان یک ابزار کاربردی برای بسیاری از صنایع و زمینههای تحقیقاتی مختلف نیز مورد استفاده قرار خواهد گرفت.