Llama 3.2؛ اولین مدل هوش مصنوعی متن‌باز متا با قابلیت پردازش تصاویر

متا در رویداد 2024 Connect اولین مدل هوش مصنوعی متن‌باز خود با نام Llama 3.2 را معرفی کرد. این ابزار می‌تواند تصاویر و متون را هم‌زمان پردازش کند.

به‌گزارش تک‌ناک، متا اولین مدل هوش مصنوعی متن‌باز خود با قابلیت پردازش تصاویر را منتشر کرد. این مدل که Llama 3.2 نام دارد، تنها دو ماه از معرفی جدیدترین مدل زبانی بزرگ هوش مصنوعی متا دردسترس قرار می‌گیرد و بخشی از تلاش‌های متا برای توسعه‌ی فناوری‌های هوش مصنوعی پیشرفته‌تر به‌شمار می‌رود.

01
از 03
امکانات و کاربردهای مدل جدید

مدل Llama 3.2 با‌توجه‌به قابلیت‌های چند‌وجهی خود، می‌تواند تحول بزرگی در دنیای هوش مصنوعی ایجاد کند. این مدل به توسعه‌دهندگان اجازه می‌دهد تا برنامه‌های پیشرفته‌ای بسازند؛ مانند اپلیکیشن‌های واقعیت افزوده (AR) با درک لحظه‌ای از ویدئو و موتورهای جست‌وجوی بصری که تصاویر را بر‌اساس محتوای آن‌ها دسته‌بندی می‌کنند و ابزارهای تحلیل اسناد که متون طولانی را خلاصه‌سازی می‌کنند.

احمد الدهله، معاون هوش مصنوعی مولد در متا، در گفت‌وگو با ورج به این موضوع اشاره کرد که توسعه‌دهندگان از مدل جدید می‌توانند به‌آسانی استفاده کنند. او توضیح داد که تنها نیاز است قابلیت چند‌وجهی جدید به سیستم‌های موجود اضافه شود تا توسعه‌دهندگان بتوانند تصاویر را به مدل نشان دهند و با آن ارتباط برقرار کنند. این ویژگی باعث می‌شود که Llama 3.2 به ابزاری مناسب برای کاربردهای مختلف، به‌ویژه در زمینه‌های واقعیت افزوده و تحلیل تصاویر، تبدیل شود.

02
از 03
رقابت در حوزه‌ی هوش مصنوعی

مدل Llama 3.2 به‌ویژه از این نظر اهمیت دارد که متا در حال رقابت با سایر شرکت‌های بزرگ فناوری در‌زمینه‌ی هوش مصنوعی است. شرکت‌هایی مانند OpenAI و گوگل سال گذشته مدل‌های چندوجهی مشابهی را منتشر کرده بودند و اکنون متا با انتشار Llama 3.2 تلاش می‌کند تا در این عرصه از رقبا عقب نماند.

افزایش توانایی مدل‌های هوش مصنوعی در پردازش تصاویر برای متا نقشی حیاتی ایفا می‌کند؛ به‌خصوص با‌توجه‌به اینکه این شرکت در حال تولید سخت‌افزارهایی مانند عینک‌های هوشمند ری‌بن است که به پردازش پیشرفته‌ی تصاویر نیاز دارند.

03
از 03
جزئیات فنی Llama 3.2

مدل Llama 3.2 شامل دو مدل بینایی است: یکی با ۱۱ میلیارد پارامتر و دیگری با ۹۰ میلیارد پارامتر. این دو مدل قدرتمند به‌طور خاص برای پردازش تصاویر طراحی شده‌اند. علاوه‌بر‌این، مدل‌های یادشده دو نسخه‌ی متنی سبک‌وزن با ۱ میلیارد و ۳ میلیارد پارامتر را شامل می‌شوند که برای اجرا روی سخت‌افزارهای کم‌مصرف مانند پردازنده‌های مدیاتک و کوالکام و دیگر پردازنده‌های Arm بهینه شده‌اند. متا امیدوار است که این مدل‌های کوچک‌تر در دستگاه‌های موبایلی نیز کاربرد داشته باشند و بتوانند نیازهای کاربران در دنیای دیجیتال را برآورده کنند.

با وجود انتشار Llama 3.2، مدل قبلی این مجموعه، یعنی Llama 3.1، همچنان جایگاه خود را حفظ کرده است. این مدل که ماه جولای منتشر شد، شامل نسخه‌ای با ۴۰۵ میلیارد پارامتر است که به‌طور خاص برای تولید متن بهینه شده است. به‌همین‌دلیل، Llama 3.1 همچنان در کاربردهایی که به تولید متن نیاز دارند، به‌عنوان مدلی قدرتمند استفاده خواهد شد.