آموزش Llama 4 به قدرت محاسباتی بیشتری از Llama 3 نیاز دارد

برای توسعه و بهبود نسخه‌ی جدید مدل زبانی Llama 4، شرکت متا به منابع محاسباتی بسیار بیشتری از نسخه‌ی Llama 3 نیاز خواهد داشت.

به‌گزارش تک‌ناک، متا که مدل‌ زبانی بزرگ منبع‌باز Llama را توسعه می‌دهد، معتقد است که برای آموزش مدل‌های آینده به قدرت محاسباتی بسیار بیشتری نیاز خواهد داشت.

مارک زاکربرگ در جلسه‌ی اعلام درآمدهای سه‌ماهه‌ی دوم سال ۲۰۲۴ متا بیان کرد که برای آموزش Llama 4، این شرکت به ۱۰ برابر قدرت محاسباتی بیشتری از قدرت مورد‌نیاز برای آموزش Llama 3 احتیاج خواهد داشت. بااین‌حال، او همچنان می‌خواهد متا ظرفیت ساخت مدل‌ها را ایجاد کند تا از رقبا عقب نماند.

تک‌کرانچ می‌نویسد که در ماه آوریل، متا Llama 3 را با ۸۰ میلیارد پارامتر منتشر کرد. هفته‌ی گذشته نیز، این شرکت نسخه‌ی ارتقا‌یافته‌ای از مدلی به نام Llama 3.1 405B را منتشر کرد که ۴۰۵ میلیارد پارامتر داشت و آن را به بزرگ‌ترین مدل منبع‌باز متا تبدیل کرد کرد.

مدیر مالی متا، سوزان لی، در این جلسه اعلام کرد که متا در حال بررسی پروژه‌های مختلف مراکز داده و ایجاد ظرفیت برای آموزش مدل‌های هوش مصنوعی آینده است. طبق گفته‌ی وی، این شرکت انتظار دارد این سرمایه‌گذاری هزینه‌های سرمایه‌ای در سال ۲۰۲۵ را افزایش دهد.

آموزش مدل‌های زبانی بزرگ می‌تواند کسب‌وکاری پرهزینه باشد. هزینه‌های سرمایه‌ای متا در سه‌ماهه‌ی دوم سال ۲۰۲۴ از ۶/۴ میلیارد دلار در سال ۲۰۲۳ به ۸/۵ میلیارد دلار افزایش یافت (تقریباً ۳۳ درصد) که ناشی از سرمایه‌گذاری در سرورها و مراکز داده و زیرساخت شبکه است.

طبق گزارش The Information، شرکت OpenAI سه میلیارد دلار برای آموزش مدل‌ها و چهار میلیارد دلار دیگر برای اجاره‌ی سرورها با تخفیف از مایکروسافت هزینه می‌کند.

سوزان لی گفت:

همان‌طور‌که ظرفیت آموزش هوش مصنوعی مولد را برای پیشرفت مدل‌های پایه‌ی خود افزایش می‌دهیم، به توسعه‌ی زیرساختاری ادامه خواهیم داد که به ما در نحوه‌ی استفاده از آن در طول زمان انعطاف‌پذیری می‌دهد.

در جلسه‌ی اعلام درآمدهای سه‌ماهه‌ی دوم سال ۲۰۲۴، متا درباره‌ی استفاده از هوش مصنوعی خود برای مصرف‌کننده نیز اطلاعاتی ارائه داد و گفت که هند بزرگ‌ترین بازار چت‌بات آن است. باوجواین، سوزان لی خاطرنشان کرد که متا انتظار ندارد محصولات هوش مصنوعی مولد به درآمد این شرکت کمک چندان زیادی کند.