متا از API جدید Llama با سرعت بی‌سابقه پردازش رونمایی کرد

شرکت متا در جریان نخستین رویداد «لاماکان» (LlamaCon)، از راه‌اندازی API جدید Llama با سرعت بی‌سابقه‌ در پردازش و تولید پاسخ‌ها خبر داد.

به گزارش تک‌ناک، این API که اکنون به‌ صورت پیش‌نمایش رایگان و محدود در دسترس توسعه‌دهندگان قرار گرفته است، امکان استفاده از مدل‌های مختلف خانواده Llama — از جمله Llama 4 Scout و Llama 4 Maverick — را فراهم می‌کند. همچنین متا ابزارهایی مانند: ایجاد کلید API تنها با یک کلیک و نسخه‌های سبک SDK برای TypeScript و Python را نیز معرفی کرده است تا کار برای برنامه‌نویسان ساده‌تر شود. این API با SDK شرکت OpenAI نیز سازگار است و به توسعه‌دهندگان اجازه می‌دهد که برنامه‌های مبتنی بر OpenAI را با سهولت بیشتری به پلتفرم جدید منتقل کنند.

شرکت متا برای دستیابی به سرعت‌های استثنایی، با شرکت‌های Cerebras و Groq وارد همکاری شده است. بنا بر اعلام شرکت Cerebras، مدل Llama 4 آنها می‌تواند با سرعتی تا ۱۸ برابر سریع‌تر از راهکارهای مبتنی بر GPU مانند NVIDIA، پاسخ‌ها را تولید کند. وب‌سایت تخصصی Artificial Analysis نیز تأیید کرده که مدل Llama 4 Scout با پشتیبانی از Cerebras موفق شده است به نرخ تولید بیش از ۲۶۰۰ توکن در ثانیه برسد؛ در حالی‌ که ChatGPT تنها ۱۳۰ توکن/ثانیه و DeepSeek حدود ۲۵ توکن/ثانیه تولید می‌کنند.

رونمایی متا از API جدید Llama با سرعت بی‌سابقه پردازش

اندرو فلدمن، مدیرعامل و هم‌بنیان‌گذار Cerebras، در این خصوص گفت: «Cerebras افتخار می‌کند که سریع‌ترین API پردازش مدل‌های زبانی جهان را ارائه می‌دهد. توسعه‌دهندگان اپلیکیشن‌های عامل‌محور و بلادرنگ، نیازمند سرعت هستند. با همکاری Cerebras در Llama API، آنها می‌توانند سیستم‌های هوش مصنوعی خلق کنند که تا پیش از این برای راهکارهای مبتنی بر GPU قابل‌دستیابی نبود.»

توسعه‌دهندگان علاقه‌مند می‌توانند با انتخاب مدل Cerebras در میان گزینه‌های ارائه‌شده توسط Llama API، از این سرعت بالا بهره‌مند شوند. مدل Llama 4 Scout از طریق Groq نیز در دسترس است، اما در حال حاضر با سرعتی در حدود ۴۶۰ توکن در ثانیه عمل می‌کند؛ سرعتی که اگرچه ۶ برابر کُندتر از مدل Cerebras است، اما همچنان ۴ برابر سریع‌تر از سایر راهکارهای GPUمحور ارزیابی می‌شود.