مدل اولیه Llama 4 Maverick متا در ارزیابی اخیر یکی از بنچمارکهای محبوب مربوط به چتباتها، عملکرد ضعیفتری از مدلهای رقیب نشان داده است.
به گزارش تکناک، متا اخیراً با انتشار نسخهای اولیه از مدل هوش مصنوعی Llama 4 Maverick که پیشتر بهصورت رسمی عرضه نشده بود، موفق شد در ارزیابی پرطرفدار LM Arena به امتیازی خیرهکننده دست یابد. این اقدام با واکنشهای انتقادی گستردهای روبهرو و در نهایت، به تغییر سیاستهای این پلتفرم ارزیابی منجر شد. پساز آن، نسخه اصلی و دستنخورده این مدل ارزیابی و مشخص شد عملکرد چندان درخشانی ندارد.
براساس رتبهبندی بهروزشده در روز جمعه (۱۱ آوریل)، مدل Llama-4-Maverick-17B-128E-Instruct که نسخه استاندارد و فاقد بهینهسازی خاصی از مدل متا محسوب میشود، در جایگاهی پایینتر از مدلهای پرچمداری مانند مدل GPT-4o شرکت OpenAI و مدل Claude 3.5 Sonnet آنتروپیک و مدل Gemini 1.5 Pro گوگل قرار گرفت. این در حالی است که بسیاری از این رقبا ماهها پیش معرفی شدهاند.
به گفته متا، نسخه آزمایشی استفادهشده در ارزیابی، با عنوان Llama-4-Maverick-03-26-Experimental بهطور ویژه برای کاربردهای مکالمهمحور طراحی و بهینهسازی شده بود. همین ویژگیها ظاهراً با ساختار امتیازدهی LM Arena که برپایه مقایسه خروجی مدلها بهوسیله داوران انسانی بنا شده، تطابق مطلوبی داشته است.
به نقل از تککرانچ، بااینحال، متخصصان هشدار میدهند که بهینهسازی مدل برای ارزیابی خاص میتواند به نتایج گمراهکننده منجر شود و کار توسعهدهندگان را برای درک واقعی عملکرد مدل در سناریوهای مختلف دشوار کند. پیشتر نیز انتقادهایی به LM Arena وارد شده بود و برخی آن را معیاری نهچندان دقیق برای سنجش کیفیت کلی مدلهای هوش مصنوعی قلمداد کردهاند.

سخنگوی متا در گفتوگو با رسانه تککرانچ تأکید کرد:
ما با انواع نسخههای سفارشی آزمایش میکنیم. نسخهای که در LM Arena استفاده شد، مدلی بهینهشده برای چت است که عملکرد قدرتمندی نیز از خود نشان داد.
وی درادامه افزود:
اکنون نسخه متنباز Llama 4 را منتشر کردهایم و مشتاق هستیم ببینیم توسعهدهندگان چگونه این مدل را برای نیازهای خاص خود تنظیم میکنند. از بازخورد آنها استقبال میکنیم و منتظریم ببینیم چه کاربردهایی برای این مدل خلق خواهند کرد.
این اتفاق بار دیگر توجهها را به اهمیت شفافیت در معرفی و ارزیابی مدلهای هوش مصنوعی جلب کرده است. این موضوع با گسترش کاربرد این فناوری در صنایع مختلف، از حساسیت بیشتری برخوردار شده است.