در پی شایعاتی مبنی بر تقلب در نتایج بنچمارک مدلهای Llama 4، شرکت متا با صدور بیانیهای رسمی این اتهامات را رد و تأکید کرد که هیچگونه تقلب یا استفاده از دادههای بنچمارک در آموزش مدلها صورت نگرفته است.
به گزارش تکناک، شرکت متا اعلام کرد که مدلهای Llama 4 طبق رویههای علمی متداول توسعه یافتهاند و تفاوت در عملکرد نسخهها، ناشی از ماهیت آزمایشی برخی نسخههای اولیه است.
فهرست مطالب
رونمایی پرحاشیه از نسل چهارم مدلهای Llama
شرکت متا در هفته گذشته، از نسل چهارم مدلهای زبانی بزرگ خود با نامهای Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth به عنوان بخشی از سیستم هوش مصنوعی چندوجهی پیشرفته، رونمایی کرد.
مدل Scout با قابلیت اجرا روی یک پردازنده گرافیکی Nvidia H100، از پنجره متنی گستردهای به اندازه ۱۰ میلیون توکن پشتیبانی میکند. مدل Maverick که طراحی پیشرفتهتری دارد، طبق ادعای متا، در حوزههایی مانند: کدنویسی و استدلال منطقی، با مصرف پارامترهای فعال کمتر، عملکردی قابل مقایسه با مدلهای پرچمدار مانند: GPT-4o و DeepSeek-V3 دارد.
در رأس این مجموعه، مدل Behemoth قرار دارد که با ۲۸۸ میلیارد پارامتر فعال و مجموع ۲ تریلیون پارامتر، از نظر مقیاس و توان پردازشی، یکی از بزرگترین مدلهای زبانی معرفیشده تاکنون به حساب میآید. به گفته متا، این مدل در آزمونهای استاندارد حوزه علوم و مهندسی (STEM) موفق به عبور از رقبایی مانند: GPT-4.5 و Claude Sonnet 3.7 شده است.

افشاگری جنجالی درباره تقلب در بنچمارک Llama 4
به فاصله کوتاهی از انتشار تبلیغات گسترده پیرامون توانمندیهای فنی این مدلها، شایعهای از سوی فردی در شبکههای اجتماعی پخش شد که خود را یکی از کارکنان پیشین متا معرفی کرده بود. این فرد مدعی شد که شرکت، به منظور دستیابی به نتایج مطلوب در بنچمارکها، مجموعهای از دادههای آزمونی را در مرحله پسآموزش به مدل تزریق کرده است.
در بخشی از پست ترجمهشده وی آمده است:
«عملکرد مدل حتی پس از تکرارهای متعدد آموزش، به سطح SOTA در پروژههای متنباز نمیرسید. به همین دلیل، مدیریت پیشنهاد استفاده از دادههای بنچمارک در آموزش نهایی را مطرح کرد تا مدل در ظاهر، عملکرد متوازنی در معیارهای مختلف داشته باشد.»
همچنین این فرد ضمن اعلام استعفا از پروژه، درخواست کرده بود که نام او از گزارش فنی Llama 4 حذف شود. وی مدعی شد یکی از معاونان ارشد بخش هوش مصنوعی متا نیز به همین دلیل از سمت خود کنارهگیری کرده است.
مقایسه عملکرد نسخههای داخلی و عمومی
گزارشهای متعدد در پلتفرم X (توییتر) و Reddit نیز به تفاوت محسوس بین عملکرد نسخهای از Maverick که در پلتفرم LMArena به نمایش درآمده بود و نسخهای که برای توسعهدهندگان منتشر شده بود، اشاره داشتند. Ethan Mollick، استاد دانشگاه و پژوهشگر حوزه فناوری، در این باره نوشت:
«پاسخهای نسخه Arena با مدل منتشرشده، تفاوت فاحشی دارد. به نظر میرسد که نتایج Arena به نحوی تنظیم شدهاند که پاسخها برای انسانها قابلقبولتر جلوه کنند.»
شرکت متا نیز با تأیید آزمایشی بودن نسخه مورد استفاده در LMArena اعلام کرد:
«نسخه چت آزمایشی Llama 4 Maverick موفق به کسب امتیاز ELO معادل ۱۴۱۷ در LMArena شده است. این نسخه فقط برای ارزیابی داخلی بوده و با نسخه نهایی تفاوتهایی داشته است.»
پاسخ رسمی متا درباره تقلب در بنچمارک Llama 4
شرکت متا در واکنش به این حواشی طی بیانیهای اعلام کرد:
«این اتهامات بهکلی نادرست هستند. متا هرگز از دادههای بنچمارک در آموزش مدلها برای دستکاری نتایج استفاده نکرده است و نخواهد کرد.»
همچنین این شرکت با اشاره به تفاوتهای اولیه در نسخههای عمومی و آزمایشی تصریح کرد که به دلیل عرضه سریع مدلها، مدتی زمان لازم است تا تمامی نسخههای پیادهسازیشده در سرویسهای مختلف، به طور کامل بهینهسازی و همراستا شوند.