شرکت OpenAI، استارتآپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارکهای مربوط به هوش مصنوعی Grok 3 متهم کرد.
به گزارش تکناک، ایگور بابوشکین، یکی از همبنیانگذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحثها پیرامون بنچمارکهای هوش مصنوعی و نحوه ارائه آنها توسط شرکتهای فعال در این حوزه، اکنون به فضای عمومی کشیده شده است.
استارتآپ xAI در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد Grok 3 را در آزمون ریاضی AIME 2025 به نمایش میگذاشت. برخی متخصصان، اعتبار این آزمون را به عنوان یک معیار سنجش هوش مصنوعی زیر سؤال بردهاند، با وجود این، AIME 2025 و نسخههای پیشین آن اغلب برای ارزیابی توانایی ریاضی مدلها به کار میروند.

بر اساس این نمودار و نتایج بنچمارکها، دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، موفق شدهاند مدل o3-mini-high، که بهترین مدل موجود OpenAI است را در آزمون AIME 2025 شکست دهند. اما کارکنان OpenAI در X به سرعت واکنش نشان دادند و تأکید کردند که این نمودار، امتیاز مدل o3-mini-high را در معیار “cons@64” لحاظ نکرده است.
اما “cons@64” چیست؟ این معیار که مخفف “consensus@64” است، به مدل اجازه میدهد 64 بار به هر سؤال پاسخ دهد و در نهایت، پرتکرارترین پاسخ را به عنوان جواب نهایی در نظر میگیرد. این روش اغلب باعث افزایش چشمگیر امتیاز مدلها در بنچمارکها میشود. حذف این معیار از نمودار میتواند این تصور را ایجاد کند که یک مدل از مدل دیگر برتر است، در حالی که در عمل اینگونه نیست.
در معیار “@1” – که نشاندهنده امتیاز اولیه مدلها در اولین تلاش است – امتیازات Grok 3 Reasoning Beta و Grok 3 mini Reasoning کمتر از امتیاز o3-mini-high است. علاوه بر این، Grok 3 Reasoning Beta حتی اندکی پایینتر از مدل o1 شرکت OpenAI با تنظیمات “medium” قرار میگیرد. با وجود این، xAI همچنان Grok 3 را به عنوان «باهوشترین هوش مصنوعی جهان» معرفی کرده است.
بابوشکین در X استدلال کرد که OpenAI نیز در گذشته نمودارهای مشابهی منتشر کرده است، هرچند که این نمودارها مربوط به مقایسه مدلهای خود شرکت بودهاند. در همین حال، یک تحلیلگر مستقل نموداری دقیقتر منتشر کرده است، که عملکرد تمامی مدلها را در معیار cons@64 نشان میدهد.
با وجود این، همانطور که ناتان لمبرت، محقق هوش مصنوعی اشاره کرده است، شاید مهمترین عامل همچنان نامشخص باشد، اینکه هزینه محاسباتی و مالی هر مدل برای رسیدن به بهترین امتیاز در چه حدی بوده است.
این موضوع نشان میدهد که بنچمارکهای هوش مصنوعی تنها بخش کوچکی از تصویر کلی را نمایش میدهند و اطلاعات کاملی درباره محدودیتها و نقاط قوت مدلها ارائه نمیکنند.