• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟

جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟

سید محمد برازنده نوشته شده توسط سید محمد برازنده
یکشنبه 5 اسفند 1403 - 15:00
در اخبار هوش مصنوعی, فناوری
جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

شرکت OpenAI، استارت‌آپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارک‌های مربوط به هوش مصنوعی Grok 3 متهم کرد.

به گزارش تک‌ناک، ایگور بابوشکین، یکی از هم‌بنیان‌گذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحث‌ها پیرامون بنچمارک‌های هوش مصنوعی و نحوه ارائه آنها توسط شرکت‌های فعال در این حوزه، اکنون به فضای عمومی کشیده شده است.

استارت‌آپ xAI در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد Grok 3 را در آزمون ریاضی AIME 2025 به نمایش می‌گذاشت. برخی متخصصان، اعتبار این آزمون را به‌ عنوان یک معیار سنجش هوش مصنوعی زیر سؤال برده‌اند، با وجود این‌، AIME 2025 و نسخه‌های پیشین آن اغلب برای ارزیابی توانایی ریاضی مدل‌ها به کار می‌روند.

جنجال بر سر بنچمارک‌های هوش مصنوعی Grok 3

بر اساس این نمودار و نتایج بنچمارک‌ها، دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، موفق شده‌اند مدل o3-mini-high، که بهترین مدل موجود OpenAI است را در آزمون AIME 2025 شکست دهند. اما کارکنان OpenAI در X به سرعت واکنش نشان دادند و تأکید کردند که این نمودار، امتیاز مدل o3-mini-high را در معیار “cons@64” لحاظ نکرده است.

اما “cons@64” چیست؟ این معیار که مخفف “consensus@64” است، به مدل اجازه می‌دهد 64 بار به هر سؤال پاسخ دهد و در نهایت، پرتکرارترین پاسخ را به‌ عنوان جواب نهایی در نظر می‌گیرد. این روش اغلب باعث افزایش چشمگیر امتیاز مدل‌ها در بنچمارک‌ها می‌شود. حذف این معیار از نمودار می‌تواند این تصور را ایجاد کند که یک مدل از مدل دیگر برتر است، در حالی‌ که در عمل اینگونه نیست.

در معیار “@1” – که نشان‌دهنده امتیاز اولیه مدل‌ها در اولین تلاش است – امتیازات Grok 3 Reasoning Beta و Grok 3 mini Reasoning کمتر از امتیاز o3-mini-high است. علاوه بر این، Grok 3 Reasoning Beta حتی اندکی پایین‌تر از مدل o1 شرکت OpenAI با تنظیمات “medium” قرار می‌گیرد. با وجود این‌، xAI همچنان Grok 3 را به‌ عنوان «باهوش‌ترین هوش مصنوعی جهان» معرفی کرده است.

بابوشکین در X استدلال کرد که OpenAI نیز در گذشته نمودارهای مشابهی منتشر کرده است، هرچند که این نمودارها مربوط به مقایسه مدل‌های خود شرکت بوده‌اند. در همین حال، یک تحلیلگر مستقل نموداری دقیق‌تر منتشر کرده است، که عملکرد تمامی مدل‌ها را در معیار cons@64 نشان می‌دهد.

با وجود این‌، همان‌طور که ناتان لمبرت، محقق هوش مصنوعی اشاره کرده است، شاید مهم‌ترین عامل همچنان نامشخص باشد، اینکه هزینه محاسباتی و مالی هر مدل برای رسیدن به بهترین امتیاز در چه حدی بوده است.

این موضوع نشان می‌دهد که بنچمارک‌های هوش مصنوعی تنها بخش کوچکی از تصویر کلی را نمایش می‌دهند و اطلاعات کاملی درباره محدودیت‌ها و نقاط قوت مدل‌ها ارائه نمی‌کنند.

سید محمد برازنده

سید محمد برازنده

کارشناسی مترجمی زبان فرانسه. از سال 87 تاکنون در حوزه های مختلف سابقه ترجمه دارم. بیش از یک سال هست که مترجم حوزه فناوری تو سایت تک ناک هستم.

مطالب مرتبط

نمای گروهی از شخصیت‌های بازی Clair Obscur: Expedition 33 با لباس‌های فانتزی و جزئیات گرافیکی، تمرکز بر طراحی هنری و هویت بصری بازی در محیط داخلی داستان‌محور
اخبار هوش مصنوعی

جایزه بهترین بازی از Clair Obscur به‌دلیل استفاده از هوش مصنوعی پس گرفته شد

نوشته شده توسط تارخ ترهنده
1 دی 1404
نمای بیرونی ساختمان‌های بزرگ مرکز داده با لوگوی Google.
فناوری

آلفابت شرکت مرکز داده Intersect را به قیمت ۴.۷۵ میلیارد دلار خریداری می‌کند

نوشته شده توسط اسما کلهر
1 دی 1404
دور زدن DRM اسپاتیفای
امنیت سایبری

گروه «آرشیو آنا» کتابخانه ۳۰۰ ترابایتی اسپاتیفای را استخراج کرد؛ تحقیقات درحال پیگیری است

نوشته شده توسط اسما کلهر
1 دی 1404
تصویر تبلیغاتی جاروبرقی سامسونگ Jet Fit در یک محیط خانه مدرن به همراه دو مدل خانم و آقا.
فناوری

سامسونگ سبک‌ترین جاروبرقی بی‌سیم میله‌ای را با قدرت مکش ۱۸۰ وات و وزن کمتر از ۲ کیلوگرم رونمایی کرد

نوشته شده توسط امیرحسین یونس
1 دی 1404
پیشرفت در هماهنگی ربات‌ها و پهپادها با درهم‌تنیدگی کوانتومی
فناوری

پیشرفت در هماهنگی ربات‌ها و پهپادها با درهم‌تنیدگی کوانتومی

نوشته شده توسط مانی
1 دی 1404
خبر بعدی
رونمایی از مانیتور گیمینگ 520 هرتزی XG2737 ویوسونیک

رونمایی از مانیتور گیمینگ 520 هرتزی XG2737 ویوسونیک

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

نمای نزدیک ساعت هوشمند هواوی (Huawei Watch) روی مچ دست با نمایش اطلاعات محیطی.

هواوی پادشاه جدید بازار ساعت‌های هوشمند

26 آذر 1404 - به‌روزشده در 27 آذر 1404
تصویری از ایلان ماسک با پوشش رسمی که یک لیوان قهوه در دست دارد

پست‌های نژادپرستانه جدید ایلان ماسک جنجال‌برانگیز شد

12 آذر 1404

داغ‌ترین‌های روز

سامانه پدافند هوایی S-500 روسیه روی خودروی پرتابگر

پدافند هوایی S-500 روسیه رسما آغاز به کار کرد

29 آذر 1404
نمای نزدیک از ساعت هوشمند Huawei Watch نسخه دهمین سالگرد با بدنه فلزی، تاج چرخان و صفحه نمایش دایره‌ای حاوی ویجت‌ های سلامت و زمان، تمرکز بر طراحی پریمیوم و رابط کاربری پیشرفته

هواوی نسخه دهمین سالگرد هواوی واچ را هم‌زمان با نوا ۱۵ معرفی می‌کند

26 آذر 1404
پوستر تبلیغاتی ساعت Rogbid در طبیعت که قابلیت چراغ‌قوه جانبی و مسیریابی روی صفحه آن فعال است.

ساعت هوشمند راگبید Enduro با باتری ۱۱۰۰ میلی‌آمپر ساعتی عرضه شد

24 آذر 1404 - به‌روزشده در 25 آذر 1404
لوگوی گرافیکی ویندوز ۱۱ که در زیر آن آیکون سفید یک حشره (نشان‌دهنده باگ نرم‌افزاری) قرار دارد.

بحران مدیریت حافظه در ویندوز ۱۱؛ شناسایی سرویس‌های مخفی که «رَم» سیستم را می‌بلعند

27 آذر 1404
قابل اعتمادترین برندهای خودرویی سال ۲۰۲۶

قابل اعتمادترین برندهای خودرویی سال ۲۰۲۶ معرفی شدند+ تصویر

26 آذر 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

نمای بسیار نزدیک از لنزهای دوربین سه‌گانه در رنگ‌های مختلف بدنه آیفون ۱۸ شامل بنفش، آبی و سبز.

زمان تولید آزمایشی مدل های مختلف آیفون ۱۸ اعلام شد

1 دی 1404
دستبند هوشمند فلزی ظریف با بند مشبک رزگلد و نمایشگر دیجیتال که زمان و تاریخ را نشان می‌دهد.

باریک‌ترین مچ‌بند فلزی هوشمند جهان رونمایی شد

1 دی 1404
نمای گروهی از شخصیت‌های بازی Clair Obscur: Expedition 33 با لباس‌های فانتزی و جزئیات گرافیکی، تمرکز بر طراحی هنری و هویت بصری بازی در محیط داخلی داستان‌محور

جایزه بهترین بازی از Clair Obscur به‌دلیل استفاده از هوش مصنوعی پس گرفته شد

1 دی 1404
مردی که عینک هوشمند به چشم دارد و رابط کاربری واقعیت افزوده (AR) شامل تقویم آگوست ۲۰۲۵ و یادآور گیت پرواز را مشاهده می‌کند.

ویژگی منحصربفرد عینک‌های هوش مصنوعی HTC

1 دی 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir