• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » شکاف آماری در عملکرد مدل o3 شرکت OpenAI

شکاف آماری در عملکرد مدل o3 شرکت OpenAI

سید محمد برازنده نوشته شده توسط سید محمد برازنده
دوشنبه 1 اردیبهشت 1404 - 11:40
در اخبار هوش مصنوعی, فناوری
شکاف آماری در عملکرد مدل o3 شرکت OpenAI
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

گزارش‌ها حاکی از آن است که عملکرد مدل هوش مصنوعی o3 شرکت OpenAI در آزمون FrontierMath بسیار کمتر از ادعای اولیه این شرکت است.

به گزارش تک‌ناک، شرکت OpenAI با معرفی مدل هوش مصنوعی خود با نام o3 در ماه دسامبر، ادعا کرد که این مدل می‌تواند به بیش از ۲۵ درصد از پرسش‌های مجموعه FrontierMath پاسخ درست دهد؛ رقمی که رقبا را با اختلاف زیادی پشت سر می‌گذاشت، چرا که نزدیک‌ترین مدل پس از آن تنها حدود ۲ درصد از این سوالات را پاسخ داده بود.

مارک چن، مدیر ارشد تحقیقات OpenAI، در جریان یک پخش زنده گفته بود: «در حال حاضر، همه مدل‌های موجود کمتر از ۲ درصد امتیاز دارند. اما ما در محیط‌های آزمایشی داخلی و با استفاده از توان محاسباتی بالا، توانسته‌ایم با o3 به بیش از ۲۵ درصد دست یابیم.»

اما اکنون به نظر می‌رسد که این رقم، مربوط به نسخه‌ای از o3 بوده است که از توان پردازشی بالاتری نسبت به نسخه عمومی‌شده اخیر بهره می‌برد.

موسسه تحقیقاتی Epoch AI که مجموعه FrontierMath را طراحی کرده است، روز جمعه نتایج آزمایش‌های مستقل خود را منتشر کرد و نشان داد که عملکرد مدل o3 در این آزمون تنها حدود ۱۰ درصد بوده است؛ بسیار کمتر از آنچه OpenAI در ابتدا مدعی شده بود. این اختلاف، بحث‌هایی را درباره شفافیت شرکت OpenAI و روش‌های ارزیابی آن برانگیخته است.

البته این موضوع لزوماً به‌ معنای ارائه اطلاعات نادرست توسط OpenAI نیست. نتایج اولیه این شرکت شامل بازه‌ای از امتیازات بودند که رقم پایین‌تر آن با ارزیابی Epoch مطابقت دارد. خود Epoch نیز تأکید کرده که ممکن است تفاوت در نسخه سوالات و محیط آزمایش، دلیل این اختلاف باشد. به‌ عنوان نمونه، OpenAI ممکن است از نسخه‌ای خاص‌تر از سوالات FrontierMath یا از زیرساخت داخلی قدرتمندتری بهره برده باشد.

علاوه بر این، بنیاد ARC Prize که نسخه‌ای از مدل o3 را پیش از انتشار عمومی آزمایش کرده بود، اعلام کرد که مدل عمومی‌شده با آنچه مورد ارزیابی قرار گرفته، تفاوت داشته و برای کاربردهای محاوره‌ای و تجاری بهینه‌سازی شده است.

شکاف آماری در عملکرد مدل o3 شرکت OpenAI وجود دارد

وندژو، یکی از اعضای تیم فنی OpenAI نیز در یک پخش زنده اعلام کرد که نسخه منتشرشده مدل o3 برای کاربردهای واقعی و سرعت بیشتر بهینه‌سازی شده است و همین مسئله امکان دارد باعث اختلاف در نتایج معیارها شود. وی تصریح کرد: «ما مدل را برای کارآمدی بیشتر و پاسخ‌دهی سریع‌تر بهینه کرده‌ایم.»

با وجود این، نکته مهم آن است که نسخه عمومی o3 از وعده‌های اولیه شرکت پایین‌تر عمل کرده، هرچند مدل‌های o3-mini-high و o4-mini اکنون عملکرد بهتری از o3 در FrontierMath دارند و نسخه قدرتمندتری با نام o3-pro نیز در راه است.

این اتفاق یادآور آن است که نتایج معیارهای هوش مصنوعی، به‌ویژه زمانی که از سوی خود شرکت‌ها منتشر می‌شوند، باید با احتیاط مورد توجه قرار گیرند. در فضای رقابتی کنونی، شرکت‌های فعال در حوزه هوش مصنوعی به‌ طور فزاینده‌ای با چالش شفافیت در نتایج مواجه هستند.

در ماه ژانویه نیز مشخص شد که Epoch پیش از اعلام رسمی نتایج مدل o3، از OpenAI بودجه دریافت کرده است، اما این مسئله را بلافاصله افشا نکرده بود. برخی از محققانی که در توسعه FrontierMath نقش داشتند، از این همکاری بی‌خبر بودند.

در موارد دیگر نیز، شرکت‌هایی مانند xAI متعلق به ایلان ماسک و متا به‌ دلیل ارائه نمودارهای گمراه‌کننده یا استفاده از مدل‌هایی متفاوت از نسخه‌های عمومی‌شده، مورد انتقاد قرار گرفته‌اند.

سید محمد برازنده

سید محمد برازنده

کارشناسی مترجمی زبان فرانسه. از سال 87 تاکنون در حوزه های مختلف سابقه ترجمه دارم. بیش از یک سال هست که مترجم حوزه فناوری تو سایت تک ناک هستم.

مطالب مرتبط

تراشهٔ سیلیکونی درون دستگاه ساخت نیمه‌هادی، هنگام نصب و بررسی معماری سه‌بعدی با دستکش ایمنی در محیط آزمایشگاهی.
پیشنهاد سردبیر

تراشه سه بعدی با معماری عمودی و عملکرد ۱۰ برابری ساخته شد

نوشته شده توسط نرگس چالوک
23 آذر 1404
نخستین بدنه نرم‌افزارمحور چاپ سه‌بعدی جهان معرفی شد
فناوری

نخستین بدنه نرم‌افزارمحور چاپ سه‌بعدی جهان معرفی شد

نوشته شده توسط مانی
23 آذر 1404
دقت بهترین مدل هوش مصنوعی تنها ۶۹ درصد است
اخبار هوش مصنوعی

دقت بهترین مدل هوش مصنوعی تنها ۶۹ درصد است

نوشته شده توسط سید محمد برازنده
23 آذر 1404
یک‌چهارم نوجوانان برای حمایت روانی به چت‌بات‌های هوش مصنوعی روی آورده‌اند
اخبار هوش مصنوعی

یک‌چهارم نوجوانان برای حمایت روانی به چت‌بات‌های هوش مصنوعی روی آورده‌اند

نوشته شده توسط مانی
23 آذر 1404
ساخت مسکن با چاپ سه‌بعدی در دانمارک رکورد زد
فناوری

ساخت مسکن با چاپ سه‌بعدی در دانمارک رکورد زد + تصویر

نوشته شده توسط نرگس چالوک
23 آذر 1404
خبر بعدی
قیمت بیت کوین به ۸۷,۰۰۰ دلار رسید؛ بالاترین سطح از ۲۸ مارس تاکنون

قیمت بیت کوین به 87 هزار دلار رسید؛ بالاترین سطح از 28 مارس تاکنون

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

یک ربات انسان‌نما در حال کار با کامپیوتر در یک دفتر در حالی که یک کارمند انسانی در پس‌زمینه وسایل خود را در یک جعبه جمع‌آوری می‌کند.

هوش مصنوعی کدام شغل‌ها را تهدید می‌کند؟

8 آذر 1404 - به‌روزشده در 9 آذر 1404
تلفن محکم HMD Terra M با صفحه‌کلید فیزیکی و صفحه‌نمایش روشن، که در یک داک شارژ مشکی قرار دارد و نور سبز شارژ را نشان می‌دهد.

شرکت HMD یک گوشی هوشمند فوق‌مقاوم برای بخش‌های حساس معرفی کرد

27 آبان 1404

داغ‌ترین‌های روز

ساعت های کاسیو

پرفروش‌ترین و گران‌ترین ساعت های کاسیو؛ از جی‌شاک تا ادیفایس

16 آذر 1404
ریپل

مدیرعامل ریپل: سرعت رشد صندوق‌های ریپل نشان‌دهنده یک تغییر بزرگ در بازار است

18 آذر 1404
تاریخ تحویل اولین محموله هواپیمای سوخو-۳۵ به ایران مشخص شد

تاریخ تحویل اولین محموله هواپیمای سوخو-۳۵ به ایران مشخص شد

16 آذر 1404
تحلیلگر سرشناس: قیمت دو رقمی برای ریپل (XRP) غیرواقعی است

تحلیلگر سرشناس: قیمت دو رقمی برای ریپل (XRP) غیرواقعی است

17 آذر 1404
پهپاد ۱۶ تنی  Jetank در چین به پرواز درآمد

پهپاد ۱۶ تنی  Jetank در چین به پرواز درآمد + ویدیو

22 آذر 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

اگر ارزش صندوق‌های ETF ریپل (XRP) به ۱۰ میلیارد دلار برسند چه اتفاقی می‌افتد؟

اگر ارزش صندوق‌های ETF ریپل (XRP) به ۱۰ میلیارد دلار برسند چه اتفاقی می‌افتد؟

23 آذر 1404
جمع‌بندی هفتگی اخبار دنیای رمزارزها | ۱۴ دسامبر ۲۰۲۵

جمع‌بندی هفتگی اخبار دنیای رمزارزها | ۱۴ دسامبر ۲۰۲۵

23 آذر 1404
معاون بانک مرکزی هند: بیت‌کوین فاقد ارزش واقعی است

معاون بانک مرکزی هند: بیت‌کوین فاقد ارزش واقعی است

23 آذر 1404
قرارداد جدید مایکروسافت برای حذف میلیون‌ها تن کربن

قرارداد جدید مایکروسافت برای حذف میلیون‌ها تن کربن

23 آذر 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir