• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » شکاف آماری در عملکرد مدل o3 شرکت OpenAI

شکاف آماری در عملکرد مدل o3 شرکت OpenAI

سید محمد برازنده نوشته شده توسط سید محمد برازنده
دوشنبه 1 اردیبهشت 1404 - 11:40
در اخبار هوش مصنوعی, فناوری
شکاف آماری در عملکرد مدل o3 شرکت OpenAI
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

گزارش‌ها حاکی از آن است که عملکرد مدل هوش مصنوعی o3 شرکت OpenAI در آزمون FrontierMath بسیار کمتر از ادعای اولیه این شرکت است.

به گزارش تک‌ناک، شرکت OpenAI با معرفی مدل هوش مصنوعی خود با نام o3 در ماه دسامبر، ادعا کرد که این مدل می‌تواند به بیش از ۲۵ درصد از پرسش‌های مجموعه FrontierMath پاسخ درست دهد؛ رقمی که رقبا را با اختلاف زیادی پشت سر می‌گذاشت، چرا که نزدیک‌ترین مدل پس از آن تنها حدود ۲ درصد از این سوالات را پاسخ داده بود.

مارک چن، مدیر ارشد تحقیقات OpenAI، در جریان یک پخش زنده گفته بود: «در حال حاضر، همه مدل‌های موجود کمتر از ۲ درصد امتیاز دارند. اما ما در محیط‌های آزمایشی داخلی و با استفاده از توان محاسباتی بالا، توانسته‌ایم با o3 به بیش از ۲۵ درصد دست یابیم.»

اما اکنون به نظر می‌رسد که این رقم، مربوط به نسخه‌ای از o3 بوده است که از توان پردازشی بالاتری نسبت به نسخه عمومی‌شده اخیر بهره می‌برد.

موسسه تحقیقاتی Epoch AI که مجموعه FrontierMath را طراحی کرده است، روز جمعه نتایج آزمایش‌های مستقل خود را منتشر کرد و نشان داد که عملکرد مدل o3 در این آزمون تنها حدود ۱۰ درصد بوده است؛ بسیار کمتر از آنچه OpenAI در ابتدا مدعی شده بود. این اختلاف، بحث‌هایی را درباره شفافیت شرکت OpenAI و روش‌های ارزیابی آن برانگیخته است.

البته این موضوع لزوماً به‌ معنای ارائه اطلاعات نادرست توسط OpenAI نیست. نتایج اولیه این شرکت شامل بازه‌ای از امتیازات بودند که رقم پایین‌تر آن با ارزیابی Epoch مطابقت دارد. خود Epoch نیز تأکید کرده که ممکن است تفاوت در نسخه سوالات و محیط آزمایش، دلیل این اختلاف باشد. به‌ عنوان نمونه، OpenAI ممکن است از نسخه‌ای خاص‌تر از سوالات FrontierMath یا از زیرساخت داخلی قدرتمندتری بهره برده باشد.

علاوه بر این، بنیاد ARC Prize که نسخه‌ای از مدل o3 را پیش از انتشار عمومی آزمایش کرده بود، اعلام کرد که مدل عمومی‌شده با آنچه مورد ارزیابی قرار گرفته، تفاوت داشته و برای کاربردهای محاوره‌ای و تجاری بهینه‌سازی شده است.

شکاف آماری در عملکرد مدل o3 شرکت OpenAI وجود دارد

وندژو، یکی از اعضای تیم فنی OpenAI نیز در یک پخش زنده اعلام کرد که نسخه منتشرشده مدل o3 برای کاربردهای واقعی و سرعت بیشتر بهینه‌سازی شده است و همین مسئله امکان دارد باعث اختلاف در نتایج معیارها شود. وی تصریح کرد: «ما مدل را برای کارآمدی بیشتر و پاسخ‌دهی سریع‌تر بهینه کرده‌ایم.»

با وجود این، نکته مهم آن است که نسخه عمومی o3 از وعده‌های اولیه شرکت پایین‌تر عمل کرده، هرچند مدل‌های o3-mini-high و o4-mini اکنون عملکرد بهتری از o3 در FrontierMath دارند و نسخه قدرتمندتری با نام o3-pro نیز در راه است.

این اتفاق یادآور آن است که نتایج معیارهای هوش مصنوعی، به‌ویژه زمانی که از سوی خود شرکت‌ها منتشر می‌شوند، باید با احتیاط مورد توجه قرار گیرند. در فضای رقابتی کنونی، شرکت‌های فعال در حوزه هوش مصنوعی به‌ طور فزاینده‌ای با چالش شفافیت در نتایج مواجه هستند.

در ماه ژانویه نیز مشخص شد که Epoch پیش از اعلام رسمی نتایج مدل o3، از OpenAI بودجه دریافت کرده است، اما این مسئله را بلافاصله افشا نکرده بود. برخی از محققانی که در توسعه FrontierMath نقش داشتند، از این همکاری بی‌خبر بودند.

در موارد دیگر نیز، شرکت‌هایی مانند xAI متعلق به ایلان ماسک و متا به‌ دلیل ارائه نمودارهای گمراه‌کننده یا استفاده از مدل‌هایی متفاوت از نسخه‌های عمومی‌شده، مورد انتقاد قرار گرفته‌اند.

سید محمد برازنده

سید محمد برازنده

کارشناسی مترجمی زبان فرانسه. از سال 87 تاکنون در حوزه های مختلف سابقه ترجمه دارم. بیش از یک سال هست که مترجم حوزه فناوری تو سایت تک ناک هستم.

مطالب مرتبط

فردی در حال استفاده از تبلت که صفحه اصلی ویکی‌پدیا روی آن نمایش داده شده و نمادی از دسترسی آنلاین به دانش، یادگیری دیجیتال و محتوای مشارکتی است
امنیت سایبری

ویکی‌پدیا وبسایت Archive Today را از فهرست منابع خود حذف می‌کند

نوشته شده توسط تارخ ترهنده
2 اسفند 1404
تصویری گرافیکی از چهار ربات سفید کوچک شبیه به هم که به ردیف پشت میز نشسته و با لپ‌تاپ‌های آبی کار می‌کنند.
اخبار هوش مصنوعی

Ferret-UI Lite اپل با ۳ میلیارد پارامتر، عملکردی در حد مدل‌های ۲۴ برابر بزرگ‌تر ارائه می‌دهد

نوشته شده توسط امیرحسین یونس
2 اسفند 1404
دستی که گوشی هوشمندی با نماد VPN و نقشه جهان را در مقابل پرچم ایران نگه داشته است.
فناوری

بحران بودجه آمریکا؛ میلیون‌ها ایرانی از هفته آینده در خطر قطع دسترسی به وی‌پی‌ان‌های حیاتی

نوشته شده توسط امیرحسین یونس
2 اسفند 1404
لوگوی سفید واتس‌اپ بر روی پس‌زمینه‌ای با خطوط منحنی سبز رنگ.
پیشنهاد سردبیر

حمله به قلمرو تلگرام؛ قابلیت اسپویلر واتساپ از راه رسید

نوشته شده توسط امیرحسین یونس
2 اسفند 1404
یک اتاق معاملاتی بورس با چندین مانیتور که نمودارهای مالی را نشان می‌دهند و افرادی که پشت میزها نشسته‌اند.
امنیت سایبری

سهام شرکت‌های امنیت سایبری با رونمایی ابزار کلاد کد سکوریتی آنتروپیک سقوط کرد

نوشته شده توسط امیرحسین یونس
2 اسفند 1404
خبر بعدی
قیمت بیت کوین به ۸۷,۰۰۰ دلار رسید؛ بالاترین سطح از ۲۸ مارس تاکنون

قیمت بیت کوین به 87 هزار دلار رسید؛ بالاترین سطح از 28 مارس تاکنون

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

ترامپ تعرفه واردات را به ۱۵ درصد افزایش داد

ترامپ تعرفه واردات را به ۱۵ درصد افزایش داد

3 اسفند 1404
لوگوی رسمی Telegram به‌صورت آیکون دایره‌ای آبی با نماد کاغذ‌پرنده سفید در مرکز، قرارگرفته روی پس‌زمینه‌ای تکرارشونده از لوگوی تلگرام که هویت بصری و برندینگ این پیام‌رسان را برجسته می‌کند.

رابط کاربری جدید تلگرام برای اندروید و iOS معرفی شد

22 بهمن 1404

داغ‌ترین‌های روز

مایکروسافت دسترسی به فایل‌های ISO ویندوز ۱۱ را مسدود کرد

مایکروسافت دسترسی به فایل‌های ISO ویندوز ۱۱ را مسدود کرد

28 بهمن 1404 - به‌روزشده در 29 بهمن 1404
نمای پشتی گوشی Realme با طراحی مینیمال و ماژول دوربین دوگانه، قرارگرفته روی صخره در پس‌زمینه ساحل هنگام غروب

گوشی اقتصادی ریلمی P4 لایت با باتری ۶۳۰۰ میلی‌آمپرساعتی معرفی شد

1 اسفند 1404 - به‌روزشده در 2 اسفند 1404
بحران کمبود رم

خطر ورشکستگی گسترده در صنعت فناوری؛ بحران کمبود رم قربانی می‌گیرد

28 بهمن 1404
بهترین گوشی های کارکرده

این گوشی‌های کارکرده هنوز ارزش خرید دارند!

26 بهمن 1404 - به‌روزشده در 27 بهمن 1404
از ایده تا پرواز پهپاد ونوم در ۷۱ روز؛ پروژه‌ای که معادلات پهپادی را تغییر می‌ دهد

از ایده تا پرواز پهپاد ونوم در ۷۱ روز؛ پروژه‌ای که معادلات پهپادی را تغییر می‌ دهد

2 اسفند 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

مرسدس‌بنز نسخه‌ای کوچک‌تر از G کلاس را تا سال ۲۰۲۷ معرفی می‌ کند

مرسدس‌بنز نسخه‌ای کوچک‌تر از G کلاس را تا سال ۲۰۲۷ معرفی می‌ کند

3 اسفند 1404
ترامپ تعرفه واردات را به ۱۵ درصد افزایش داد

ترامپ تعرفه واردات را به ۱۵ درصد افزایش داد

3 اسفند 1404
لوگوی Xbox با نورپردازی سبز روی پس‌زمینه تیره، نمادی از برند Xbox و اکوسیستم بازی‌های ویدیویی مایکروسافت

آشا شارما: اکوسیستم ایکس باکس غرق هوش مصنوعی نمی‌شود

2 اسفند 1404
نمای نزدیک از پردازنده Intel Core نصب‌شده روی مادربورد، با نمایش مسیرهای داده و مدارهای دیجیتال، نشان‌دهنده عملکرد بالا و پردازش پیشرفته

بازگشت مقتدرانه به سوکت محبوب؛ همه‌چیز درباره پردازنده‌های Bartlett Lake اینتل

2 اسفند 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir