• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » سامسونگ از TRUEBench برای سنجش بهره‌وری هوش مصنوعی  پرده‌برداری کرد

سامسونگ از TRUEBench برای سنجش بهره‌وری هوش مصنوعی  پرده‌برداری کرد

امیرحسین یونس نوشته شده توسط امیرحسین یونس
جمعه 4 مهر 1404 - 22:15
در اخبار هوش مصنوعی, فناوری
Samsung TRUEBench
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

TRUEBench سامسونگ با ۲,۴۸۵ سناریو در ده دسته و دوازده زبان، عملکرد واقعی مدل‌های هوش مصنوعی را در محیط کاری می‌سنجد.

به گزارش تک‌ناک، سامسونگ ابزار جدیدی به نام TRUEBench معرفی کرده است که با هدف ارزیابی توانایی سیستم‌های هوش مصنوعی در انجام وظایف واقعی محیط کار طراحی شده است، نه صرفاً آزمون‌های محدود و آکادمیک. این معیار سنجش شامل ۲,۴۸۵ سناریو در ده دسته و دوازده زبان مختلف می‌شود و همه‌چیز از درخواست‌های کوتاه تا پردازش اسناد طولانی را پوشش می‌دهد. سیستم امتیازدهی آن بسیار سخت‌گیرانه است؛ چرا‌که مدل‌ها باید تمام شرایط هر آزمون را برآورده کنند و همین امر نتایج را دشوارتر اما واقعی‌تر می‌سازد.

سال‌هاست که معیارهای هوش مصنوعی نتوانسته‌اند آنچه کاربران در عمل از این سیستم‌ها انتظار دارند، به‌درستی منعکس کنند. بیشتر آزمون‌ها همچنان بر پرسش و پاسخ‌های انگلیسی‌محور تمرکز دارند که هرچند مرتب به نظر می‌رسند، تنوع فعالیت‌های کاری روزمره را نشان نمی‌دهند. TRUEBench با نام کامل Trustworthy Real-world Usage Evaluation Benchmark پا را فراتر گذاشته و عملکرد مدل‌ها را در کارهایی همچون خلاصه‌سازی اسناد، ترجمه در دوازده زبان، تحلیل داده و اجرای دستورالعمل‌های چندمرحله‌ایمی‌سنجد که نیازمند حفظ بافت گفت‌وگو هستند.

نوت‌بوک‌چک می‌نویسد که سامسونگ برای این منظور مجموعه‌ای شامل ۲,۴۸۵ آزمون در ۱۰ دسته و ۴۶ زیرمجموعه توسعه داده است. ورودی‌ها از چند کاراکتر ساده تا بیش از بیست هزار کاراکتر متغیر هستند تا شرایطی شبیه فرمان‌های سریع یا گزارش‌های طولانی اداری را شبیه‌سازی کنند.

Samsung TRUEBench

برای قبولی در هر آزمون، مدل باید همه شرایط مشخص را برآورده کند. این روش «همه یا هیچ» نتایج را به واقعیت نزدیک‌تر می‌کند؛ چرا‌که خروجی فقط زمانی سودمند است که تمام نیازها را پاسخ دهد. سامسونگ این چهارچوب را با ترکیب بازبینی انسانی و بررسی هوش مصنوعی طراحی کرده است. ابتدا انسان‌ها شرایط اولیه را تعریف کردند و سپس هوش مصنوعی تناقض‌ها را مشخص کرد و در نهایت بازهم انسان‌ها اصلاحات را اعمال کردند تا سیستم نهایی شود. پس‌از آن، ارزیابی‌ها به‌صورت خودکار و در مقیاس وسیع اجرا شدند.

همچنین، سامسونگ مجموعه داده‌ها و جدول رتبه‌بندی و آمار خروجی را ازطریق Hugging Face به‌صورت عمومی منتشر کرده است. کاربران می‌توانند تا پنج مدل را به‌طور مستقیم مقایسه و نتایج را بررسی کنند. این سطح از شفافیت به توسعه‌دهندگان و پژوهشگران و کاربران امکان می‌دهد تا خودشان به‌جای اتکا به ادعاهای سامسونگ، کیفیت واقعی معیار را ارزیابی کنند.

بااین‌حال، TRUEBench بی‌نقص نیست. تعیین قوانین همواره با درجه‌ای از سوگیری همراه است و الزام به موفقیت کامل در هر شرط بدین‌معناست که پاسخ‌های جزئی، اما مفید نیز شکست تلقی می‌شوند. هرچند پشتیبانی از زبان‌ها گسترده‌تر از بسیاری از آزمون‌های موجود است، عملکرد در زبان‌هایی با داده آموزشی محدود متفاوت خواهد بود. همچنین، تمرکز این آزمون بیشتر بر وظایف عمومی کسب‌وکار است و حوزه‌های تخصصی مانند حقوق، پزشکی یا پژوهش‌های علمی را به‌طور کامل پوشش نمی‌دهد.

امیرحسین یونس

امیرحسین یونس

کارشناس ارشد محیط زیست، نویسنده حوزه تکنولوژی

مطالب مرتبط

مدیرعامل انویدیا: هیچ‌کس به بمب اتم نیاز ندارد، هوش‌مصنوعی نیاز همه است
اخبار هوش مصنوعی

مدیرعامل انویدیا: دنیا به هوش مصنوعی مستقل نیاز دارد نه ساخت بمب اتم!

نوشته شده توسط اسما کلهر
4 مهر 1404
فرمان اجرایی ترامپ درباره تیک‌تاک
شبکه های اجتماعی

ترامپ فرمان‌های اجرایی جدیدی برای تیک‌تاک در آمریکا امضا کرد

نوشته شده توسط امیرحسین یونس
4 مهر 1404
Meta Vibe
اخبار هوش مصنوعی

متا فید ویدئویی جدید مبتنی‌بر هوش مصنوعی Vibes را راه‌اندازی کرد

نوشته شده توسط امیرحسین یونس
4 مهر 1404
Nvidia AI voice animation tech
اخبار هوش مصنوعی

فناوری انیمیشن صدای هوش مصنوعی انویدیا برای همه در دسترس قرار گرفت

نوشته شده توسط امیرحسین یونس
4 مهر 1404
به‌روزرسانی جامع Gemini 2.5 Flash
اخبار هوش مصنوعی

به‌روزرسانی جامع Gemini 2.5 Flash با تمرکز بر پاسخ‌های شفاف‌تر و درک بهتر تصاویر

نوشته شده توسط اسما کلهر
4 مهر 1404
خبر بعدی
کیبورد مکانیکی لنوو خودشارژ است؛ نیازی به کابل نیست

کیبورد مکانیکی بی سیم وخودشارژ لنوو رونمایی شد

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

به‌روزرسانی One UI 8 برای گوشی‌های میان‌رده محبوب ارایه شد

به‌روزرسانی One UI 8 برای گوشی‌های میان‌رده محبوب سامسونگ منتشر شد

10 شهریور 1404 - به‌روزشده در 13 شهریور 1404
بهترین لپ تاپ های بازار

بهترین لپ تاپ های بازار ایران در سال ۱۴۰۴

16 شهریور 1404

داغ‌ترین‌های روز

تجهیزات جنگی پیشرفته روسی در راه ایران

ورود جنگنده و سامانه های موشکی روسی به ایران

1 مهر 1404
بزرگ‌ترین هواپیمای باری جهان رونمایی شد

بزرگ‌ترین هواپیمای باری جهان رونمایی شد

1 مهر 1404
رونمایی چین از نخستین پهپاد رزمی رادارگریز دریامحور جهان

رونمایی چین از نخستین پهپاد رزمی رادارگریز دریامحور جهان

1 مهر 1404
بهترین گوشی های شیائومی از نظر دوربین

بهترین گوشی های شیائومی از نظر دوربین و عکاسی در تابستان ۱۴۰۴

30 شهریور 1404 - به‌روزشده در 1 مهر 1404
چین نخستین توربین بادی هوابرد در جهان را آزمایش کرد

چین نخستین توربین بادی هوابرد در جهان را آزمایش کرد

3 مهر 1404
تک ناک - اخبار تکنولوژی روز جهان و ایران

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

ادعای CMF؛ هدفون‌های روگوشی ۱۰۰ ساعت شارژ نگه می‌دارند

ادعای CMF؛ هدفون‌های روگوشی ۱۰۰ ساعت شارژ نگه می‌دارند

4 مهر 1404
اپل به دادخواست آمریکا در مورد تأخیر در ارائه ویژگی‌های سیری پاسخ می‌دهد

اپل اتهام تأخیر در ارائه ویژگی‌های پیشرفته سیری را قبول ندارد

4 مهر 1404
خطر امنیتی در کمین کاربران وان‌پلاس؛ مراقب حریم‌خصوصی‌تان باشید

خطر امنیتی در کمین کاربران وان‌پلاس؛ مراقب حریم‌خصوصی‌تان باشید

4 مهر 1404
اشتراک پولی بدون تبلیغات فیسبوک و اینستاگرام معرفی شذ

اشتراک پولی بدون تبلیغات فیسبوک و اینستاگرام معرفی شد

4 مهر 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir