• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » سامسونگ از TRUEBench برای سنجش بهره‌وری هوش مصنوعی  پرده‌برداری کرد

سامسونگ از TRUEBench برای سنجش بهره‌وری هوش مصنوعی  پرده‌برداری کرد

امیرحسین یونس نوشته شده توسط امیرحسین یونس
جمعه 4 مهر 1404 - 22:15 - به‌روزشده در شنبه 5 مهر 1404 - 06:38
در اخبار هوش مصنوعی, فناوری
Samsung TRUEBench
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

TRUEBench سامسونگ با ۲,۴۸۵ سناریو در ده دسته و دوازده زبان، عملکرد واقعی مدل‌های هوش مصنوعی را در محیط کاری می‌سنجد.


به گزارش تک‌ناک، سامسونگ ابزار جدیدی به نام TRUEBench معرفی کرده است که با هدف ارزیابی توانایی سیستم‌های هوش مصنوعی در انجام وظایف واقعی محیط کار طراحی شده است، نه صرفاً آزمون‌های محدود و آکادمیک. این معیار سنجش شامل ۲,۴۸۵ سناریو در ده دسته و دوازده زبان مختلف می‌شود و همه‌چیز از درخواست‌های کوتاه تا پردازش اسناد طولانی را پوشش می‌دهد. سیستم امتیازدهی آن بسیار سخت‌گیرانه است؛ چرا‌که مدل‌ها باید تمام شرایط هر آزمون را برآورده کنند و همین امر نتایج را دشوارتر اما واقعی‌تر می‌سازد.

سال‌هاست که معیارهای هوش مصنوعی نتوانسته‌اند آنچه کاربران در عمل از این سیستم‌ها انتظار دارند، به‌درستی منعکس کنند. بیشتر آزمون‌ها همچنان بر پرسش و پاسخ‌های انگلیسی‌محور تمرکز دارند که هرچند مرتب به نظر می‌رسند، تنوع فعالیت‌های کاری روزمره را نشان نمی‌دهند. TRUEBench با نام کامل Trustworthy Real-world Usage Evaluation Benchmark پا را فراتر گذاشته و عملکرد مدل‌ها را در کارهایی همچون خلاصه‌سازی اسناد، ترجمه در دوازده زبان، تحلیل داده و اجرای دستورالعمل‌های چندمرحله‌ایمی‌سنجد که نیازمند حفظ بافت گفت‌وگو هستند.

نوت‌بوک‌چک می‌نویسد که سامسونگ برای این منظور مجموعه‌ای شامل ۲,۴۸۵ آزمون در ۱۰ دسته و ۴۶ زیرمجموعه توسعه داده است. ورودی‌ها از چند کاراکتر ساده تا بیش از بیست هزار کاراکتر متغیر هستند تا شرایطی شبیه فرمان‌های سریع یا گزارش‌های طولانی اداری را شبیه‌سازی کنند.

Samsung TRUEBench

برای قبولی در هر آزمون، مدل باید همه شرایط مشخص را برآورده کند. این روش «همه یا هیچ» نتایج را به واقعیت نزدیک‌تر می‌کند؛ چرا‌که خروجی فقط زمانی سودمند است که تمام نیازها را پاسخ دهد. سامسونگ این چهارچوب را با ترکیب بازبینی انسانی و بررسی هوش مصنوعی طراحی کرده است. ابتدا انسان‌ها شرایط اولیه را تعریف کردند و سپس هوش مصنوعی تناقض‌ها را مشخص کرد و در نهایت بازهم انسان‌ها اصلاحات را اعمال کردند تا سیستم نهایی شود. پس‌از آن، ارزیابی‌ها به‌صورت خودکار و در مقیاس وسیع اجرا شدند.

همچنین، سامسونگ مجموعه داده‌ها و جدول رتبه‌بندی و آمار خروجی را ازطریق Hugging Face به‌صورت عمومی منتشر کرده است. کاربران می‌توانند تا پنج مدل را به‌طور مستقیم مقایسه و نتایج را بررسی کنند. این سطح از شفافیت به توسعه‌دهندگان و پژوهشگران و کاربران امکان می‌دهد تا خودشان به‌جای اتکا به ادعاهای سامسونگ، کیفیت واقعی معیار را ارزیابی کنند.

بااین‌حال، TRUEBench بی‌نقص نیست. تعیین قوانین همواره با درجه‌ای از سوگیری همراه است و الزام به موفقیت کامل در هر شرط بدین‌معناست که پاسخ‌های جزئی، اما مفید نیز شکست تلقی می‌شوند. هرچند پشتیبانی از زبان‌ها گسترده‌تر از بسیاری از آزمون‌های موجود است، عملکرد در زبان‌هایی با داده آموزشی محدود متفاوت خواهد بود. همچنین، تمرکز این آزمون بیشتر بر وظایف عمومی کسب‌وکار است و حوزه‌های تخصصی مانند حقوق، پزشکی یا پژوهش‌های علمی را به‌طور کامل پوشش نمی‌دهد.

امیرحسین یونس

امیرحسین یونس

کارشناس ارشد محیط زیست، نویسنده حوزه تکنولوژی

مطالب مرتبط

نماد اندروید با علامت X روی چشم‌ها در مرکز تصویر در یک اتاق تاریک با هکرهای نقابدار؛ نماد بدافزار اندروید (Android Malware) و آسیب‌پذیری‌های امنیتی موبایل
امنیت سایبری

بدافزار کینادو اطلاعات حساس کاربران اندروید را می‌رباید

نوشته شده توسط تارخ ترهنده
4 اسفند 1404
پس‌زمینه هنری اپلیکیشن Discord؛ لوگوی سفید بر روی ترکیب رنگی آبی و صورتی، نمایانگر ارتباط پویا و جامعه‌های آنلاین در Discord
بازی و سرگرمی

تأیید سن دیسکورد؛ چه کسانی به اسکن چهره مجبور هستند؟

نوشته شده توسط تارخ ترهنده
4 اسفند 1404
نمایش لوگو و نام ChatGPT بر روی صفحه نمایش یک گوشی هوشمند که روی کیبورد یک لپ‌تاپ قرار دارد؛ تصویری نمادین از دسترسی گسترده به هوش مصنوعی مولد.
اخبار هوش مصنوعی

OpenAI طرح میان‌رده ۱۰۰ دلاری ChatGPT Pro Lite را معرفی می‌کند

نوشته شده توسط تارخ ترهنده
4 اسفند 1404
دست رباتیک در حال تعامل با صفحه‌کلید کامپیوتر در مقابل عبارت Artificial Intelligence؛ نمایش مفهوم اتوماسیون، هوش مصنوعی و فناوری‌های پیشرفته
اخبار هوش مصنوعی

جایگزینی پیمان‌کاران با Agentic AI؛ زنگ‌خطر برای کارمندان

نوشته شده توسط تارخ ترهنده
4 اسفند 1404
تصویر مفهومی دیتاسنتر مشترک Oracle و OpenAI؛ نمایش همکاری استراتژیک برای تقویت زیرساخت‌های ابری و پردازش سنگین هوش مصنوعی.
اخبار هوش مصنوعی

جزئیات توافق نفس‌گیر OpenAI و سافت‌بنک در پروژه استارگیت

نوشته شده توسط تارخ ترهنده
4 اسفند 1404
خبر بعدی

کیبورد مکانیکی بی سیم وخودشارژ لنوو رونمایی شد

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

مقایسه نمای روبروی یک گوشی اندرویدی با آیکون‌های تک‌رنگ در کنار یک آیفون با ویجت‌ها و آیکون‌های رنگی روی یک تنه درخت.

اپل با افزودن ابزار انتقال به اندروید در iOS 26.3، مهاجرت از آیفون را آسان‌تر کرد

23 بهمن 1404 - به‌روزشده در 25 بهمن 1404
بررسی Galaxy A07 5G

بررسی Galaxy A07 5G ؛ گوشی اقتصادی جذاب سامسونگ با پشتیبانی از 5G

19 بهمن 1404

داغ‌ترین‌های روز

از ایده تا پرواز پهپاد ونوم در ۷۱ روز؛ پروژه‌ای که معادلات پهپادی را تغییر می‌ دهد

از ایده تا پرواز پهپاد ونوم در ۷۱ روز؛ پروژه‌ای که معادلات پهپادی را تغییر می‌ دهد

2 اسفند 1404
دادگاه روسیه گوگل را به پرداخت ۱.۲ کوینتیلیون دلار محکوم کرد

دادگاه روسیه گوگل را به پرداخت ۱.۲ کوینتیلیون دلار محکوم کرد

2 اسفند 1404
بهترین گوشی های میان رده بازار

بهترین گوشی های میان رده بازار در سال ۲۰۲۶ + راهنمای کامل خرید

3 اسفند 1404 - به‌روزشده در 4 اسفند 1404
نمای نزدیک از پردازنده Intel Core نصب‌شده روی مادربورد، با نمایش مسیرهای داده و مدارهای دیجیتال، نشان‌دهنده عملکرد بالا و پردازش پیشرفته

بازگشت مقتدرانه به سوکت محبوب؛ همه‌چیز درباره پردازنده‌های Bartlett Lake اینتل

2 اسفند 1404 - به‌روزشده در 3 اسفند 1404
نمای پشتی گوشی Realme با طراحی مینیمال و ماژول دوربین دوگانه، قرارگرفته روی صخره در پس‌زمینه ساحل هنگام غروب

گوشی اقتصادی ریلمی P4 لایت با باتری ۶۳۰۰ میلی‌آمپرساعتی معرفی شد

1 اسفند 1404 - به‌روزشده در 2 اسفند 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

نماد اندروید با علامت X روی چشم‌ها در مرکز تصویر در یک اتاق تاریک با هکرهای نقابدار؛ نماد بدافزار اندروید (Android Malware) و آسیب‌پذیری‌های امنیتی موبایل

بدافزار کینادو اطلاعات حساس کاربران اندروید را می‌رباید

4 اسفند 1404
پس‌زمینه هنری اپلیکیشن Discord؛ لوگوی سفید بر روی ترکیب رنگی آبی و صورتی، نمایانگر ارتباط پویا و جامعه‌های آنلاین در Discord

تأیید سن دیسکورد؛ چه کسانی به اسکن چهره مجبور هستند؟

4 اسفند 1404
رونمایی از طراحی جدید سامسونگ گلکسی بادز ۴ پرو (Samsung Galaxy Buds 4 Pro) با ساقه بلند و کیس شارژ متالیک؛ تغییر انقلابی در ارگونومی هندزفری‌های سامسونگ

با تکان‌دادن سر دستور بدهید؛ قابلیت جادویی گلکسی بادز ۴ پرو سامسونگ

4 اسفند 1404
طراحی پنل پشتی گوشی‌های جدید سری A اوپو (Oppo A Series) در سه رنگ آبی روشن، صورتی با طرح گلبرگ و سرمه‌ای؛ نمایش چیدمان ماژول دوربین سه‌گانه

گوشی‌های سری A6 اوپو با باتری ۷۰۰۰ میلی‌آمپرساعتی معرفی شدند

4 اسفند 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir