TRUEBench سامسونگ با ۲,۴۸۵ سناریو در ده دسته و دوازده زبان، عملکرد واقعی مدلهای هوش مصنوعی را در محیط کاری میسنجد.
به گزارش تکناک، سامسونگ ابزار جدیدی به نام TRUEBench معرفی کرده است که با هدف ارزیابی توانایی سیستمهای هوش مصنوعی در انجام وظایف واقعی محیط کار طراحی شده است، نه صرفاً آزمونهای محدود و آکادمیک. این معیار سنجش شامل ۲,۴۸۵ سناریو در ده دسته و دوازده زبان مختلف میشود و همهچیز از درخواستهای کوتاه تا پردازش اسناد طولانی را پوشش میدهد. سیستم امتیازدهی آن بسیار سختگیرانه است؛ چراکه مدلها باید تمام شرایط هر آزمون را برآورده کنند و همین امر نتایج را دشوارتر اما واقعیتر میسازد.
سالهاست که معیارهای هوش مصنوعی نتوانستهاند آنچه کاربران در عمل از این سیستمها انتظار دارند، بهدرستی منعکس کنند. بیشتر آزمونها همچنان بر پرسش و پاسخهای انگلیسیمحور تمرکز دارند که هرچند مرتب به نظر میرسند، تنوع فعالیتهای کاری روزمره را نشان نمیدهند. TRUEBench با نام کامل Trustworthy Real-world Usage Evaluation Benchmark پا را فراتر گذاشته و عملکرد مدلها را در کارهایی همچون خلاصهسازی اسناد، ترجمه در دوازده زبان، تحلیل داده و اجرای دستورالعملهای چندمرحلهایمیسنجد که نیازمند حفظ بافت گفتوگو هستند.
نوتبوکچک مینویسد که سامسونگ برای این منظور مجموعهای شامل ۲,۴۸۵ آزمون در ۱۰ دسته و ۴۶ زیرمجموعه توسعه داده است. ورودیها از چند کاراکتر ساده تا بیش از بیست هزار کاراکتر متغیر هستند تا شرایطی شبیه فرمانهای سریع یا گزارشهای طولانی اداری را شبیهسازی کنند.

برای قبولی در هر آزمون، مدل باید همه شرایط مشخص را برآورده کند. این روش «همه یا هیچ» نتایج را به واقعیت نزدیکتر میکند؛ چراکه خروجی فقط زمانی سودمند است که تمام نیازها را پاسخ دهد. سامسونگ این چهارچوب را با ترکیب بازبینی انسانی و بررسی هوش مصنوعی طراحی کرده است. ابتدا انسانها شرایط اولیه را تعریف کردند و سپس هوش مصنوعی تناقضها را مشخص کرد و در نهایت بازهم انسانها اصلاحات را اعمال کردند تا سیستم نهایی شود. پساز آن، ارزیابیها بهصورت خودکار و در مقیاس وسیع اجرا شدند.
همچنین، سامسونگ مجموعه دادهها و جدول رتبهبندی و آمار خروجی را ازطریق Hugging Face بهصورت عمومی منتشر کرده است. کاربران میتوانند تا پنج مدل را بهطور مستقیم مقایسه و نتایج را بررسی کنند. این سطح از شفافیت به توسعهدهندگان و پژوهشگران و کاربران امکان میدهد تا خودشان بهجای اتکا به ادعاهای سامسونگ، کیفیت واقعی معیار را ارزیابی کنند.
بااینحال، TRUEBench بینقص نیست. تعیین قوانین همواره با درجهای از سوگیری همراه است و الزام به موفقیت کامل در هر شرط بدینمعناست که پاسخهای جزئی، اما مفید نیز شکست تلقی میشوند. هرچند پشتیبانی از زبانها گستردهتر از بسیاری از آزمونهای موجود است، عملکرد در زبانهایی با داده آموزشی محدود متفاوت خواهد بود. همچنین، تمرکز این آزمون بیشتر بر وظایف عمومی کسبوکار است و حوزههای تخصصی مانند حقوق، پزشکی یا پژوهشهای علمی را بهطور کامل پوشش نمیدهد.