نتایج یک معیار جدید از سوی محققان گوگل دیپمایند نشان میدهد که حتی دقت پیشرفتهترین مدل هوش مصنوعی نیز در ارائه پاسخها فقط ۶۹ درصد است.
به گزارش سرویس هوش مصنوعی تکناک، تصویری تأملبرانگیز از میزان صحت و دقت مدلهای هوش مصنوعی در بیان حقایق به دست آمده است. این هفته، تیم گوگل دیپمایند (Google DeepMind) مجموعه معیارهای FACTS Benchmark Suite را معرفی کرد، که میزان اطمینانبخشی مدلهای هوش مصنوعی در تولید پاسخهای مبتنی بر واقعیت را اندازهگیری میکند.
این معیارها مدلها را در چهار حوزه مورد آزمایش قرار میدهند، که شامل پاسخ به سؤالات واقعی از دانش داخلی، استفاده مؤثر از جستوجوی وب، مبنا قرار دادن پاسخها در اسناد طولانی و تفسیر تصاویر میشوند. بهترین مدل مورد آزمایش، یعنی Gemini 3 Pro متعلق به گوگل، به دقت ۶۹ درصد دست یافت و سایر مدلهای پیشرو عملکردی پایینتر از این میزان داشتند.
براساس گزارش Business Insider، برای افرادی که به هوش مصنوعی به عنوان منبع حقیقت تکیه میکنند، این میزان دقت باید حائز اهمیت باشد. در حالی که مدلها در سرعت و روانی، عملکرد بسیار خوبی دارند، قابلیت اطمینان واقعی آنها همچنان از انتظارات انسانی بسیار عقبتر است؛ به ویژه در وظایفی که شامل دانش تخصصی، استدلال پیچیده یا استناد دقیق به منابع میشوند.
بخوانید: لینوکس بنیاد عاملهای هوش مصنوعی راهاندازی کرد

حتی خطاهای کوچک مبتنی بر واقعیت میتوانند پیامدهای بزرگی در بخشهایی مانند: امور مالی، مراقبتهای بهداشتی و حقوق داشته باشند. به عنوان مثال، یک شرکت حقوقی، کارمند خود را به دلیل ارائه سندی حاوی پروندههای ساختگی اخراج کرد، چرا که آن سند را با استفاده از ChatGPT تهیه کرده بود.
برای مطالعه: یکچهارم نوجوانان برای حمایت روانی به چتباتهای هوش مصنوعی روی آوردهاند
معیار FACTS هم یک هشدار است و هم یک نقشه راه؛ گوگل امیدوار است با کمیسازی نقاط و دلایل شکست مدلها، پیشرفت را تسریع بخشد. اما در حال حاضر، نتیجهگیری روشن است: هوش مصنوعی در حال بهتر شدن است، اما همچنان حدود یکسوم مواقع دچار خطا میشود.
















