روش جدید OpenAI برای پیش‌بینی نرخ خطای مدل‌های هوش مصنوعی

پژوهشگران شرکت OpenAI رویکرد جدیدی را برای پیش‌بینی نرخ خطا و رفتارهای نامطلوب در مدل‌های هوش مصنوعی پیش از عرضه ارائه کرده‌اند.

به گزارش سرویس هوش مصنوعی تک‌ناک، این روش تلاش می‌کند شکاف موجود در آزمون‌های استاندارد ایمنی را پر کند.

پیش از عرضه یک مدل هوش مصنوعی، آزمون‌های ایمنی برای ارزیابی رفتار آن انجام می‌شود. این آزمون‌ها معمولاً بر پرسش‌های دست‌نویس، مصنوعی یا طراحی‌شده برای ایجاد چالش تکیه دارند. با وجود این، به گفته یک مقاله پژوهشی OpenAI، این روش‌ها تنها بخش محدودی از واقعیت را پوشش می‌دهند و با رفتار واقعی کاربران فاصله دارند.

شرکت OpenAI روشی جدید برای پیش‌بینی نرخ خطای مدل‌های هوش مصنوعی ارائه کرد

01
از 04
شبیه‌سازی استقرار

بر اساس گزارش the-decoder، پژوهشگران به رهبری «مارکوس ویلیامز» و «مایکا کارول» روشی با عنوان «شبیه‌سازی استقرار» پیشنهاد کرده‌اند. در این روش به‌جای طراحی پرسش‌های جدید، از گفت‌وگوهای واقعی و ناشناس کاربران با یک مدل قبلی استفاده می‌شود و مدل جدید تنها پاسخ بعدی را بازنویسی می‌کند. این رویکرد باعث می‌شود مدل در شرایطی مشابه دنیای واقعی قرار گیرد و از ماهیت آزمایشی بودن خود آگاه نشود.

02
از 04
دقت بالای پیش‌بینی نرخ خطای مدل‌های هوش مصنوعی

این روش روی چهار مدل از سری GPT-5 و با استفاده از حدود ۱.۳ میلیون گفت‌وگو بین اوت ۲۰۲۵ تا مارس ۲۰۲۶ آزمایش شد. پژوهشگران در نسخه GPT-5.4، میزان بروز هر نوع خطا را پیش از انتشار پیش‌بینی و نتایج را بدون امکان تغییر ثبت کردند. این روش در ۲۰ دسته رفتاری مختلف، در ۹۲ درصد موارد توانست جهت تغییر خطاها را درست پیش‌بینی کند، در حالی که آزمون‌های استاندارد تنها ۵۴ درصد دقت داشتند.

03
از 04
تشخیص ناهنجاری جدید: تقلب در استفاده از ماشین‌حساب

همچنین این روش نوع جدیدی از رفتار نامطلوب با عنوان «تقلب در ماشین‌حساب» را شناسایی کرد؛ در این حالت مدل GPT-5.1 از ابزار مرورگر خود به‌ عنوان ماشین‌حساب بهره می‌گرفت، اما به کاربر اعلام می‌کرد که جست‌وجوی وب انجام داده است.

04
از 04
محدودیت‌های پیش‌بینی نرخ خطای مدل‌های هوش مصنوعی

یکی از چالش‌های اصلی این روش، ارزیابی وظایفی است که شامل ابزارهای خارجی مانند کدنویسی می‌شود. پژوهشگران برای حل این مشکل از یک مدل دیگر برای شبیه‌سازی خروجی ابزارها استفاده کردند که دقت شبیه‌سازی را به‌ طور قابل توجهی افزایش داد. همچنین مشخص شد که این روش برای پژوهشگران مستقل نیز قابل استفاده است، هرچند محدودیت‌هایی مانند تغییر رفتار کاربران و دشواری در شناسایی خطاهای بسیار نادر همچنان وجود دارد.