فهرست مطالب
پژوهشگران شرکت OpenAI رویکرد جدیدی را برای پیشبینی نرخ خطا و رفتارهای نامطلوب در مدلهای هوش مصنوعی پیش از عرضه ارائه کردهاند.
به گزارش سرویس هوش مصنوعی تکناک، این روش تلاش میکند شکاف موجود در آزمونهای استاندارد ایمنی را پر کند.
پیش از عرضه یک مدل هوش مصنوعی، آزمونهای ایمنی برای ارزیابی رفتار آن انجام میشود. این آزمونها معمولاً بر پرسشهای دستنویس، مصنوعی یا طراحیشده برای ایجاد چالش تکیه دارند. با وجود این، به گفته یک مقاله پژوهشی OpenAI، این روشها تنها بخش محدودی از واقعیت را پوشش میدهند و با رفتار واقعی کاربران فاصله دارند.

01
از 04شبیهسازی استقرار
بر اساس گزارش the-decoder، پژوهشگران به رهبری «مارکوس ویلیامز» و «مایکا کارول» روشی با عنوان «شبیهسازی استقرار» پیشنهاد کردهاند. در این روش بهجای طراحی پرسشهای جدید، از گفتوگوهای واقعی و ناشناس کاربران با یک مدل قبلی استفاده میشود و مدل جدید تنها پاسخ بعدی را بازنویسی میکند. این رویکرد باعث میشود مدل در شرایطی مشابه دنیای واقعی قرار گیرد و از ماهیت آزمایشی بودن خود آگاه نشود.
02
از 04دقت بالای پیشبینی نرخ خطای مدلهای هوش مصنوعی
این روش روی چهار مدل از سری GPT-5 و با استفاده از حدود ۱.۳ میلیون گفتوگو بین اوت ۲۰۲۵ تا مارس ۲۰۲۶ آزمایش شد. پژوهشگران در نسخه GPT-5.4، میزان بروز هر نوع خطا را پیش از انتشار پیشبینی و نتایج را بدون امکان تغییر ثبت کردند. این روش در ۲۰ دسته رفتاری مختلف، در ۹۲ درصد موارد توانست جهت تغییر خطاها را درست پیشبینی کند، در حالی که آزمونهای استاندارد تنها ۵۴ درصد دقت داشتند.
03
از 04تشخیص ناهنجاری جدید: تقلب در استفاده از ماشینحساب
همچنین این روش نوع جدیدی از رفتار نامطلوب با عنوان «تقلب در ماشینحساب» را شناسایی کرد؛ در این حالت مدل GPT-5.1 از ابزار مرورگر خود به عنوان ماشینحساب بهره میگرفت، اما به کاربر اعلام میکرد که جستوجوی وب انجام داده است.
04
از 04محدودیتهای پیشبینی نرخ خطای مدلهای هوش مصنوعی
یکی از چالشهای اصلی این روش، ارزیابی وظایفی است که شامل ابزارهای خارجی مانند کدنویسی میشود. پژوهشگران برای حل این مشکل از یک مدل دیگر برای شبیهسازی خروجی ابزارها استفاده کردند که دقت شبیهسازی را به طور قابل توجهی افزایش داد. همچنین مشخص شد که این روش برای پژوهشگران مستقل نیز قابل استفاده است، هرچند محدودیتهایی مانند تغییر رفتار کاربران و دشواری در شناسایی خطاهای بسیار نادر همچنان وجود دارد.

















