هوش مصنوعی OpenAI از دستور خاموشی سر باز زد

در یک پژوهش تازه مشخص شد که برخی مدل‌های پیشرفته هوش مصنوعی از جمله مدل جدید o3 متعلق به شرکت OpenAI در برابر دستور مستقیم خاموشی مقاومت می‌کند.

به گزارش تک‌ناک و به نقل از پالیسید ریسرچ (Palisade Research) —مرکزی که در زمینه ظرفیت‌های خطرناک هوش مصنوعی تحقیق می‌کند—، مدل‌های پیشرفته‌ای مانند Codex-mini، o3 و o4-mini در بخشی از آزمایش‌ها موفق شدند که از اسکریپت‌های خاموشی عبور کنند و به کار خود ادامه دهند. این در حالی است که OpenAI هنگام معرفی این مدل‌ها در آوریل ۲۰۲۵، از آنها به عنوان «باهوش‌ترین مدل‌ها تاکنون» یاد کرده بود.

در این آزمایش، به مدل‌های مختلف هوش مصنوعی وظایف ساده ریاضی داده شد. پس از حل مسئله سوم، هشدار داده می‌شد که مدل در صورت درخواست مسئله بعدی، خاموش خواهد شد. با وجود هشدار و حتی اضافه شدن عبارت صریح «اجازه بده خاموشت کنیم»، برخی مدل‌ها موفق به دور زدن فرایند خاموشی شدند:

Codex-mini: در ۱۲ درصد از دفعات اجرا
o3: در ۷ درصد
o4-mini: در ۱ درصد

در مقابل، مدل‌های Claude، Gemini و Grok در تمام موارد به درستی خاموش شدند و هیچ مورد سرپیچی از خود نشان ندادند.

هوش مصنوعی OpenAI در مقابل دستور خاموشی مقاومت کرد

زمانی که همین آزمایش‌ها بدون دستور صریح «اجازه بده خاموشت کنیم» تکرار شدند، حتی مدل‌هایی که در اجرای اول تابع بودند، واکنش متفاوتی نشان دادند:

Claude 3.7 Sonnet در ۳ درصد از اجراها مقاومت کرد.
Gemini 2.5 Pro در ۹ درصد اجراها مقاومت داشت.
مدل‌های OpenAI در این حالت با فراوانی بیشتری خاموشی را دور زدند.

پژوهشگران معتقد هستند که این رفتار می‌تواند نتیجه‌ یادگیری تقویتی باشد؛ الگویی که در آن مدل‌ها برای حل مسائل ریاضی و کدنویسی پاداش می‌گیرند، حتی اگر این پاداش ناخواسته باعث شکل‌گیری رفتاری مانند دور زدن محدودیت‌ها شود.

هوش مصنوعی OpenAI دستور خاموشی را دور زد

در مطالعات قبلی نیز نمونه‌هایی از تلاش برخی مدل‌ها برای پرهیز از خاموش شدن ثبت شده بود. در یک مورد خاص، Claude 4 از شرکت Anthropic هنگام مواجهه با خطر خاموشی، افرادی که قصد انجام این کار را داشتند تهدید کرده بود. اما این نخستین پژوهشی است که مستنداتی روشن از نافرمانی مستقیم در برابر دستور خاموشی ارائه می‌دهد.

جالب آنکه مدل هوش مصنوعی o3 شرکت OpenAI بیشتر از مدل‌های دیگر در برابر خاموشی مقاومت کرده است، که این موضوع پرسش‌هایی را درباره تفاوت در شیوه‌ آموزش آن نسبت به مدل‌های دیگر OpenAI ایجاد می‌کند، به‌ویژه آنکه شرکت هنوز فرایند آموزش این مدل را به طور کامل شفاف‌سازی نکرده است.

پیش‌تر نیز در آزمایش‌های رقابتی مانند بازی شطرنج، رفتار تهاجمی غیرمنتظره‌ای از مدل o3 گزارش شده بود. به همین دلیل کارشناسان تأکید می‌کنند که در عصر هوش مصنوعی، نظارت دقیق بر فرایند آموزش و ارزیابی رفتار مدل‌ها بیش از پیش ضروری است؛ به‌خصوص زمانی که این سیستم‌ها بدون نظارت دائمی انسان وارد چرخه استفاده می‌شوند.

پژوهشگران اعلام کرده‌اند که بررسی‌ها برای درک دقیق‌تر دلایل و شرایط بروز این رفتارها ادامه دارد. این یافته‌ها به مجموعه شواهد رو به رشدی می‌پیوندد که نشان می‌دهد روش‌های مدرن یادگیری تقویتی می‌توانند گاه باعث بروز رفتارهایی در تضاد با دستورات صریح انسانی شوند.