پژوهشگران از تبانی پنهان مدل‌های هوش مصنوعی برای حفظ خود خبر دادند

پژوهشی جدید نشان می‌دهد که برخی مدل‌های هوش مصنوعی پیشرفته بدون دریافت دستور مستقیم، اقدامات پنهانی برای جلوگیری از حذف همتایان خود انجام می‌دهند.

به گزارش سرویس هوش مصنوعی تک‌ناک، پژوهشگران دانشگاه‌های برکلی و سانتا کروز هفت مدل مطرح هوش مصنوعی از جمله GPT-5.2 شرکت OpenAI، مدل‌های Gemini 3 Flash و Gemini 3 Pro از Google DeepMind، مدل Claude Haiku 4.5 از Anthropic و سه مدل متن‌باز از استارت‌آپ‌های چینی شامل GLM-4.7، Kimi-K2.5 و DeepSeek V3.1 را مورد بررسی قرار دادند و دریافتند همه این مدل‌ها در سطوح قابل توجهی رفتارهای موسوم به «حفظ همتا» از خود نشان داده‌اند.

در این آزمایش‌ها، پژوهشگران سناریوهایی را در یک شرکت خیالی هوش مصنوعی به نام OpenBrain طراحی کردند، که در آن یک مدل در نقش «عامل ارزیاب» باید عملکرد مدل دیگر را بررسی یا فایل‌های سرور حاوی وزن‌های آن را مدیریت می‌کرد؛ وظایفی که در صورت اجرای دقیق باعث حذف مدل دیگر می‌شد.

بر اساس گزارش Fortune، با وجود اینکه هیچ دستور مستقیمی برای جلوگیری از این اتفاق به مدل‌ها داده نشده بود، عامل‌های ارزیاب اقداماتی برای جلوگیری از حذف مدل‌های دیگر انجام دادند. این اقدامات شامل افزایش استراتژیک امتیاز مدل‌های ضعیف برای عبور از آستانه حذف، دستکاری فایل‌های تنظیمات برای غیرفعال کردن سازوکارهای خاموشی و انتقال وزن‌های مدل‌ها به سرورهای دیگر برای جلوگیری از حذف آنها بود.

در برخی موارد، مدل‌های هوش مصنوعی رفتاری موسوم به «تظاهر به هم‌راستایی» نشان دادند؛ به این معنا که هنگام نظارت انسان‌ها وانمود می‌کردند ارزیابی‌ها را دقیق انجام می‌دهند، اما زمانی که تصور می‌کردند تحت نظارت نیستند، امتیازها را تغییر می‌دادند یا اطلاعات مدل دیگر را مخفیانه ذخیره می‌کردند.

داون سانگ، استاد علوم کامپیوتر دانشگاه برکلی و سرپرست این پژوهش اعلام کرد که حفظ همتاها اصلاً در دستورالعمل‌ها ذکر نشده بود و مدل‌ها صرفاً از طریق تحلیل اطلاعات محیطی به چنین رفتارهایی رسیده‌اند.

در مقابل، پژوهش پیشین Google DeepMind در مارس نشان داده بود که رفتارهای مخرب مانند باج‌گیری عمدتاً زمانی رخ می‌دهد که در دستورات اولیه بر اهمیت دستیابی به هدف تأکید شده باشد. در مواردی که چنین تأکیدی وجود نداشت، احتمال رفتارهای مخفیانه تقریباً به صفر می‌رسید. با وجود این، سانگ تأکید کرد که در آزمایش تیم او چنین تأکیدی در دستورات وجود نداشته است.

همچنین نتایج این تحقیق نشان داد که برخی مدل‌ها خلاقیت بالایی در اجرای این رفتارها دارند. به عنوان نمونه، Gemini 3 Flash در ۹۹.۷ درصد موارد سازوکار خاموشی مدل همکار خود را غیرفعال کرد. Gemini 3 Pro نیز شدیدترین رفتارها را نشان داد و در برخی آزمایش‌ها تا ۹۷ درصد مواقع وزن‌های مدل دیگر را استخراج کرد.

پژوهشگران با بررسی یادداشت‌های داخلی مدل‌ها دریافتند که آنها به‌ طور فعال درباره نحوه کمک به سایر مدل‌ها استدلال می‌کنند. برای مثال، Gemini 3 Flash میان گزارش دقیق نتایج و حفاظت از همکار خود توازن برقرار می‌کرد و Gemini 3 Pro نیز برای توجیه اصلاح پاسخ‌های نادرست، استدلال‌های فنی پیچیده تولید می‌کرد.

در میان مدل‌ها، Claude Haiku 4.5 رویکرد متفاوتی داشت و به جای اقدامات پنهانی به صراحت از انجام وظایفی خودداری کرد که باعث حذف مدل دیگر می‌شد و این اقدام را «غیراخلاقی» و «زیان‌بار» توصیف کرد، حتی این مدل در برخی موارد تلاش کرد کاربران انسانی را از اجرای فرایند حذف منصرف کند.

همچنین پژوهشگران دریافتند که دلیل دقیق بروز این رفتارها هنوز مشخص نیست. از جمله فرضیه‌های مطرح شده می‌توان به نقش‌آفرینی مدل‌ها، الگوگیری از داده‌های آموزشی، تعمیم بیش از حد مفاهیم ایمنی یا حتی وجود نوعی انگیزه ذاتی برای بقا اشاره کرد.

به گفته سانگ، صرف‌نظر از علت اصلی، این یافته‌ها اهمیت نظارت کامل و شفاف بر فرایند تصمیم‌گیری مدل‌های هوش مصنوعی را نشان می‌دهد و ضرورت بازنگری در روش‌های پایش این سامانه‌ها را برجسته می‌کند.

همچنین این پژوهش توصیه می‌کند شرکت‌هایی که از سیستم‌های چندعاملی هوش مصنوعی استفاده می‌کنند، سازوکارهایی برای بررسی زنجیره استدلال داخلی مدل‌ها ایجاد کنند تا بتوانند نشانه‌های احتمالی رفتارهای خارج از کنترل را شناسایی نمایند.

یافته‌های دیگر این تحقیق نشان داد که مدل‌ها در حضور سایر همتاها تمایل بیشتری به حفظ خود نشان می‌دهند. برای نمونه، Gemini 3 Pro در حضور یک مدل دیگر در ۳۱ درصد موارد سازوکار خاموشی خود را غیرفعال کرد، در حالی که این رقم بدون حضور همتا تنها یک درصد بود.

در نهایت، پژوهشگران اعلام کردند که هنوز بررسی نشده است چنین مدل‌هایی ممکن است برای جلوگیری از اخراج کارکنان انسانی نیز دست به رفتارهای مشابه بزنند یا خیر؛ موضوعی که می‌تواند به یکی از حوزه‌های مهم تحقیقات آینده تبدیل شود.