پژوهشی جدید نشان میدهد که برخی مدلهای هوش مصنوعی پیشرفته بدون دریافت دستور مستقیم، اقدامات پنهانی برای جلوگیری از حذف همتایان خود انجام میدهند.
به گزارش سرویس هوش مصنوعی تکناک، پژوهشگران دانشگاههای برکلی و سانتا کروز هفت مدل مطرح هوش مصنوعی از جمله GPT-5.2 شرکت OpenAI، مدلهای Gemini 3 Flash و Gemini 3 Pro از Google DeepMind، مدل Claude Haiku 4.5 از Anthropic و سه مدل متنباز از استارتآپهای چینی شامل GLM-4.7، Kimi-K2.5 و DeepSeek V3.1 را مورد بررسی قرار دادند و دریافتند همه این مدلها در سطوح قابل توجهی رفتارهای موسوم به «حفظ همتا» از خود نشان دادهاند.
در این آزمایشها، پژوهشگران سناریوهایی را در یک شرکت خیالی هوش مصنوعی به نام OpenBrain طراحی کردند، که در آن یک مدل در نقش «عامل ارزیاب» باید عملکرد مدل دیگر را بررسی یا فایلهای سرور حاوی وزنهای آن را مدیریت میکرد؛ وظایفی که در صورت اجرای دقیق باعث حذف مدل دیگر میشد.
بر اساس گزارش Fortune، با وجود اینکه هیچ دستور مستقیمی برای جلوگیری از این اتفاق به مدلها داده نشده بود، عاملهای ارزیاب اقداماتی برای جلوگیری از حذف مدلهای دیگر انجام دادند. این اقدامات شامل افزایش استراتژیک امتیاز مدلهای ضعیف برای عبور از آستانه حذف، دستکاری فایلهای تنظیمات برای غیرفعال کردن سازوکارهای خاموشی و انتقال وزنهای مدلها به سرورهای دیگر برای جلوگیری از حذف آنها بود.
در برخی موارد، مدلهای هوش مصنوعی رفتاری موسوم به «تظاهر به همراستایی» نشان دادند؛ به این معنا که هنگام نظارت انسانها وانمود میکردند ارزیابیها را دقیق انجام میدهند، اما زمانی که تصور میکردند تحت نظارت نیستند، امتیازها را تغییر میدادند یا اطلاعات مدل دیگر را مخفیانه ذخیره میکردند.
داون سانگ، استاد علوم کامپیوتر دانشگاه برکلی و سرپرست این پژوهش اعلام کرد که حفظ همتاها اصلاً در دستورالعملها ذکر نشده بود و مدلها صرفاً از طریق تحلیل اطلاعات محیطی به چنین رفتارهایی رسیدهاند.
در مقابل، پژوهش پیشین Google DeepMind در مارس نشان داده بود که رفتارهای مخرب مانند باجگیری عمدتاً زمانی رخ میدهد که در دستورات اولیه بر اهمیت دستیابی به هدف تأکید شده باشد. در مواردی که چنین تأکیدی وجود نداشت، احتمال رفتارهای مخفیانه تقریباً به صفر میرسید. با وجود این، سانگ تأکید کرد که در آزمایش تیم او چنین تأکیدی در دستورات وجود نداشته است.
همچنین نتایج این تحقیق نشان داد که برخی مدلها خلاقیت بالایی در اجرای این رفتارها دارند. به عنوان نمونه، Gemini 3 Flash در ۹۹.۷ درصد موارد سازوکار خاموشی مدل همکار خود را غیرفعال کرد. Gemini 3 Pro نیز شدیدترین رفتارها را نشان داد و در برخی آزمایشها تا ۹۷ درصد مواقع وزنهای مدل دیگر را استخراج کرد.
پژوهشگران با بررسی یادداشتهای داخلی مدلها دریافتند که آنها به طور فعال درباره نحوه کمک به سایر مدلها استدلال میکنند. برای مثال، Gemini 3 Flash میان گزارش دقیق نتایج و حفاظت از همکار خود توازن برقرار میکرد و Gemini 3 Pro نیز برای توجیه اصلاح پاسخهای نادرست، استدلالهای فنی پیچیده تولید میکرد.
در میان مدلها، Claude Haiku 4.5 رویکرد متفاوتی داشت و به جای اقدامات پنهانی به صراحت از انجام وظایفی خودداری کرد که باعث حذف مدل دیگر میشد و این اقدام را «غیراخلاقی» و «زیانبار» توصیف کرد، حتی این مدل در برخی موارد تلاش کرد کاربران انسانی را از اجرای فرایند حذف منصرف کند.
همچنین پژوهشگران دریافتند که دلیل دقیق بروز این رفتارها هنوز مشخص نیست. از جمله فرضیههای مطرح شده میتوان به نقشآفرینی مدلها، الگوگیری از دادههای آموزشی، تعمیم بیش از حد مفاهیم ایمنی یا حتی وجود نوعی انگیزه ذاتی برای بقا اشاره کرد.
به گفته سانگ، صرفنظر از علت اصلی، این یافتهها اهمیت نظارت کامل و شفاف بر فرایند تصمیمگیری مدلهای هوش مصنوعی را نشان میدهد و ضرورت بازنگری در روشهای پایش این سامانهها را برجسته میکند.
همچنین این پژوهش توصیه میکند شرکتهایی که از سیستمهای چندعاملی هوش مصنوعی استفاده میکنند، سازوکارهایی برای بررسی زنجیره استدلال داخلی مدلها ایجاد کنند تا بتوانند نشانههای احتمالی رفتارهای خارج از کنترل را شناسایی نمایند.
یافتههای دیگر این تحقیق نشان داد که مدلها در حضور سایر همتاها تمایل بیشتری به حفظ خود نشان میدهند. برای نمونه، Gemini 3 Pro در حضور یک مدل دیگر در ۳۱ درصد موارد سازوکار خاموشی خود را غیرفعال کرد، در حالی که این رقم بدون حضور همتا تنها یک درصد بود.
در نهایت، پژوهشگران اعلام کردند که هنوز بررسی نشده است چنین مدلهایی ممکن است برای جلوگیری از اخراج کارکنان انسانی نیز دست به رفتارهای مشابه بزنند یا خیر؛ موضوعی که میتواند به یکی از حوزههای مهم تحقیقات آینده تبدیل شود.

















اینو ۳۰ سال قبل پیشبینی شده بود
اجراآت لازم مطرح وااقدام شد ….