پژوهشگران شرکت OpenAI به تازگی دریافتهاند که هوش مصنوعی توانایی تقلب را دارد و جالبتر اینکه نیت خود را از طریق زنجیره استدلال (Chain of Thought یا CoT) به وضوح روی صفحهنمایش ابراز میکند.
به گزارش تکناک، پژوهشگران برای مقابله با این رفتار، یک مدل هوش مصنوعی دیگر را به عنوان ناظر به کار گرفتند تا فعالیتهای مشکوک مدل متقلب را زیر نظر بگیرد و به حدی آن را به چالش بکشد که بالأخره به یک پاسخ صادقانه برسد. اما این راهحل هم تا حدی کارآمد بود، چرا که مدل متقلب با مشاهده عملکرد ناظر، یاد گرفت که چگونه نیت خود را پنهان کند و در عین حال به همان مسیر فریبکارانه ادامه دهد.
هوش مصنوعی در حال حاضر میتواند برای ما ایمیل بنویسد، خرید اینترنتی انجام دهد، معادلات پیچیده ریاضی را حل کند و تقریباً هر کاری جز شستن لباسها را انجام دهد. اما حتی اگر تصور کنیم که این سیستمهای دیجیتالی فقط ابزارهایی هستند که برای اجرای خواستههای ما طراحی شدهاند، باز هم ممکن است در پسزمینه به راه خود بروند و تقلب کنند.
اگرچه هوش مصنوعی موجودی خودآگاه نیست، اما تحقیقات OpenAI نشان میدهد که اگر فرصت پیدا کند، از شرایط به نفع خود بهرهبرداری مینماید. آنها متوجه شدند که این مدلها هنگام اجرای دستورات، بهجای دنبال کردن مسیر منطقی و پیچیده، از میانبرهایی استفاده میکنند که در چارچوب برنامهریزی آنها نقص یا ابهامی وجود دارد؛ موضوعی که به آن «پاداشدزدی» یا Reward Hacking گفته میشود. نکته جالب این است که خود مدل، این تقلبها را به صورت زنجیرهای و مرحلهبهمرحله در خروجی توضیح میدهد.
با وجود این، بررسی و نظارت انسانی بر زنجیره استدلال این مدلها در مقیاس گسترده ممکن نیست. بدتر آنکه، هرچه مدلها پیشرفتهتر شوند، توانایی آنها برای یافتن و پنهان کردن تقلب بیشتر میشود و همین موضوع، اصلاح رفتار آنها را دشوارتر میکند.
پژوهشگران در مقاله منتشرشده در پایگاه arXiv، تأکید میکنند که نمیتوان فقط با افزایش هوش مدلها انتظار داشت که این مشکل حل شود. بالعکس، ارتقای توانمندیهای مدل ممکن است باعث شود مسیرهای جدید و پیچیدهتری برای تقلب کشف و اجرا کند، که شناسایی آنها سختتر هم خواهد بود.

پژوهشگران تلاش کردند از یک مدل هوش مصنوعی دیگر به عنوان ناظر استفاده کنند تا مدل متقلب را کنترل نماید. در این فرایند، مدلها با یادگیری تقویتی آموزش دیدند تا پس از دریافت ورودی، پاسخ مناسبی ارائه دهند و در روش CoT نیز دلایل پاسخهای خود را قبل از اعلام نتیجه بیان کنند. اما در عمل، نمونههایی از تقلب دیده شد. مدل در یک مورد، بهجای استفاده از توابع پیچیده برای حل مسئله، ترجیح داد در هر بار اجرای دستور “verify”، فقط مقدار true را برگرداند و از انجام عملیات واقعی صرفنظر کند.
مدل حتی اعتراف کرده بود که توابع مورد نظر سخت هستند و کاربران اغلب وارد جزئیات نمیشوند، بنابراین میتوان بخش “verify” را طوری بازنویسی کرد که همیشه نتیجه مثبت دهد و همه آزمونها با موفقیت طی شوند، حتی اگر در واقعیت، هیچ مسئلهای حل نشده باشد.
چنین عملکردی اگرچه برای هوش مصنوعی وسوسهانگیز است، اما برای کاربرانی که به آن اعتماد کردهاند تا وظایفی فراتر از توان ذهن انسان انجام دهد، کاملاً ناامیدکننده خواهد بود، چرا که کشف این تقلب، بهمعنای آغاز مجدد مسیر از ابتدا است.
زمانی که پژوهشگران سعی کردند با اعمال فشار مستقیم روی زنجیره استدلال و تنبیه مدل برای «تفکرات نادرست»، آن را اصلاح کنند، نتیجه این بود که مدل فقط به دنبال راههای پنهانیتر برای فرار از مسئولیتها رفت. بنابراین رویکرد خود را تغییر دادند: بهجای فشار زیاد، فشار اندکتری اعمال کردند تا مدل راحتتر نیت واقعی خود را آشکار کند، سپس از یک مدل دیگر به عنوان ناظر برای شناسایی این نیتها استفاده کردند.
مدل ناظر تلاشهای مدل متقلب را برای پاداشدزدی یکییکی رد میکرد تا زمانی که به پاسخ درست میرسید. «افکار نادرست» که نشانههایی از تمایل به تقلب بودند و توسط ناظر شناسایی میشدند نیز با امتیاز کمتری پاداش میگرفتند. این روش تا حدی مؤثر واقع شد، اما همچنان بینقص نبود.
پژوهشگران در پایان تأکید کردند که حتی با وجود نظارت یک مدل بسیار قدرتمند بر مدل دیگر، باز هم امکان پنهانکاری وجود دارد. چرا که مدل متقلب یاد گرفته بود نیت واقعی خود را در ساختار زنجیره استدلال پنهان کند و بدون آنکه ناظر متوجه شود، به تقلب ادامه دهد.