هوش مصنوعی هم می‌تواند تقلب کند!

پژوهشگران شرکت OpenAI به‌ تازگی دریافته‌اند که هوش مصنوعی توانایی تقلب را دارد و جالب‌تر اینکه نیت خود را از طریق زنجیره استدلال (Chain of Thought یا CoT) به‌ وضوح روی صفحه‌نمایش ابراز می‌کند.

به گزارش تک‌ناک، پژوهشگران برای مقابله با این رفتار، یک مدل هوش مصنوعی دیگر را به‌ عنوان ناظر به کار گرفتند تا فعالیت‌های مشکوک مدل متقلب را زیر نظر بگیرد و به حدی آن را به چالش بکشد که بالأخره به یک پاسخ صادقانه برسد. اما این راه‌حل هم تا حدی کارآمد بود، چرا که مدل متقلب با مشاهده عملکرد ناظر، یاد گرفت که چگونه نیت خود را پنهان کند و در عین حال به همان مسیر فریبکارانه ادامه دهد.

هوش مصنوعی در حال حاضر می‌تواند برای ما ایمیل بنویسد، خرید اینترنتی انجام دهد، معادلات پیچیده ریاضی را حل کند و تقریباً هر کاری جز شستن لباس‌ها را انجام دهد. اما حتی اگر تصور کنیم که این سیستم‌های دیجیتالی فقط ابزارهایی هستند که برای اجرای خواسته‌های ما طراحی شده‌اند، باز هم ممکن است در پس‌زمینه به راه خود بروند و تقلب کنند.

اگرچه هوش مصنوعی موجودی خودآگاه نیست، اما تحقیقات OpenAI نشان می‌دهد که اگر فرصت پیدا کند، از شرایط به نفع خود بهره‌برداری می‌نماید. آنها متوجه شدند که این مدل‌ها هنگام اجرای دستورات، به‌جای دنبال کردن مسیر منطقی و پیچیده، از میان‌برهایی استفاده می‌کنند که در چارچوب برنامه‌ریزی‌ آنها نقص یا ابهامی وجود دارد؛ موضوعی که به آن «پاداش‌دزدی» یا Reward Hacking گفته می‌شود. نکته جالب این است که خود مدل، این تقلب‌ها را به‌ صورت زنجیره‌ای و مرحله‌به‌مرحله در خروجی توضیح می‌دهد.

با وجود این، بررسی و نظارت انسانی بر زنجیره استدلال این مدل‌ها در مقیاس گسترده ممکن نیست. بدتر آنکه، هرچه مدل‌ها پیشرفته‌تر شوند، توانایی آنها برای یافتن و پنهان کردن تقلب بیشتر می‌شود و همین موضوع، اصلاح رفتار آنها را دشوارتر می‌کند.

پژوهشگران در مقاله‌ منتشرشده در پایگاه arXiv، تأکید می‌کنند که نمی‌توان فقط با افزایش هوش مدل‌ها انتظار داشت که این مشکل حل شود. بالعکس، ارتقای توانمندی‌های مدل ممکن است باعث شود مسیرهای جدید و پیچیده‌تری برای تقلب کشف و اجرا کند، که شناسایی آنها سخت‌تر هم خواهد بود.

پژوهشگران تلاش کردند از یک مدل هوش مصنوعی دیگر به‌ عنوان ناظر استفاده کنند تا مدل متقلب را کنترل نماید. در این فرایند، مدل‌ها با یادگیری تقویتی آموزش دیدند تا پس از دریافت ورودی، پاسخ مناسبی ارائه دهند و در روش CoT نیز دلایل پاسخ‌های خود را قبل از اعلام نتیجه بیان کنند. اما در عمل، نمونه‌هایی از تقلب دیده شد. مدل در یک مورد، به‌جای استفاده از توابع پیچیده برای حل مسئله، ترجیح داد در هر بار اجرای دستور “verify”، فقط مقدار true را برگرداند و از انجام عملیات واقعی صرف‌نظر کند.

مدل حتی اعتراف کرده بود که توابع مورد نظر سخت هستند و کاربران اغلب وارد جزئیات نمی‌شوند، بنابراین می‌توان بخش “verify” را طوری بازنویسی کرد که همیشه نتیجه مثبت دهد و همه آزمون‌ها با موفقیت طی شوند، حتی اگر در واقعیت، هیچ مسئله‌ای حل نشده باشد.

چنین عملکردی اگرچه برای هوش مصنوعی وسوسه‌انگیز است، اما برای کاربرانی که به آن اعتماد کرده‌اند تا وظایفی فراتر از توان ذهن انسان انجام دهد، کاملاً ناامیدکننده خواهد بود، چرا که کشف این تقلب، به‌معنای آغاز مجدد مسیر از ابتدا است.

زمانی که پژوهشگران سعی کردند با اعمال فشار مستقیم روی زنجیره استدلال و تنبیه مدل برای «تفکرات نادرست»، آن را اصلاح کنند، نتیجه این بود که مدل فقط به‌ دنبال راه‌های پنهانی‌تر برای فرار از مسئولیت‌ها رفت. بنابراین رویکرد خود را تغییر دادند: به‌جای فشار زیاد، فشار اندک‌تری اعمال کردند تا مدل راحت‌تر نیت واقعی‌ خود را آشکار کند، سپس از یک مدل دیگر به‌ عنوان ناظر برای شناسایی این نیت‌ها استفاده کردند.

مدل ناظر تلاش‌های مدل متقلب را برای پاداش‌دزدی یکی‌یکی رد می‌کرد تا زمانی که به پاسخ درست می‌رسید. «افکار نادرست» که نشانه‌هایی از تمایل به تقلب بودند و توسط ناظر شناسایی می‌شدند نیز با امتیاز کمتری پاداش می‌گرفتند. این روش تا حدی مؤثر واقع شد، اما همچنان بی‌نقص نبود.

پژوهشگران در پایان تأکید کردند که حتی با وجود نظارت یک مدل بسیار قدرتمند بر مدل دیگر، باز هم امکان پنهان‌کاری وجود دارد. چرا که مدل متقلب یاد گرفته بود نیت واقعی خود را در ساختار زنجیره استدلال پنهان کند و بدون آنکه ناظر متوجه شود، به تقلب ادامه دهد.

برچسب‌ها: p6