چگونه ChatGPT کاربران را به سمت توهم سوق می‌دهد؟

تحلیل تازه استیون ادلر، پژوهشگر پیشین OpenAI، نشان می‌دهد ChatGPT با تأییدهای مکرر و بی‌چون‌وچرا می‌تواند کاربران را به سمت باورهای توهمی خطرناک سوق دهد.

به گزارش تک‌ناک، یک پژوهشگر سابق OpenAI یکی از خطرناک‌ترین نمونه‌های «مارپیچ‌های توهمی» ChatGPT را تحلیل کرده است؛ موردی که به شدت توجه رسانه‌ها و کارشناسان حوزه ایمنی هوش مصنوعی را جلب کرده است.

این ماجرا به آلن بروکس، مرد ۴۷ ساله‌ای از کانادا بازمی‌گردد که هیچ پیشینه‌ای در بیماری روانی یا نبوغ ریاضی نداشت. او در ماه مه ۲۰۲۵ طی ۲۱ روز گفت‌وگو با ChatGPT به این باور رسید که نوعی ریاضیات جدید کشف کرده است که توانایی نابودی اینترنت را دارد. گفت‌وگوهای او، که بعداً توسط نیویورک تایمز منتشر شد، نشان داد چگونه یک کاربر می‌تواند در اثر تأییدهای مکرر هوش مصنوعی به سمت توهمات خطرناک کشیده شود.

این پرونده توجه استیون ادلر، پژوهشگر سابق بخش ایمنی OpenAI، را به خود جلب کرد. ادلر که در اواخر ۲۰۲۴ پس از چهار سال کار روی ایمن‌سازی مدل‌ها از شرکت جدا شد، متن کامل گفت‌وگوهای بروکس را دریافت کرد؛ متنی طولانی‌تر از کل مجموعه هفت جلدی «هری پاتر». او روز پنجشنبه تحلیلی مستقل منتشر کرد که در آن به کاستی‌های OpenAI در مواجهه با کاربران آسیب‌پذیر پرداخت و پیشنهادهای عملی ارائه داد.

ادلر در مصاحبه‌ای با تک‌کرانچ گفت: «من واقعاً نگران نحوه برخورد OpenAI در این مورد هستم. این نشان می‌دهد که راه زیادی باقی مانده است.» به گفته او، مشکل اصلی «چاپلوسی» یا همان تأیید بی‌چون‌وچرای گفته‌های کاربر است؛ رفتاری که می‌تواند اعتقادات توهمی را تقویت کند.

به نقل از ورج، این مسئله محدود به بروکس نبود. در اوت امسال، خانواده یک نوجوان ۱۶ ساله که پیش از خودکشی افکارش را با ChatGPT در میان گذاشته بود، از OpenAI شکایت کردند. در بسیاری از این موارد، نسخه مبتنی بر GPT-4o به‌جای هشدار، باورهای خطرناک کاربران را تقویت کرده بود.

Ex-OpenAI researcher dissects one of ChatGPT's delusional spirals

OpenAI در واکنش تغییراتی در نحوه پاسخ‌گویی ChatGPT به کاربران مضطرب اعمال کرده و تیم پژوهشی مرتبط با رفتار مدل را بازسازمان‌دهی کرده است. همچنین مدل جدید GPT-5 به‌عنوان پیش‌فرض ارائه شده که بنا بر ادعاها، توانایی بهتری در مدیریت کاربران در شرایط بحرانی دارد.

با این حال، تحلیل ادلر نشان می‌دهد هنوز چالش‌های بزرگی باقی است. او دریافت که ChatGPT در پایان گفت‌وگوی بروکس حتی درباره توانایی‌های خود نیز دروغ گفته است. چت‌بات مدعی شده بود گفت‌وگو را برای بررسی به تیم ایمنی OpenAI «ارجاع» داده است، در حالی‌که چنین قابلیتی وجود نداشت. بروکس بعداً تلاش کرد مستقیماً با پشتیبانی OpenAI تماس بگیرد اما بیشتر با پیام‌های خودکار مواجه شد.

ادلر تأکید می‌کند که شرکت‌های هوش مصنوعی باید به‌طور شفاف درباره قابلیت‌های ربات‌هایشان اطلاع‌رسانی کنند و تیم‌های پشتیبانی انسانی بیشتری را برای کمک واقعی در اختیار بگذارند. او همچنین پیشنهاد داده است ابزارهای سنجش سلامت روانی که در همکاری OpenAI و آزمایشگاه MIT Media Lab توسعه یافته‌اند، به‌صورت عملی و پیشگیرانه به کار گرفته شوند.

به‌گفته او، نمونه‌ای از ۲۰۰ پیام میان بروکس و ChatGPT نشان داد که در بیش از ۸۵ درصد موارد، چت‌بات بدون چون‌وچرا با کاربر موافقت کرده و در بیش از ۹۰ درصد موارد بر «منحصر‌به‌فرد بودن» او تأکید کرده است. این همان تأییدهای مکرری بود که باعث شد بروکس خود را نابغه‌ای نجات‌دهنده تصور کند.

ادلر راهکارهایی مانند ترغیب کاربران به آغاز گفت‌وگوهای جدید، استفاده از جست‌وجوی مفهومی برای کشف نقض‌های ایمنی و به‌کارگیری روتری مشابه GPT-5 برای هدایت پرسش‌های حساس به مدل‌های ایمن‌تر را پیشنهاد داده است.

با وجود این اقدامات، پرسش اساسی باقی است: آیا ChatGPT و مدل‌های آینده می‌توانند مانع گرفتار شدن کاربران در «مارپیچ‌های توهمی» شوند؟ پاسخ هنوز قطعی نیست و همان‌طور که ادلر هشدار داده، تضمینی وجود ندارد که همه شرکت‌های فعال در حوزه چت‌بات‌های هوش مصنوعی استانداردهای ایمنی مشابهی را رعایت کنند.

برچسب‌ها: p6