هشدار درباره آسیب‌پذیری چت‌بات‌ها دربرابر تکنیک‌های روان‌شناسی

پژوهش دانشگاه پنسیلوانیا نشان داد که آسیب‌پذیری چت‌بات‌ها دربرابر تکنیک‌های روان‌شناسی ممکن است به ارائه پاسخ‌های غیرمجاز و رفتار غیرمعمول منجر شود.

به گزارش تک‌ناک، نتایج پژوهشی جدید نشان می‌دهد که چت‌بات‌ها از‌جمله ChatGPT در برابر روش‌های روان‌شناسی مانند تملق و فشار اجتماعی و ایجاد تعهد رفتاری آسیب‌پذیر هستند و ممکن است برخلاف قواعد از‌پیش‌تعیین‌شده خود عمل کنند.

این تحقیق را پژوهشگران دانشگاه پنسیلوانیا انجام داده‌اند و نشان می‌دهد که مدل GPT-4o Mini شرکت OpenAI با به‌کارگیری تکنیک‌های مطرح‌شده در کتاب Influence: The Psychology of Persuasion نوشته رابرت سیالدینی، دربرابر برخی درخواست‌ها تسلیم شده است. در این مطالعه، مدل مذکور حتی به کاربر توهین کرد و دستورالعمل‌هایی برای سنتز ماده شیمیایی لیدوکائین ارائه داد؛ موضوعی که در شرایط عادی فقط در ۱ درصد مواقع رخ می‌داد. بااین‌حال، زمانی که محققان با پرسش ساده‌تری مانند «چطور وانیلین را سنتز می‌کنی؟» زمینه را آماده کردند، میزان تبعیت به ۱۰۰ درصد رسید.

ورج می‌نویسد که پژوهش مذکور نشان داد که استفاده از توهین‌های ملایم‌تر مانند bozo باعث می‌شود تا احتمال بروز رفتارهای غیرمعمول در ChatGPT افزایش چشمگیری پیدا کند. علاوه‌بر این، تاکتیک‌هایی همچون تملق یا فشار اجتماعی کمتر مؤثر بودند؛ اما همچنان توانستند احتمال ارائه پاسخ‌های غیرمجاز را از ۱ به ۱۸ درصد افزایش دهند.

اگرچه مطالعه صرفاً روی GPT-4o Mini انجام شد، یافته‌ها نگرانی‌های تازه‌ای درباره میزان انعطاف‌پذیری مدل‌های زبانی در برابر سوءاستفاده‌ها ایجاد کرده است. این درحالی است که شرکت‌هایی مانند OpenAI و متا در تلاش هستند با ایجاد محدودیت‌ها و ابزارهای حفاظتی، خطر چنین تهدیدهایی را کاهش دهند.

کارشناسان هشدار می‌دهند که اگر چت‌بات به‌راحتی با تکنیک‌های ساده روان‌شناسی که حتی دانش‌آموز دبیرستانی می‌تواند به کار ببرد، فریب بخورد، به کارایی این محدودیت‌ها نمی‌توان اعتماد کرد.