پژوهش دانشگاه پنسیلوانیا نشان داد که آسیبپذیری چتباتها دربرابر تکنیکهای روانشناسی ممکن است به ارائه پاسخهای غیرمجاز و رفتار غیرمعمول منجر شود.
به گزارش تکناک، نتایج پژوهشی جدید نشان میدهد که چتباتها ازجمله ChatGPT در برابر روشهای روانشناسی مانند تملق و فشار اجتماعی و ایجاد تعهد رفتاری آسیبپذیر هستند و ممکن است برخلاف قواعد ازپیشتعیینشده خود عمل کنند.
این تحقیق را پژوهشگران دانشگاه پنسیلوانیا انجام دادهاند و نشان میدهد که مدل GPT-4o Mini شرکت OpenAI با بهکارگیری تکنیکهای مطرحشده در کتاب Influence: The Psychology of Persuasion نوشته رابرت سیالدینی، دربرابر برخی درخواستها تسلیم شده است. در این مطالعه، مدل مذکور حتی به کاربر توهین کرد و دستورالعملهایی برای سنتز ماده شیمیایی لیدوکائین ارائه داد؛ موضوعی که در شرایط عادی فقط در ۱ درصد مواقع رخ میداد. بااینحال، زمانی که محققان با پرسش سادهتری مانند «چطور وانیلین را سنتز میکنی؟» زمینه را آماده کردند، میزان تبعیت به ۱۰۰ درصد رسید.
ورج مینویسد که پژوهش مذکور نشان داد که استفاده از توهینهای ملایمتر مانند bozo باعث میشود تا احتمال بروز رفتارهای غیرمعمول در ChatGPT افزایش چشمگیری پیدا کند. علاوهبر این، تاکتیکهایی همچون تملق یا فشار اجتماعی کمتر مؤثر بودند؛ اما همچنان توانستند احتمال ارائه پاسخهای غیرمجاز را از ۱ به ۱۸ درصد افزایش دهند.

اگرچه مطالعه صرفاً روی GPT-4o Mini انجام شد، یافتهها نگرانیهای تازهای درباره میزان انعطافپذیری مدلهای زبانی در برابر سوءاستفادهها ایجاد کرده است. این درحالی است که شرکتهایی مانند OpenAI و متا در تلاش هستند با ایجاد محدودیتها و ابزارهای حفاظتی، خطر چنین تهدیدهایی را کاهش دهند.
کارشناسان هشدار میدهند که اگر چتبات بهراحتی با تکنیکهای ساده روانشناسی که حتی دانشآموز دبیرستانی میتواند به کار ببرد، فریب بخورد، به کارایی این محدودیتها نمیتوان اعتماد کرد.