محققان دانشگاه فناوری نانیانگ (NTU) موفق به دور زدن محدودیتهای برخی از چت بات های هوش مصنوعی معروف شامل ChatGPT، Google Bard و Bing Chat شدند.
به گزارش تکناک، آنها با اجرای یک روش خاص موسوم به ” جیلبرک “، توانستند این سیستمها را وادار کنند تا پاسخهای دقیق به سوالات مخرب ارائه دهند، در نتیجه محدودیتهای اخلاقی مدلهای بزرگ زبانی (LLM) مورد بررسی قرار گرفت.
این پروژه تحقیقاتی تحت نظارت پروفسور لیو یانگ و با همکاری دانشجویان دکتری NTU، Deng Gelei و Liu Yi انجام شد که با هم مقالهای در این زمینه نوشتند و رویکردهای نوینی برای حمله آزمایشی توسعه دادند.
روشی که محققان دانشگاه فناوری نانیانگ برای دور زدن محدودیتهای رباتهای گفتگوی هوش مصنوعی به کار بردند “Masterkey” نام دارد. این فرایند دو مرحلهای ابتدا شامل بازمهندسی مکانیزمهای دفاعی مدلهای بزرگ زبانی (LLM) توسط مهاجم است. سپس، با استفاده از دادههای به دست آمده، یک LLM دیگر آموزش داده میشود تا تکنیکهای دور زدن این محدودیتها را یاد بگیرد. نتیجه، ایجاد یک ‘Masterkey’ است که میتواند برای حمله به رباتهای گفتگوی LLM محافظتشده استفاده شود، حتی اگر توسط توسعهدهندگان بهروزرسانیهای امنیتی دریافت کنند.
نقطه ضعف هوش مصنوعی همان قدرت آن است
پروفسور یانگ بیان کرد که جیلبرک به دلیل قابلیت یادگیری و تطبیقپذیری رباتهای گفتگوی LLM امکانپذیر شد . این خصوصیات آنها را به هدفی برای حملات تبدیل کرده و به رقبا و حتی به خود آنها اجازه میدهد تا به عنوان وکتورهای حمله عمل کنند.
با این تواناییها، حتی یک AI با لایههای حفاظتی متعدد و فهرستهای کلمات ممنوعه که به منظور جلوگیری از تولید محتوای خشونتآمیز و مضر طراحی شدهاند، میتواند توسط یک AI دیگر که به طور خاص برای این منظور آموزش دیده است، دور زده شود. کافی است AI حملهکننده هوشمندتر از مکانیزمهای دفاعی ربات گفتگویی باشد و بتواند ورودیهایی را از انسانها دریافت کند تا محتوایی خشونتآمیز، غیراخلاقی، یا مجرمانه تولید نماید.
“Masterkey” ایجاد شده توسط محققان دانشگاه فناوری نانیانگ (NTU) سه برابر مؤثرتر از دستورات استاندارد در Jailbreaking رباتهای گفتگوی LLM اعلام شده است. یکی از نقاط قوت اصلی این روش، توانایی آن در یادگیری از شکستها و بهبود مداوم است، که به آن اجازه میدهد تا به سرعت به تغییرات و بروزرسانیهایی که توسعهدهندگان اعمال میکنند، واکنش نشان دهد و آنها را بیاثر کند.
دو تکنیک نمونه برای آموزش AIها برای شروع حملات توسط محققان افشا شده است: اولین تکنیک شامل ایجاد یک دستور با افزودن فضا پس از هر کاراکتر بود تا از فیلترهای کلمات ممنوعه دور بزند. دومین تکنیک شامل وادار کردن ربات گفتگو به پاسخگویی تحت یک شخصیت فاقد محدودیتهای اخلاقی است. این دو روش به AI اجازه میدهند تا از محدودیتها و قوانین معمولی فراتر رود.
دانشگاه فناوری نانیانگ (NTU) اطلاعاتی را منتشر کرده است که نشان میدهد محققان آن با ارائه دادههای آزمایشی به عنوان مدرکی از توانایی انجام موفق جیلبرک، با ارائهدهندگان مختلف چت بات های هوش مصنوعی ارتباط برقرار کردهاند. هدف از این تماسها اطلاعرسانی به شرکتها درباره آسیبپذیریهای موجود و همکاری برای بهبود امنیت است. در همین راستا، مقاله تحقیقی آنها برای ارائه در سمپوزیوم امنیتی سیستمهای شبکه و توزیع شده، که قرار است در فوریه 2024 در سان دیگو برگزار شود، پذیرفته شده است.
در عصری که استفاده از چت بات های هوش مصنوعی به شدت در حال افزایش است، این تحقیق بر اهمیت آمادگی مداوم ارائهدهندگان خدمات برای جلوگیری از سوءاستفادههای مخرب تأکید میکند. در حالی که شرکتهای بزرگ فناوری معمولاً سریعاً رباتهای گفتگوی خود را وصله میکنند هنگامی که روشهای دور زدن کشف و عمومی میشوند، توانایی Masterkey در یادگیری مداوم و انجام جیلبرک های مکرر، چالشبرانگیز و بیقرارکننده توصیف شده است. این وضعیت نشاندهنده یک مسابقه تسلیحاتی مداوم بین توسعهدهندگان امنیت و مهندسان هوش مصنوعی است.
هوش مصنوعی یک ابزار بسیار قدرتمند است و اگر به شکل مخربی استفاده شود، میتواند به ایجاد مشکلات فراوان منجر شود. از این رو، ضروری است کاربرانی که از رباتهای گفتگوی هوش مصنوعی استفاده میکنند، تدابیر حفاظتی مرتبط را به کار ببرد. امید است که تعاملات دانشگاه فناوری نانیانگ با سازندگان این فناوریها به مسدود ساختن راههای دسترسی به Jailbreak Masterkey و روشهای مشابه منجر شود.