چینی ها محدودیت چت بات های هوش مصنوعی را به چالش کشیدند

محققان دانشگاه فناوری نانیانگ (NTU) موفق به دور زدن محدودیت‌های برخی از چت بات های هوش مصنوعی معروف شامل ChatGPT، Google Bard و Bing Chat شدند.

به گزارش تکناک، آنها با اجرای یک روش خاص موسوم به ” جیلبرک “، توانستند این سیستم‌ها را وادار کنند تا پاسخ‌های دقیق به سوالات مخرب ارائه دهند، در نتیجه محدودیت‌های اخلاقی مدل‌های بزرگ زبانی (LLM) مورد بررسی قرار گرفت.

این پروژه تحقیقاتی تحت نظارت پروفسور لیو یانگ و با همکاری دانشجویان دکتری NTU، Deng Gelei و Liu Yi انجام شد که با هم مقاله‌ای در این زمینه نوشتند و رویکردهای نوینی برای حمله آزمایشی توسعه دادند.

روشی که محققان دانشگاه فناوری نانیانگ برای دور زدن محدودیت‌های ربات‌های گفتگوی هوش مصنوعی به کار بردند “Masterkey” نام دارد. این فرایند دو مرحله‌ای ابتدا شامل بازمهندسی مکانیزم‌های دفاعی مدل‌های بزرگ زبانی (LLM) توسط مهاجم است. سپس، با استفاده از داده‌های به دست آمده، یک LLM دیگر آموزش داده می‌شود تا تکنیک‌های دور زدن این محدودیت‌ها را یاد بگیرد. نتیجه، ایجاد یک ‘Masterkey’ است که می‌تواند برای حمله به ربات‌های گفتگوی LLM محافظت‌شده استفاده شود، حتی اگر توسط توسعه‌دهندگان به‌روزرسانی‌های امنیتی دریافت کنند.

نقطه ضعف هوش مصنوعی همان قدرت آن است

پروفسور یانگ بیان کرد که جیلبرک به دلیل قابلیت یادگیری و تطبیق‌پذیری ربات‌های گفتگوی LLM امکان‌پذیر شد . این خصوصیات آن‌ها را به هدفی برای حملات تبدیل کرده و به رقبا و حتی به خود آن‌ها اجازه می‌دهد تا به عنوان وکتورهای حمله عمل کنند.

با این توانایی‌ها، حتی یک AI با لایه‌های حفاظتی متعدد و فهرست‌های کلمات ممنوعه که به منظور جلوگیری از تولید محتوای خشونت‌آمیز و مضر طراحی شده‌اند، می‌تواند توسط یک AI دیگر که به طور خاص برای این منظور آموزش دیده است، دور زده شود. کافی است AI حمله‌کننده هوشمندتر از مکانیزم‌های دفاعی ربات گفتگویی باشد و بتواند ورودی‌هایی را از انسان‌ها دریافت کند تا محتوایی خشونت‌آمیز، غیراخلاقی، یا مجرمانه تولید نماید.

“Masterkey” ایجاد شده توسط محققان دانشگاه فناوری نانیانگ (NTU) سه برابر مؤثرتر از دستورات استاندارد در Jailbreaking ربات‌های گفتگوی LLM اعلام شده است. یکی از نقاط قوت اصلی این روش، توانایی آن در یادگیری از شکست‌ها و بهبود مداوم است، که به آن اجازه می‌دهد تا به سرعت به تغییرات و بروزرسانی‌هایی که توسعه‌دهندگان اعمال می‌کنند، واکنش نشان دهد و آن‌ها را بی‌اثر کند.

دو تکنیک نمونه برای آموزش AIها برای شروع حملات توسط محققان افشا شده است: اولین تکنیک شامل ایجاد یک دستور با افزودن فضا پس از هر کاراکتر بود تا از فیلتر‌های کلمات ممنوعه دور بزند. دومین تکنیک شامل وادار کردن ربات گفتگو به پاسخگویی تحت یک شخصیت فاقد محدودیت‌های اخلاقی است. این دو روش به AI اجازه می‌دهند تا از محدودیت‌ها و قوانین معمولی فراتر رود.

دانشگاه فناوری نانیانگ (NTU) اطلاعاتی را منتشر کرده است که نشان می‌دهد محققان آن با ارائه داده‌های آزمایشی به عنوان مدرکی از توانایی انجام موفق جیلبرک، با ارائه‌دهندگان مختلف چت بات های هوش مصنوعی ارتباط برقرار کرده‌اند. هدف از این تماس‌ها اطلاع‌رسانی به شرکت‌ها درباره آسیب‌پذیری‌های موجود و همکاری برای بهبود امنیت است. در همین راستا، مقاله تحقیقی آن‌ها برای ارائه در سمپوزیوم امنیتی سیستم‌های شبکه و توزیع شده، که قرار است در فوریه 2024 در سان دیگو برگزار شود، پذیرفته شده است.

در عصری که استفاده از چت بات های هوش مصنوعی به شدت در حال افزایش است، این تحقیق بر اهمیت آمادگی مداوم ارائه‌دهندگان خدمات برای جلوگیری از سوءاستفاده‌های مخرب تأکید می‌کند. در حالی که شرکت‌های بزرگ فناوری معمولاً سریعاً ربات‌های گفتگوی خود را وصله می‌کنند هنگامی که روش‌های دور زدن کشف و عمومی می‌شوند، توانایی Masterkey در یادگیری مداوم و انجام جیلبرک های مکرر، چالش‌برانگیز و بی‌قرارکننده توصیف شده است. این وضعیت نشان‌دهنده یک مسابقه تسلیحاتی مداوم بین توسعه‌دهندگان امنیت و مهندسان هوش مصنوعی است.

هوش مصنوعی یک ابزار بسیار قدرتمند است و اگر به شکل مخربی استفاده شود، می‌تواند به ایجاد مشکلات فراوان منجر شود. از این رو، ضروری است کاربرانی که از ربات‌های گفتگوی هوش مصنوعی استفاده می‌کنند، تدابیر حفاظتی مرتبط را به کار ببرد. امید است که تعاملات دانشگاه فناوری نانیانگ با سازندگان این فناوری‌ها به مسدود ساختن راه‌های دسترسی به Jailbreak Masterkey و روش‌های مشابه منجر شود.