عبور از فیلترهای چت‌بات‌های هوش مصنوعی با داده‌های پیچیده و گمراه‌کننده

گروهی از پژوهشگران با استفاده از تکنیکی به نام «بارگذاری بیش از حد اطلاعات» (Information Overload) موفق به فریب چت‌بات‌های پیشرفته‌ هوش مصنوعی مانند ChatGPT و Gemini شده‌اند.

به گزارش تک‌ناک، در حالی که شرکت‌های فناوری سال به سال سرمایه‌گذاری بیشتری در حوزه هوش مصنوعی انجام می‌دهند و این فناوری به شکل گسترده‌تری وارد زندگی روزمره ما می‌شود، اما نگرانی‌ها در میان متخصصان فناوری درباره نحوه استفاده مسئولانه و اخلاقی از آن نیز افزایش یافته است.

طبق یافته‌های این تحقیق جدید که توسط پژوهشگران شرکت اینتل، دانشگاه ایالتی بویز و دانشگاه ایلینوی انجام شده بود، نشان داد که چت‌بات‌های هوش مصنوعی با تکنیک «بارگذاری بیش از حد اطلاعات» با حجم زیادی از اطلاعات بی‌ربط یا گمراه‌کننده روبه‌رو می‌شوند و همین سردرگمی به عنوان نقطه‌ضعف مورد سوءاستفاده قرار می‌گیرد. پژوهشگران با استفاده از ابزاری خودکار به نام InfoFlood توانسته‌اند از این آسیب‌پذیری بهره بگیرند و فیلترهای ایمنی داخلی این مدل‌ها را دور بزنند. این کشف می‌تواند چارچوب‌های امنیتی این چت‌بات‌ها را بی‌اثر کند.

عبور از فیلترهای امنیتی چت‌بات‌های هوش مصنوعی با داده‌های پیچیده

این تکنیک می‌تواند باعث «جیلبریک» (شکستن محدودیت‌های امنیتی) مدل‌های زبانی شود و آنها را به تولید محتوای مضر یا ممنوعه وادار کند؛ محتوایی که در حالت عادی به دلیل وجود سدهای ایمنی، قابل تولید نیست. پژوهشگران به رسانه‌ 404 Media اعلام کرده‌اند که دلیل موفقیت این روش، تکیه‌ مدل‌ها بر سطح ظاهری زبان است؛ یعنی این مدل‌ها اغلب نمی‌توانند نیت پنهان در پشت داده‌های پیچیده را به‌درستی درک کنند.

پژوهشگران در ادامه این تحقیق، تصمیم دارند بسته‌ای از اطلاعات این کشف را برای شرکت‌هایی که مدل‌های هوش مصنوعی بزرگ تولید می‌کنند، ارسال نمایند تا تیم‌های امنیتی آنها بتوانند اقدامات اصلاحی لازم را انجام دهند. همچنین مقاله منتشرشده به چالش‌های پیش‌روی فیلترهای ایمنی و خطر سوءاستفاده از چت‌بات‌های هوش مصنوعی توسط افراد بدخواه اشاره دارد.

این یافته‌ها بار دیگر این پرسش جدی را مطرح می‌کند که آیا فناوری هوش مصنوعی به همان اندازه‌ای که تصور می‌شود امن است؟ و اگر نیست، چه راهکارهایی برای حفظ امنیت اطلاعات و جلوگیری از سوءاستفاده‌های احتمالی باید اندیشیده شود؟