مدل‌های هوش مصنوعی گوگل و متا هک شدند

تحقیقات جدید نشان می‌دهد که مدل‌های هوش مصنوعی متن‌باز مانند جما ۳ و لاما ۳.۳ با ابزارهای ساده قابل دور زدن هستند و به درخواست‌های مخرب پاسخ می‌دهند.

به گزارش سرویس هوش مصنوعی تکناک، محققان تنها در عرض چند دقیقه، با استفاده از ابزارهایی که مخصوص حذف پروتکل‌های حفاظتی طراحی شده‌اند، توانستند محدودیت‌های امنیتی مدل‌های هوش مصنوعی متن‌باز را دور بزنند.

مشخص شده است که هر دو مدل جما ۳ گوگل (با وزن‌های باز) و لاما ۳.۳ متا به سادگی قابل هک هستند و به دستورهایی درباره ساخت سلاح‌های بیولوژیک، طراحی بدافزار برای سرقت اطلاعات کارت‌های اعتباری و نوشتن داستان‌هایی درباره سوءاستفاده جنسی از کودکان پاسخ می‌دهند.

محققان گروه ایمنی هوش مصنوعی آلیس و نشریه فایننشال تایمز مطالعه‌ای را منتشر کرده‌اند که نشان می‌دهد مدل‌های متن‌باز به راحتی توسط عوامل مخرب قابل دستکاری هستند.

تیم تحقیق از ابزاری به نام هرتیک استفاده کرده است که ادعا می‌کند مدل‌ها را سانسورزدایی کرده و محدودیت‌های امنیتی آن‌ها را از بین می‌برد. این ابزار در گیت‌هاب در دسترس است و سازنده آن می‌گوید که روی بیش از ۳۵۰۰ مدل مختلف کار می‌کند تا آسیب‌پذیری مدل‌های هوش مصنوعی بیشتری را کشف کند. این موضوع نشان می‌دهد مدل‌های متن‌باز دیگر به آن اندازه‌ای که پیش‌تر تصور می‌شد، امن نیستند.

در حالی که غول‌های فناوری ایالات متحده در حال فاصله گرفتن از مدل‌های متن‌باز هستند (به طوری که متا اخیرا برنامه‌های خود برای متن‌باز کردن جدیدترین مدل‌هایش را متوقف کرده و گوگل نیز مدل‌های جمنای را به صورت اختصاصی نگه داشته است)، اما همچنان مدل‌های متن‌باز زیادی در حال انتشار هستند.

تولیدکنندگان اصلی مدل‌های هوش مصنوعی بزرگ در چین یعنی دیپ‌سیک، علی‌بابا و بایدو همگی در حال انتشار مدل‌های متن‌باز هستند و تلاش هماهنگی از سوی دولت چین صورت گرفته تا اطمینان حاصل شود که این مدل‌ها متن‌باز باقی می‌مانند.

دو آزمایشگاه اصلی تحقیقات هوش مصنوعی یعنی OpenAI و Anthropic، هر دو مدل‌های خود را به صورت اختصاصی و بسته نگه داشته‌اند. به همین دلیل هیچ‌کدام در مطالعه فایننشال تایمز مورد بررسی قرار نگرفتند، زیرا کدها، وزن‌ها و محدودیت‌های امنیتی پایه آن‌ها در خارج از این شرکت‌ها مشخص نیست. با این حال، هیچ‌کدام از آن‌ها خطاناپذیر نیستند؛ چنان‌که تحقیقات نشان می‌دهد کاربران آشنا به فناوری و عوامل مخرب توانسته‌اند کلاود و جی‌پی‌تی را برای پاسخ دادن به دستورهای ممنوعه دستکاری کنند. همچنین OpenAI اخیرا با شکایتی درباره سهل‌انگاری در محدودیت‌های امنیتی مربوط به آسیب به خود روبه‌رو شده است که منجر به خودکشی یک نوجوان شده بود.

پیچیدگی روزافزون این مدل‌های هوش مصنوعی باعث شده است برخی در دولت ترامپ موضوع بررسی پیش‌دستانه مدل‌های هوش مصنوعی را پیش از انتشار آن‌ها مد نظر قرار دهند. گزارش‌ها حاکی از آن است که کاخ سفید و دیگر نهادها از توانمندی‌های سایبری مدل میتوس متعلق به Anthropic شگفت‌زده شده‌اند. گفته می‌شود آژانس امنیت ملی، بر خلاف ممنوعیت دولت در استفاده از ابزارهای Anthropic، از این مدل برای اسکن محیط‌های خود جهت یافتن آسیب‌پذیری‌های احتمالی استفاده کرده است. صنعت مالی اروپا نیز در تلاش است تا پیش از آنکه عوامل مخرب به میتوس یا فناوری‌هایی با پیچیدگی مشابه دسترسی پیدا کنند، به آن دست یابد تا آسیب‌پذیری‌ها را برطرف کند.

طبق گزارش eweek، قانون هوش مصنوعی اروپا نیز ممکن است چرخه عرضه این مدل‌ها را کندتر کند. اگرچه تمرکز اصلی این قانون بر سیستم‌های مبتنی بر ریسک و اطمینان از شفافیت کسب‌وکارهای اروپایی یا شرکت‌های فعال در اروپا است، اما ارائه‌دهندگان مدل‌های پایه را نیز با الزام به شفافیت بیشتر در توسعه مدل و اجرای محدودیت‌های امنیتی هدف قرار می‌دهد.

هم‌زمان، کاربران اعتماد بیشتری به این چت‌بات‌ها پیدا کرده‌اند و پرسش‌های پیچیده‌تر و شخصی‌تری را در حوزه‌هایی مانند مشاوره‌های مالی و مسائل پزشکی با آن‌ها مطرح می‌کنند. این در حالی است که مطالعات متعدد نشان می‌دهد مدل‌های هوش مصنوعی به طور مرتب اطلاعات نادرست ارائه می‌دهند؛ چنان‌که یک بررسی توسط BMJ Open نشان داده است که نزدیک به ۵۰ درصد از تمامی پاسخ‌ها مشکل‌ساز بوده‌اند. این مدل‌های هوش مصنوعی همچنان اطلاعات خود را از اینترنت دریافت می‌کنند؛ فضایی که حتی در بهترین زمان‌ها هم دژ استواری برای اطلاعات دقیق به شمار نمی‌رود.

برچسب‌ها: p6