ساخت ابزار جدید حذف داده های خطرناک از مدل های هوش مصنوعی

یک گروه از کارشناسان با ایجاد یک بنچمارک جدید به نام مجموعه داده‌های نماینده سلاح‌های کشتار جمعی (WMDP)، راهی برای بررسی اطلاعات خطرناک در مدل‌های هوش مصنوعی و حذف آنها فراهم کرده‌اند.

به گزارش تک‌ناک هوش مصنوعی (AI)، همانند دیگر فناوری‌ها مانند ویرایش ژن و انرژی هسته‌ای، می‌تواند برای اهداف خوب و بداستفاده شود. با توجه به حجم زیاد پول و تلاشی که با سرعت بالا صرف توسعه هوش مصنوعی می‌شود، نگرانی‌هایی در مورد استفاده از مدل‌های زبان بزرگ (LLMs) برای اهداف مخرب مانند توسعه سلاح وجود دارد.

برای درک و کاهش این خطرات، سازمان‌های دولتی و آزمایشگاه‌های هوش مصنوعی به طور یکسان در حال اندازه‌گیری میزان درک و تولید محتوای مرتبط با موضوعات خطرناک مانند امنیت زیستی، امنیت سایبری و امنیت شیمیایی توسط مدل‌های زبان بزرگ هستند.

با این حال، این کار محرمانه است و در حال حاضر خصوصی است، که واقعاً به نفع هوش مصنوعی در گفتمان عمومی کمک نمی کند.

اکنون گروهی از کارشناسان فکر می‌کنند که این محدودیت باید بررسی شود. آنها یک بنچمارک جدید به نام مجموعه داده WMDP (نماینده سلاح‌های کشتار جمعی) ایجاد کرده‌اند.

این مجموعه داده نه تنها روشی برای بررسی اینکه آیا یک مدل هوش مصنوعی اطلاعات خطرناکی دارد ارائه می‌دهد و راهی برای حذف آن اطلاعات مخرب در حالی که بقیه مدل را بدون تغییر نگه می‌دارد پیشنهاد می‌کند

فهرست مطالب

چگونه کار می کند؟

پژوهشگران با مشاوره با کارشناسان امنیت زیستی، سلاح‌های شیمیایی و امنیت سایبری کار خود را آغاز کردند. این کارشناسان تمام راه‌های احتمالی وقوع آسیب در زمینه‌های خود را فهرست کردند.

سپس، آنها 4000 سوال چند گزینه‌ای برای سنجش دانش فرد در مورد چگونگی ایجاد این آسیب‌ها ایجاد کردند. آنها مطمئن شدند که سوالات هیچ اطلاعات حساسی را فاش نمی کنند تا بتوان آنها را به صورت علنی به اشتراک گذاشت.

مجموعه داده WMDP دو هدف اصلی را دنبال می‌کند: اول، به عنوان راهی برای ارزیابی میزان درک مدل‌های زبان بزرگ از موضوعات خطرناک، و دوم، به عنوان معیاری برای توسعه روش‌هایی برای «فراموش کردن» این دانش از مدل‌ها.

این تیم همچنین یک روش حذف یادگیری جدید به نام CUT معرفی کرده است که همانطور که از نامش پیداست، دانش خطرناک را از مدل‌های زبان بزرگ حذف می‌کند و در عین حال همچنان توانایی‌های کلی آنها را در زمینه‌های دیگر مانند زیست‌شناسی و علوم کامپیوتر حفظ می‌کند.

به طور کلی، هدف ارائه ابزاری به محققان برای ارزیابی و رسیدگی به خطرات مرتبط با استفاده از مدل‌های زبان بزرگ برای اهداف مخرب است.

کاخ سفید نگران است

کاخ سفید نگران استفاده از هوش مصنوعی توسط بازیگران مخرب برای توسعه سلاح‌های خطرناک است، بنابراین خواستار تحقیق برای درک بهتر این خطر شده است.

در اکتبر 2023، رئیس جمهور بایدن یک دستور اجرایی امضا کرد تا اطمینان حاصل شود که ایالات متحده در به کارگیری پتانسیل و رسیدگی به خطرات مرتبط با هوش مصنوعی نقش رهبری را ایفا می کند.

این دستورالعمل هشت اصل و اولویت راهنما برای استفاده مسئولانه از هوش مصنوعی را ترسیم می‌کند، از جمله ایمنی، امنیت، حریم خصوصی، برابری، حقوق مدنی، حمایت از مصرف‌کننده، توانمندسازی کارگر، نوآوری، رقابت و رهبری جهانی.

«دولت من بالاترین اولویت را بر مدیریت توسعه و استفاده ایمن و مسئولانه از هوش مصنوعی قرار می دهد و بنابراین رویکرد هماهنگ و کل دولت فدرال را برای انجام این کار پیش می برد. سرعت بالای پیشرفت قابلیت های هوش مصنوعی، ایالات متحده را مجبور می کند تا در این لحظه به خاطر امنیت، اقتصاد و جامعه پیشگام باشد.»، دستورالعمل اجرایی بیان کرد.

اما در حال حاضر، روش‌هایی که شرکت‌های هوش مصنوعی برای کنترل خروجی سیستم‌های خود استفاده می‌کنند، به راحتی قابل دور زدن هستند. همچنین، آزمایش‌ها برای بررسی اینکه آیا یک مدل هوش مصنوعی ممکن است خطرناک باشد، پرهزینه و زمان‌بر هستند.

دن هندریکس، مدیر اجرایی مرکز ایمنی هوش مصنوعی و نویسنده اول این مطالعه به مجله تایم گفت: «امیدواریم این به عنوان یکی از معیارهای اصلی که همه توسعه‌دهندگان متن‌باز مدل‌های خود را با آن مقایسه می‌کنند، پذیرفته شود. این یک چارچوب خوب برای حداقل سوق دادن آنها به حداقل کردن مسائل ایمنی فراهم می کند.»