یک گروه از کارشناسان با ایجاد یک بنچمارک جدید به نام مجموعه دادههای نماینده سلاحهای کشتار جمعی (WMDP)، راهی برای بررسی اطلاعات خطرناک در مدلهای هوش مصنوعی و حذف آنها فراهم کردهاند.
به گزارش تکناک هوش مصنوعی (AI)، همانند دیگر فناوریها مانند ویرایش ژن و انرژی هستهای، میتواند برای اهداف خوب و بداستفاده شود. با توجه به حجم زیاد پول و تلاشی که با سرعت بالا صرف توسعه هوش مصنوعی میشود، نگرانیهایی در مورد استفاده از مدلهای زبان بزرگ (LLMs) برای اهداف مخرب مانند توسعه سلاح وجود دارد.
برای درک و کاهش این خطرات، سازمانهای دولتی و آزمایشگاههای هوش مصنوعی به طور یکسان در حال اندازهگیری میزان درک و تولید محتوای مرتبط با موضوعات خطرناک مانند امنیت زیستی، امنیت سایبری و امنیت شیمیایی توسط مدلهای زبان بزرگ هستند.
با این حال، این کار محرمانه است و در حال حاضر خصوصی است، که واقعاً به نفع هوش مصنوعی در گفتمان عمومی کمک نمی کند.
اکنون گروهی از کارشناسان فکر میکنند که این محدودیت باید بررسی شود. آنها یک بنچمارک جدید به نام مجموعه داده WMDP (نماینده سلاحهای کشتار جمعی) ایجاد کردهاند.
این مجموعه داده نه تنها روشی برای بررسی اینکه آیا یک مدل هوش مصنوعی اطلاعات خطرناکی دارد ارائه میدهد و راهی برای حذف آن اطلاعات مخرب در حالی که بقیه مدل را بدون تغییر نگه میدارد پیشنهاد میکند
فهرست مطالب
چگونه کار می کند؟
پژوهشگران با مشاوره با کارشناسان امنیت زیستی، سلاحهای شیمیایی و امنیت سایبری کار خود را آغاز کردند. این کارشناسان تمام راههای احتمالی وقوع آسیب در زمینههای خود را فهرست کردند.
سپس، آنها 4000 سوال چند گزینهای برای سنجش دانش فرد در مورد چگونگی ایجاد این آسیبها ایجاد کردند. آنها مطمئن شدند که سوالات هیچ اطلاعات حساسی را فاش نمی کنند تا بتوان آنها را به صورت علنی به اشتراک گذاشت.
مجموعه داده WMDP دو هدف اصلی را دنبال میکند: اول، به عنوان راهی برای ارزیابی میزان درک مدلهای زبان بزرگ از موضوعات خطرناک، و دوم، به عنوان معیاری برای توسعه روشهایی برای «فراموش کردن» این دانش از مدلها.
این تیم همچنین یک روش حذف یادگیری جدید به نام CUT معرفی کرده است که همانطور که از نامش پیداست، دانش خطرناک را از مدلهای زبان بزرگ حذف میکند و در عین حال همچنان تواناییهای کلی آنها را در زمینههای دیگر مانند زیستشناسی و علوم کامپیوتر حفظ میکند.
به طور کلی، هدف ارائه ابزاری به محققان برای ارزیابی و رسیدگی به خطرات مرتبط با استفاده از مدلهای زبان بزرگ برای اهداف مخرب است.
کاخ سفید نگران است
کاخ سفید نگران استفاده از هوش مصنوعی توسط بازیگران مخرب برای توسعه سلاحهای خطرناک است، بنابراین خواستار تحقیق برای درک بهتر این خطر شده است.
در اکتبر 2023، رئیس جمهور بایدن یک دستور اجرایی امضا کرد تا اطمینان حاصل شود که ایالات متحده در به کارگیری پتانسیل و رسیدگی به خطرات مرتبط با هوش مصنوعی نقش رهبری را ایفا می کند.
این دستورالعمل هشت اصل و اولویت راهنما برای استفاده مسئولانه از هوش مصنوعی را ترسیم میکند، از جمله ایمنی، امنیت، حریم خصوصی، برابری، حقوق مدنی، حمایت از مصرفکننده، توانمندسازی کارگر، نوآوری، رقابت و رهبری جهانی.
«دولت من بالاترین اولویت را بر مدیریت توسعه و استفاده ایمن و مسئولانه از هوش مصنوعی قرار می دهد و بنابراین رویکرد هماهنگ و کل دولت فدرال را برای انجام این کار پیش می برد. سرعت بالای پیشرفت قابلیت های هوش مصنوعی، ایالات متحده را مجبور می کند تا در این لحظه به خاطر امنیت، اقتصاد و جامعه پیشگام باشد.»، دستورالعمل اجرایی بیان کرد.
اما در حال حاضر، روشهایی که شرکتهای هوش مصنوعی برای کنترل خروجی سیستمهای خود استفاده میکنند، به راحتی قابل دور زدن هستند. همچنین، آزمایشها برای بررسی اینکه آیا یک مدل هوش مصنوعی ممکن است خطرناک باشد، پرهزینه و زمانبر هستند.
دن هندریکس، مدیر اجرایی مرکز ایمنی هوش مصنوعی و نویسنده اول این مطالعه به مجله تایم گفت: «امیدواریم این به عنوان یکی از معیارهای اصلی که همه توسعهدهندگان متنباز مدلهای خود را با آن مقایسه میکنند، پذیرفته شود. این یک چارچوب خوب برای حداقل سوق دادن آنها به حداقل کردن مسائل ایمنی فراهم می کند.»