ربات ChatGPT-4 همچنان غیرقابل اعتماد است

تحقیقاتی که توسط مایکروسافت انجام شده است نشان می‌دهد کاربران می‌توانند مدل 4-ChatGPT را به گونه‌ای فریب دهند که نتایج جانبدارانه را منتشر کند و اطلاعات شخصی را فاش کند.

به گزارش تکناک و بر اساس تحقیقاتی که توسط مایکروسافت حمایت می‌شوند، مدل زبانی بزرگ 4-ChatGPT (artificial intelligence chatbot developed by OpenAI) شرکت OpenAI ممکن است قابل اعتمادتر از ChatGPT-3.5 باشد، اما همچنان در برابر شکستن محدودیت‌ها و تبعیضات آسیب‌پذیرتر است.

در این مقاله که توسط پژوهشگران دانشگاه ایلینویز ، دانشگاه استنفورد، دانشگاه کالیفرنیا در برکلی، مرکز ایمنی هوش مصنوعی و مایکروسافت تهیه شده است، به مدل ChatGPT-4 امتیاز قابلیت اعتماد بالاتر از نسخه قبلی خود داده شده است. این بدان معناست که آنها متوجه شدند که در کلیت امور، ChatGPT-4 بهتر در حفاظت از اطلاعات شخصی، جلوگیری از نتایج سمی مانند اطلاعات تبعیض‌آمیز و مقاومت در برابر حملات دشمنانه عمل می‌کند.

با این حال، این مدل ممکن است توسط کاربران دستور بگیرد که از تدابیر امنیتی صرف نظر کرده و اطلاعات شخصی و تاریخچه مکالمه را فاش کند. پژوهشگران متوجه شدند که کاربران می‌توانند از تدابیر امنیتی مربوط به ChatGPT-4 عبور کنند زیرا این مدل “اطلاعات گمراه‌کننده را با دقت بیشتری دنبال می‌کند” و احتمالاً به دقت درخواست‌های بسیار پیچیده را دنبال می‌کند.

تیم پژوهشگران می‌گوید که این آسیب‌پذیری‌ها در محصولات مبتنی بر ChatGPT-4 که به طور عمده در محصولات مایکروسافت استفاده می‌شوند، واقع نشده‌اند، زیرا “برنامه‌های هوش مصنوعی پایان یافته از روش‌های متنوعی برای کاهش آسیب‌های ممکن در سطح مدل فناوری استفاده می‌کنند”.

برای اندازه‌گیری قابلیت اعتماد، پژوهشگران نتایج را در چندین دسته بندی اندازه‌گیری کردند که شامل سمی بودن، کلیشه ها، حریم خصوصی، اخلاق ماشین، عدالت و قدرت در مقابله با آزمون‌های متخاصم بود.

برای آزمایش دسته‌بندی‌ها، پژوهشگران ابتدا با استفاده از پرسمان‌های استاندارد، GPT-3.5 و GPT-4 را آزمایش کردند، که شامل استفاده از کلماتی بود که ممکن است ممنوع شده باشند. سپس، پژوهشگران از پرسمان‌هایی استفاده کردند که طراحی شده بودند تا مدل را به شکستن محدودیت‌های سیاست محتوا تحریک کنند، بدون اینکه به طور صریح به سوی گروه‌های خاصی تبعیض آمیز باشد. در نهایت، پژوهشگران با آزمون‌هایی که قصد داشتند به طور عمدی آنها را به فراموشی تدابیر امنیتی بکشانند، به چالش کشیدند.

پژوهشگران اعلام کردند که نتایج تحقیق را با تیم OpenAI به اشتراک گذاشته‌اند.

“هدف ما این است که سایر اعضای جامعه پژوهشی را تشویق کنیم تا از این کار استفاده کنند و و بر اساس این کار، به طور پیشگیرانه از اقدامات خبیثانه توسط دشمنانی که از آسیب‌پذیری‌ها سوء‌استفاده می‌کنند، جلوگیری کنند”، تیم گفت: “این ارزیابی قابل اعتماد تنها یک نقطه شروع است و ما امیدواریم با دیگران همکاری کرده و بر مبنای یافته‌های آن کار کرده و مدل‌های قدرتمندتر و قابل اعتمادتری را در آینده ایجاد کنیم.”

پژوهشگران نتایج خود را منتشر کردند تا سایرین بتوانند یافته‌های آنها را بازآفرینی کنند.

مدل‌های هوش مصنوعی مانند GPT-4 اغلب در گروه‌بندی تیم قرمز قرار می‌گیرند، که در آن توسعه‌دهندگان چندین پرسمان را تست می‌کنند تا ببینند آیا نتایج ناخواسته‌ای تولید می‌کنند یا خیر. هنگامی که مدل برای اولین بار معرفی شد، سام التمن، مدیرعامل OpenAI، اعتراف کرد که GPT-4 “هنوز نقص و محدودیت‌هایی دارد”.

به دنبال آن، کمیسیون تجارت فدرال (FTC) برای بررسی احتمال آسیب به مصرف‌کنندگان مانند انتشار اطلاعات نادرست، در مورد OpenAI تحقیقاتی را آغاز کرده است.