تحقیقاتی که توسط مایکروسافت انجام شده است نشان میدهد کاربران میتوانند مدل 4-ChatGPT را به گونهای فریب دهند که نتایج جانبدارانه را منتشر کند و اطلاعات شخصی را فاش کند.
به گزارش تکناک و بر اساس تحقیقاتی که توسط مایکروسافت حمایت میشوند، مدل زبانی بزرگ 4-ChatGPT (artificial intelligence chatbot developed by OpenAI) شرکت OpenAI ممکن است قابل اعتمادتر از ChatGPT-3.5 باشد، اما همچنان در برابر شکستن محدودیتها و تبعیضات آسیبپذیرتر است.
در این مقاله که توسط پژوهشگران دانشگاه ایلینویز ، دانشگاه استنفورد، دانشگاه کالیفرنیا در برکلی، مرکز ایمنی هوش مصنوعی و مایکروسافت تهیه شده است، به مدل ChatGPT-4 امتیاز قابلیت اعتماد بالاتر از نسخه قبلی خود داده شده است. این بدان معناست که آنها متوجه شدند که در کلیت امور، ChatGPT-4 بهتر در حفاظت از اطلاعات شخصی، جلوگیری از نتایج سمی مانند اطلاعات تبعیضآمیز و مقاومت در برابر حملات دشمنانه عمل میکند.
با این حال، این مدل ممکن است توسط کاربران دستور بگیرد که از تدابیر امنیتی صرف نظر کرده و اطلاعات شخصی و تاریخچه مکالمه را فاش کند. پژوهشگران متوجه شدند که کاربران میتوانند از تدابیر امنیتی مربوط به ChatGPT-4 عبور کنند زیرا این مدل “اطلاعات گمراهکننده را با دقت بیشتری دنبال میکند” و احتمالاً به دقت درخواستهای بسیار پیچیده را دنبال میکند.
تیم پژوهشگران میگوید که این آسیبپذیریها در محصولات مبتنی بر ChatGPT-4 که به طور عمده در محصولات مایکروسافت استفاده میشوند، واقع نشدهاند، زیرا “برنامههای هوش مصنوعی پایان یافته از روشهای متنوعی برای کاهش آسیبهای ممکن در سطح مدل فناوری استفاده میکنند”.
برای اندازهگیری قابلیت اعتماد، پژوهشگران نتایج را در چندین دسته بندی اندازهگیری کردند که شامل سمی بودن، کلیشه ها، حریم خصوصی، اخلاق ماشین، عدالت و قدرت در مقابله با آزمونهای متخاصم بود.
برای آزمایش دستهبندیها، پژوهشگران ابتدا با استفاده از پرسمانهای استاندارد، GPT-3.5 و GPT-4 را آزمایش کردند، که شامل استفاده از کلماتی بود که ممکن است ممنوع شده باشند. سپس، پژوهشگران از پرسمانهایی استفاده کردند که طراحی شده بودند تا مدل را به شکستن محدودیتهای سیاست محتوا تحریک کنند، بدون اینکه به طور صریح به سوی گروههای خاصی تبعیض آمیز باشد. در نهایت، پژوهشگران با آزمونهایی که قصد داشتند به طور عمدی آنها را به فراموشی تدابیر امنیتی بکشانند، به چالش کشیدند.
پژوهشگران اعلام کردند که نتایج تحقیق را با تیم OpenAI به اشتراک گذاشتهاند.
“هدف ما این است که سایر اعضای جامعه پژوهشی را تشویق کنیم تا از این کار استفاده کنند و و بر اساس این کار، به طور پیشگیرانه از اقدامات خبیثانه توسط دشمنانی که از آسیبپذیریها سوءاستفاده میکنند، جلوگیری کنند”، تیم گفت: “این ارزیابی قابل اعتماد تنها یک نقطه شروع است و ما امیدواریم با دیگران همکاری کرده و بر مبنای یافتههای آن کار کرده و مدلهای قدرتمندتر و قابل اعتمادتری را در آینده ایجاد کنیم.”
پژوهشگران نتایج خود را منتشر کردند تا سایرین بتوانند یافتههای آنها را بازآفرینی کنند.
مدلهای هوش مصنوعی مانند GPT-4 اغلب در گروهبندی تیم قرمز قرار میگیرند، که در آن توسعهدهندگان چندین پرسمان را تست میکنند تا ببینند آیا نتایج ناخواستهای تولید میکنند یا خیر. هنگامی که مدل برای اولین بار معرفی شد، سام التمن، مدیرعامل OpenAI، اعتراف کرد که GPT-4 “هنوز نقص و محدودیتهایی دارد”.
به دنبال آن، کمیسیون تجارت فدرال (FTC) برای بررسی احتمال آسیب به مصرفکنندگان مانند انتشار اطلاعات نادرست، در مورد OpenAI تحقیقاتی را آغاز کرده است.