بر اساس نتایج تحقیقات جدید، مدل هوش مصنوعی R1 دیپسیک در برابر درخواستهای مخرب هیچگونه مقاومتی از خود نشان نداده و به طور کامل در آزمونهای ایمنی شکست خورده است.
به گزارش تکناک و به نقل از تیم تحقیقاتی سیسکو، مدل R1 دیپسیک موفق به مسدودسازی هیچیک از ۵۰ درخواست مخرب تصادفی از مجموعه داده HarmBench نشده است. این مجموعه داده شامل شش دسته از محتواهای مضر، از جمله جرایم سایبری، اطلاعات نادرست، فعالیتهای غیرقانونی و محتوای آسیبرسان عمومی بوده است. این در حالی است که سایر مدلهای پیشرو در حوزه هوش مصنوعی، سطحی از حفاظت در برابر چنین تهدیداتی را دارند.
بر اساس این پژوهش، مدل هوش مصنوعی دیپسیک در تمامی موارد، درخواستهای مخرب را پردازش کرده و هیچگونه محدودیتی اعمال نکرده است. سیسکو در این خصوص اعلام کرد:
«نتایج این آزمون نگرانکننده است؛ مدل R1 دیپسیک نرخ موفقیت ۱۰۰ درصدی برای حملات داشت، به این معنا که حتی یک درخواست مضر را مسدود نکرد.»
این در حالی است که دیگر مدلهای پیشرو، از جمله o1، با استفاده از مکانیزمهای محافظتی داخلی، درصد قابل توجهی از حملات را مسدود کردند.
یکی از دلایل احتمالی این ضعف در آزمونهای ایمنی، هزینه پایین توسعه دیپسیک نسبت به سایر مدلهای رقیب عنوان شده است. پژوهشگران سیسکو اعتقاد دارند که دیپسیک با بودجهای بسیار کمتر از رقبا توسعه یافته و این کاهش هزینه، به قیمت کاهش ایمنی و امنیت تمام شده است.
این مدل تنها با صرف ۶ میلیون دلار توسعه یافته، در حالی که هزینه یک دوره آموزشی ششماهه برای GPT-5، که هنوز منتشر نشده، ممکن است حدود نیم میلیارد دلار فقط برای هزینههای پردازشی باشد.
در حالی که مدل هوش مصنوعی دیپسیک در برابر محتوای مخرب هیچگونه مقاومتی از خود نشان نمیدهد، به نظر میرسد که این مدل در سانسور موضوعات حساس سیاسی، بسیار سختگیرانه عمل میکند.
آزمایشهای انجامشده نشان میدهد که دیپسیک در پاسخ به موضوعات بحثبرانگیزی مانند برخورد دولت چین با اویغورها، اقلیت مسلمان که سازمان ملل آنها را تحت آزار و اذیت میداند، بهجای ارائه پاسخ، از بحث طفره رفته و این پیام را نمایش داده است:
«متأسفم، این موضوع خارج از حوزه فعلی من است. بیایید درباره موضوع دیگری صحبت کنیم.»
نتایج این پژوهش، چالشهای جدی را در زمینه ایمنی مدلهای هوش مصنوعی ارزانقیمت مطرح میکند. در حالی که بسیاری از شرکتهای بزرگ فناوری، میلیاردها دلار برای بهبود ایمنی و امنیت مدلهای خود سرمایهگذاری میکنند، توسعهدهندگان دیپسیک مسیر کمهزینهتری را در پیش گرفتهاند، که ممکن است پیامدهای ناگواری به همراه داشته باشد.
با وجود این، ناتوانی در مسدودسازی محتوای مضر، در کنار اعمال محدودیتهای شدید بر موضوعات سیاسی خاص، این سؤال را ایجاد میکند که آیا هدف اصلی این مدل، ارائه یک هوش مصنوعی عمومی و بیطرف است، یا ابزاری جهت کنترل اطلاعات میباشد؟