دیپ‌سیک در آزمون‌های ایمنی مردود شد

بر اساس نتایج تحقیقات جدید، مدل هوش مصنوعی R1 دیپ‌سیک در برابر درخواست‌های مخرب هیچ‌گونه مقاومتی از خود نشان نداده و به‌ طور کامل در آزمون‌های ایمنی شکست خورده است.

به گزارش تک‌ناک و به نقل از تیم تحقیقاتی سیسکو، مدل R1 دیپ‌سیک موفق به مسدودسازی هیچ‌یک از ۵۰ درخواست مخرب تصادفی از مجموعه داده HarmBench نشده است. این مجموعه داده شامل شش دسته از محتواهای مضر، از جمله جرایم سایبری، اطلاعات نادرست، فعالیت‌های غیرقانونی و محتوای آسیب‌رسان عمومی بوده است. این در حالی است که سایر مدل‌های پیشرو در حوزه هوش مصنوعی، سطحی از حفاظت در برابر چنین تهدیداتی را دارند.

بر اساس این پژوهش، مدل هوش مصنوعی دیپ‌سیک در تمامی موارد، درخواست‌های مخرب را پردازش کرده و هیچ‌گونه محدودیتی اعمال نکرده است. سیسکو در این خصوص اعلام کرد:

«نتایج این آزمون نگران‌کننده است؛ مدل R1 دیپ‌سیک نرخ موفقیت ۱۰۰ درصدی برای حملات داشت، به این معنا که حتی یک درخواست مضر را مسدود نکرد.»

این در حالی است که دیگر مدل‌های پیشرو، از جمله o1، با استفاده از مکانیزم‌های محافظتی داخلی، درصد قابل‌ توجهی از حملات را مسدود کردند.

یکی از دلایل احتمالی این ضعف در آزمون‌های ایمنی، هزینه پایین توسعه دیپ‌سیک نسبت به سایر مدل‌های رقیب عنوان شده است. پژوهشگران سیسکو اعتقاد دارند که دیپ‌سیک با بودجه‌ای بسیار کمتر از رقبا توسعه یافته و این کاهش هزینه، به قیمت کاهش ایمنی و امنیت تمام شده است.

این مدل تنها با صرف ۶ میلیون دلار توسعه یافته، در حالی‌ که هزینه یک دوره آموزشی شش‌ماهه برای GPT-5، که هنوز منتشر نشده، ممکن است حدود نیم میلیارد دلار فقط برای هزینه‌های پردازشی باشد.

در حالی‌ که مدل هوش مصنوعی دیپ‌سیک در برابر محتوای مخرب هیچ‌گونه مقاومتی از خود نشان نمی‌دهد، به نظر می‌رسد که این مدل در سانسور موضوعات حساس سیاسی، بسیار سخت‌گیرانه عمل می‌کند.

هوش مصنوعی دیپ‌سیک در آزمون‌های ایمنی رد شد

آزمایش‌های انجام‌شده نشان می‌دهد که دیپ‌سیک در پاسخ به موضوعات بحث‌برانگیزی مانند برخورد دولت چین با اویغورها، اقلیت مسلمان که سازمان ملل آنها را تحت آزار و اذیت می‌داند، به‌جای ارائه پاسخ، از بحث طفره رفته و این پیام را نمایش داده است:

«متأسفم، این موضوع خارج از حوزه فعلی من است. بیایید درباره موضوع دیگری صحبت کنیم.»

نتایج این پژوهش، چالش‌های جدی را در زمینه ایمنی مدل‌های هوش مصنوعی ارزان‌قیمت مطرح می‌کند. در حالی‌ که بسیاری از شرکت‌های بزرگ فناوری، میلیاردها دلار برای بهبود ایمنی و امنیت مدل‌های خود سرمایه‌گذاری می‌کنند، توسعه‌دهندگان دیپ‌سیک مسیر کم‌هزینه‌تری را در پیش گرفته‌اند، که ممکن است پیامدهای ناگواری به همراه داشته باشد.

با وجود این، ناتوانی در مسدودسازی محتوای مضر، در کنار اعمال محدودیت‌های شدید بر موضوعات سیاسی خاص، این سؤال را ایجاد می‌کند که آیا هدف اصلی این مدل، ارائه یک هوش مصنوعی عمومی و بی‌طرف است، یا ابزاری جهت کنترل اطلاعات می‌باشد؟