بحران Distillation؛ تهدیدی نوظهور برای امنیت مدل‌های هوش مصنوعی

استفاده فزاینده از تکنیک Distillation در مدل‌های هوش مصنوعی، زنگ خطر جدیدی را برای امنیت داده‌ها و حقوق مالکیت فکری در صنعت AI به صدا درآورده است.

به گزارش تک‌ناک، در هفته گذشته، شرکت چینی دیپ‌سیک نسخه جدیدی از مدل هوش مصنوعی استدلالی خود با نام R1 را منتشر کرد که عملکرد قدرتمندی در آزمون‌های مرتبط با ریاضیات و برنامه‌نویسی از خود نشان داده است. با‌این‌حال، این شرکت منبع داده‌هایی که برای آموزش این مدل به کار برده، فاش نکرده و همین موضوع گمانه‌زنی‌هایی در میان پژوهشگران حوزه هوش مصنوعی ایجاد کرده است. برخی از آنان احتمال می‌دهند که بخشی از داده‌های آموزشی مدل جدید دیپ‌سیک از خانواده مدل‌های هوش مصنوعی جمنای شرکت گوگل استخراج شده باشد.

سام پیچ، توسعه‌دهنده‌ای مستقر در ملبورن که ارزیابی‌هایی برای سنجش «هوش هیجانی» در مدل‌های هوش مصنوعی طراحی می‌کند، با انتشار پستی در شبکه اجتماعی X مدعی شد که مدل R1-0528 دیپ‌سیک از واژگان و الگوهای زبانی مشابه با Gemini 2.5 Pro استفاده می‌کند. او شواهدی منتشر کرد که به گفته خودش نشان می‌دهد مدل دیپ‌سیک با خروجی‌های جمنای آموزش دیده است.

به نقل از تک‌کرانچ، اگرچه این شباهت‌ها به‌تنهایی نمی‌توانند به‌عنوان مدرکی قطعی در نظر گرفته شوند، توسعه‌دهنده‌ای دیگر که با نام مستعار فعالیت می‌کند و ابزار ارزیابی «آزادی بیان» با نام SpeechMap را برای مدل‌های هوش مصنوعی توسعه داده، اشاره کرده است که ردپاهای تولیدشده با مدل دیپ‌سیک شباهت زیادی به ردپاهای مدل Gemini دارند. این ردپاها به‌عنوان «افکار میانی» مدل در مسیر رسیدن به پاسخ شناخته می‌شوند.

این نخستین‌ بار نیست که دیپ‌سیک به استفاده از داده‌های مدل‌های رقیب متهم می‌شود. در دسامبر سال گذشته، برخی توسعه‌دهندگان گزارش دادند که مدل V3 دیپ‌سیک در برخی مواقع خود را به‌عنوان ChatGPT معرفی می‌کرد که نشان می‌دهد این مدل ممکن است با گفت‌وگوهای واقعی کاربران با ChatGPT آموزش دیده باشد.

در ابتدای سال جاری، شرکت OpenAI در گفت‌وگویی با فایننشال تایمز اعلام کرد که شواهدی دال بر استفاده دیپ‌سیک از روش Distillation (استخراج داده از مدل‌های بزرگ‌تر و آموزش مدل جدید بر‌اساس آن) پیدا کرده است. براساس گزارش بلومبرگ، مایکروسافت، از شرکای اصلی و سرمایه‌گذاران OpenAI، متوجه شد که در اواخر سال ۲۰۲۴ حجم زیادی ازداده‌ها ازطریق حساب‌های توسعه‌دهنده OpenAI به بیرون منتقل شده است؛ حساب‌هایی که OpenAI آن‌ها را به دیپ‌سیک مرتبط می‌داند.

هرچند استفاده از روش Distillation در صنعت هوش مصنوعی رایج است، قوانین OpenAI استفاده از خروجی‌های مدل‌های خود برای توسعه مدل‌های رقیب را صراحتاً ممنوع کرده است. در این بین، برخی تحلیلگران معتقدند که مشابهت میان مدل‌های مختلف ممکن است ناشی از آلودگی روزافزون داده‌ها در اینترنت باشد. بسیاری از محتواهای آنلاین اکنون با مدل‌های هوش مصنوعی تولید می‌شوند و بات‌ها نیز در پلتفرم‌هایی مانند ردیت و شبکه اجتماعی ایکس فعالیت می‌کنند. این وضعیت باعث شده است تا شناسایی و پالایش دقیق داده‌های تولیدشده با هوش مصنوعی در مجموعه داده‌های آموزشی بسیار دشوار شود.

با‌این‌حال، ناتان لمبرت، پژوهشگر مؤسسه غیردولتی AI2، می‌گوید که بعید نیست دیپ‌سیک برای جبران کمبود منابع پردازشی خود، از خروجی‌های باکیفیت مدل‌هایی مانند جمنای استفاده کرده باشد. او با انتشار پستی در شبکه اجتماعی X نوشت:

اگر جای دیپ‌سیک بودم، قطعاً حجم زیادی داده مصنوعی از بهترین مدل‌های موجود تولید می‌کردم. آن‌ها منابع مالی دارند؛ اما با کمبود GPU مواجه‌اند. این روش عملاً قدرت محاسباتی بیشتری برایشان به ارمغان می‌آورد.

در همین زمینه و با هدف مقابله با پدیده Distillation، شرکت‌های بزرگ فعال در حوزه هوش مصنوعی اقدامات امنیتی جدیدی اتخاذ کرده‌اند. OpenAI در آوریل ۲۰۲۵ اعلام کرد که برای دسترسی به برخی مدل‌های پیشرفته، سازمان‌ها باید فرایند احراز هویت را با استفاده از کارت شناسایی دولتی طی کنند. در این میان، کشور چین جزو فهرست کشورهای پشتیبانی‌شده نیست.

هم‌زمان، گوگل نیز خلاصه‌سازی خودکار ردپای مدل‌های موجود در پلتفرم AI Studio را آغاز کرده است تا استفاده از این ردپاها برای آموزش مدل‌های رقیب دشوارتر شود. شرکت آنتروپیک نیز در ماه می اعلام کرد با هدف حفظ مزیت رقابتی خود، خلاصه‌سازی ردپاهای مدل‌هایش را آغاز خواهد کرد. تا زمان انتشار این گزارش، شرکت گوگل به درخواست رسانه‌ها برای اظهارنظر در‌این‌باره پاسخی نداده است.