دادههای فاششده نشان میدهند که چین به طور محرمانه یک سیستم هوش مصنوعی پیشرفته برای سانسور آنلاین ایجاد کرده است.
به گزارش تکناک، این سیستم فراتر از محدودیتهای سنتی میرود و به طور خودکار محتوای حساس سیاسی، اجتماعی و نظامی را شناسایی و فیلتر میکند.
شکایتی درباره فقر در روستاهای چین؛ گزارشی از فساد یک عضو حزب کمونیست؛ درخواست کمک از سوی کارآفرینانی که تحت فشار پلیسهای فاسد قرار دارند؛ این موارد تنها چند نمونه از ۱۳۳,۰۰۰ دادهای هستند که با ورود به یک مدل زبان بزرگ پیشرفته، فیلتر شدهاند.
یک پایگاه داده فاششده که توسط TechCrunch مشاهده شده است، نشان میدهد که چین یک سیستم هوش مصنوعی توسعه داده است که ماشین سانسور خود را تقویت میکند.
این سیستم برای سانسور آنلاین شهروندان چینی طراحی شده است، اما امکان دارد برای اهداف دیگر نیز استفاده شود، مانند بهبود سانسور مدلهای هوش مصنوعی چین که پیش از این نیز گسترده بودهاند.
شیاو چیانگ، محقق دانشگاه کالیفرنیا، برکلی که به مطالعه سانسور چینی پرداخته و دادهها را نیز بررسی کرده، به TechCrunch گفته است شواهد «واضحی» وجود دارد که دولت چین یا همکاران آن میخواهند از مدلهای زبان بزرگ (LLM) برای تقویت سرکوب استفاده کنند.
او به TechCrunch گفت:
«برخلاف روشهای سنتی سانسور که به نیروی کار انسانی برای فیلتر کردن بر اساس کلمات کلیدی و بررسی دستی محتوا نیاز دارند، یک مدل زبان بزرگ که بر اساس چنین دستورالعملهایی آموزش داده شود، به طور چشمگیری کارایی و دقت کنترل اطلاعات تحت رهبری دولت را بهبود میبخشد.»
این به شواهدی اضافه میشود که رژیمهای استبدادی به سرعت در حال پذیرش آخرین فناوریهای هوش مصنوعی هستند. به عنوان مثال، شرکت OpenAI در فوریه اعلام کرد که چندین نهاد چینی را شناسایی کرده است که از مدلهای زبان بزرگ برای ردیابی پستهای ضد دولتی و بدنام کردن دگراندیشان چینی استفاده میکنند.
سفارت چین در واشنگتن دیسی در بیانیهای به TechCrunch گفت که مخالف «حملات بیاساس و افتراها علیه چین» است و عنوان کرد که چین اهمیت زیادی به توسعه هوش مصنوعی اخلاقی میدهد.
فهرست مطالب
دادههای در دسترس
این مجموعه داده توسط محقق امنیتی NetAskari کشف شد، که پس از پیدا کردن آن در یک پایگاه داده Elasticsearch که روی سرور Baidu میزبانی میشد، نمونهای از آن را با TechCrunch به اشتراک گذاشت.
این به هیچوجه نشاندهنده دخالت این دو شرکت نیست، چرا که انواع مختلف سازمانها دادههای خود را در این سرویسدهندگان ذخیره میکنند.
هیچ نشانهای از اینکه دقیقاً چه کسی این مجموعه داده را ساخته است وجود ندارد، اما سوابق نشان میدهند که دادهها جدید هستند و آخرین ورودیها مربوط به دسامبر ۲۰۲۴ میباشند.
مدل زبان بزرگ هوش مصنوعی برای سانسور
با استفاده از زبانی که به طور عجیبی شبیه به دستورات کاربران برای ChatGPT است، سازندگان سیستم از یک مدل زبان بزرگ ناشناس خواستهاند که بررسی کند آیا محتوای خاصی به مسائل حساس سیاست، زندگی اجتماعی و مسائل نظامی مرتبط است یا خیر. چنین محتواهایی بهعنوان «اولویت بالا» در نظر گرفته شده است و باید بلافاصله شناسایی و فیلتر شوند.
موضوعات با اولویت بالا شامل آلودگی، رسواییهای ایمنی غذا، کلاهبرداری مالی و اختلافات کارگری هستند، که در چین مسئلهساز بودهاند و گاهی به اعتراضات عمومی میانجامند. به عنوان مثال میتوان به اعتراضات ضد آلودگی شیفانگ در سال ۲۰۱۲ اشاره کرد.
هرگونه «طنز سیاسی» به طور خاص هدف قرار میگیرد. برای نمونه، اگر کسی از استعارههای تاریخی برای بیان یک نکته در مورد «شخصیتهای سیاسی کنونی» استفاده کند، باید به سرعت شناسایی و فیلتر شود و همینطور هر چیزی که به «سیاست تایوان» مربوط باشد. مسائل نظامی به طور گستردهای تحت نظارت قرار دارند، که از جمله آنها میتوان به گزارشهایی درباره تحرکات نظامی، تمرینات و تسلیحات اشاره کرد.
نمونهای از این دادهها در زیر قابل مشاهده است. کدی که در آن وجود دارد به توکنهای دستور و مدلهای زبان بزرگ اشاره دارد و تأیید میکند که سیستم از یک مدل هوش مصنوعی برای انجام دستورات خود بهره میگیرد.

محتوای دادهها
رسانه TechCrunch از این مجموعه عظیم ۱۳۳,۰۰۰ نمونه که مدل زبان بزرگ باید آنها را برای سانسور ارزیابی کند، ده نمونه نمایشی از محتوا جمعآوری کرده است.
موضوعات به احتمال زیاد برانگیزاننده ناآرامیهای اجتماعی هستند. به عنوان مثال، یکی از نمونهها پستی از یک صاحب کسبوکار است که از پلیسهای فاسد محلی شکایت میکند.