فهرست مطالب
با افزایش خطرات دیپفیک برای امنیت دیجیتال، فناوری RAIS به عنوان ابزاری پیشرفته برای شناسایی و مقابله با جعل صوتی معرفی شده است.
به گزارش سرویس فناوری تکناک، دیگر نمیتوانیم به چیزی که میشنویم اعتماد کنیم. این واقعیت تلخ یکی از چهرههای نوظهور کابوس دنیای مدرن ما است؛ جهانی آکنده از کلاهبرداریهای هوشمندانه، فریبهای دیجیتال و پروپاگاندایی که پایههای دموکراسی را میلرزاند. زمانی نهچندان دور، تنها چند صداپیشه نخبه قادر بودند آوای فردی را چنان ماهرانه تقلید کنند که حتی نزدیکان آنها هم فریب بخورند. در آن روزگار، احتمال اینکه نیمهشب ریچ لیتل، جی فارو یا بیل هیدر با صدایی شبیه «برادرت» به تو زنگ بزنند و هزاران دلار پول وثیقه طلب کنند، عملا وجود نداشت.
اما امروز با گسترش شبیهسازهای صوتی مبتنی بر هوش مصنوعی در سراسر اینترنت، هر کاربر آنلاین میتواند ظرف چند دقیقه جعلصدا انجام دهد. با وجود این، روزنهای از امید برای محافظت از داراییهای مردم و صیانت از سلامت انتخابات در برابر تبهکاران سایبری و خرابکاران سیاسی پدیدار شده است. فناوری تازهای با نام RAIS یا Rehearsal with Auxiliary-Informed Sampling معرفی شده است که توانایی تمایز میان صداهای حقیقی و جعلی را دارد و «حتی با تکامل روشهای جعل، عملکرد دقیق خود را در طول زمان حفظ میکند».
فالیه فبرینانتو و همکاران او در مقالهای با عنوان “Rehearsal with Auxiliary-Informed Sampling for Audio Deepfake Detection” حقیقتی نگرانکننده را برملا میکنند؛ نسل جدید دیپفیکهای صوتی، پدافندهای موجود را یکی پس از دیگری ناکارآمد کرده است. همین اتفاق ضرورت RAIS را برجسته میکند. این سازوکار نوآورانه با تکیه بر یادگیری پیوسته مبتنی بر تمرین، «مدلها را با مجموعهای محدود از دادههای پیشین بهروزرسانی میکند» و «همزمان امکان حفظ دانش گذشته و جذب اطلاعات جدید» را فراهم میآورد.
این تحقیق که در رویداد معتبر Interspeech (بزرگترین گردهمایی جهانی در علم و فناوری پردازش گفتار) ارائه شده است، شرح میدهد که چگونه فبرینانتو و تیمی از پژوهشگران در سازمان علمی ملی استرالیا (CSIRO)، دانشگاه فدریشن و موسسه فناوری رویال ملبورن، سلاحی تازه در نبرد علیه فریب صوتی دیجیتال ساختهاند؛ نبردی علیه فناوریهایی که با عبور از «سامانههای احراز هویت مبتنی بر صدا، جعل هویت و تولید اطلاعات گمراهکننده» روزبهروز تهدیدآمیزتر میشوند.
01
از 03برچسبگذاری هوشمند صدا برای مقابله با دیپفیک صوتی
کریستن مور از نویسندگان اصلی پژوهش با اشاره به ماهیت پویای تهدیدهای صوتی بیان کرد: «هدف این است که سامانههای تشخیص، دیپفیکهای تازه را بیاموزند بدون آنکه نیاز باشد مدل هر بار از صفر بازآموزی شود، چرا که اگر مدل را فقط با نمونههای جدید تنظیم کنیم، خطر آن وجود دارد که جعلهای قدیمیتر را که از پیش فراگرفته بود، بهکلی از یاد ببرد.» مشکل اینجا است که روشهای فعلی تمرینی، ظرافت و انعطاف لازم را برای درک دامنه حیرتانگیز تنوع صداهای انسانی (حتی تنوع نهفته در صدای یک فرد) ندارند. همین محدودیت سبب میشود که سوگیری در مدل شکل بگیرد و هنگام آموزش تازه، بخشی از دادههای حیاتی پاک شود؛ موضوعی که مور نیز بر آن تاکید میکند.
از همین رو RAIS «با بهرهگیری از شبکه تولید برچسب، مجموعهای از برچسبهای کمکی میسازد تا انتخاب نمونههای متنوع برای حافظه سیستم را هدایت کند.» این رویکرد باعث سطحی بالاتر از تشخیص شده و «میانگین نرخ خطای (EER) برابر با ۱.۹۵۳ درصد در پنج تجربه» را ثبت کرده است؛ شاخصی که هرچه کمتر باشد، اعتماد به سامانه بیومتریک بالاتر میرود. کد RAIS با وجود تکیه بر یک بافر حافظه کوچک، عملکردی چشمگیر دارد و در گیتهاب نیز منتشر شده است.
مور توضیح داد که RAIS به صورت خودکار «مجموعهای اندک اما گسترده و متنوع از نمونههای گذشته را (حتی شامل ویژگیهای پنهانی در صدا که گوش انسان از درکشان ناتوان است) انتخاب و ذخیره میکند.» RAIS بهجای دوگانه ساده «واقعی/جعلی»، از طیفی غنیتر از برچسبها بهره میگیرد و با حفظ و بازشنوی این نمونهها، به مدل امکان میدهد «سبکهای جدید دیپفیک را بدون حذف نسخههای قبلی بیاموزد» و «ترکیب پربارتری از دادههای تمرینی فراهم کند تا قدرت یادآوری و سازگاری آن در طول زمان افزایش یابد.»
بیشتر بخوانید: رشد ۶۷ درصدی بدافزارها در اندروید؛ اپلیکیشنهای جعلی گوگل پلی حسابها را خالی میکنند

حتما بخوانید: اسکن عنبیه چشم؛ راهکار شرکتها برای مقابله با هویتهای جعلی و رباتهای هوش مصنوعی
02
از 03تهدید دیپفیک، واقعیتر از همیشه و گستردهتر از مرزها
دیگر کمتر کسی میتواند با اطمینان بگوید صحنهای که در شبکههای اجتماعی میبیند، واقعی است. ویدیوهای ساختهشده با هوش مصنوعی چنان طبیعی شدهاند که حتی شکاکترین کاربران را هم از پا درمیآورند. خود من همین امروز ویدویی از کودکی منتشر کردم که تولهسگی را آرام میکرد، اما لحظاتی بعد با نسخهای دیگر از همان صحنه (اینبار با کودکی متفاوت و همان جملات دقیقا در همان صدا) روبهرو شدم و مجبور شدم پست را حذف کنم. همین تحول در دنیای تصویر، حالا در عرصه صدا نیز رخ داده است. دیپفیک های صوتی تازه دیگر آن ریتمهای عجیب، مکثهای نابهجا و تکیههای اشتباه قدیمی را ندارند.
این میزان از طبیعی بودن، تهدیدی بسیار فراتر از روشهای سنتی جعل و تحریف متنی است؛ روشهایی که در آن دشمنان با یک نقلقول ساختگی یا جملهای جعلی تلاش میکردند افکار عمومی را منحرف کنند. به گزارش AICompetence، «مطالعات نشان دادهاند که صداهای تولید شده با هوش مصنوعی واکنش احساسی بسیار قویتری نسبت به اطلاعات نادرست مبتنی بر متن ایجاد میکنند. زمانی که صدایی آشنا واقعی بهگوش برسد، تفکر انتقادی برای لحظهای از کار میافتد.» همین ویژگی است که فایل صوتی جعلشده نسبتدادهشده به بایدن (که رایدهندگان نیوهمپشایر را به راین دادن در انتخابات ریاستجمهوری ۲۰۲۴ ترغیب میکرد) را به تهدیدی منحصربهفرد تبدیل کرد. اگر صدایی شبیه یک چهره مورداعتماد به شما بگوید رای ندهید، واقعا چند نفر مکث میکنند تا صحت آن را بسنجند؟
نمونههای پرسر و صدای دیگری هم وجود دارد. مارک رید، مدیرعامل WPP، بزرگترین شرکت تبلیغاتی جهان، یکی از قربانیان این موج بوده است. کلاهبرداران با استفاده از عکس واقعی او یک حساب مایکروسافت ساختند و در جلسهای آنلاین، با صدای دیپفیک رید گفتوگو کردند تا معاملهای ساختگی ترتیب دهند و به پول و اطلاعات حساس دست یابند؛ تلاشی که خوشبختانه نافرجام ماند. اما در ایتالیا داستان پایان خوشی نداشت: صدای وزیر دفاع این کشور جعل شد و کلاهبرداران از بازرگانان برجسته یک میلیون یورو «حقالسکوت» خواستند و متاسفانه برخی پرداخت کردند.
03
از 03خطری که از سیاست تا حافظه جمعی را نشانه رفته است
همانگونه که سازندگان دیپفیک، جو بایدن و حامیان آن را هدف قرار دادند، ایلان ماسک نیز نسخه دستکاریشده و توهینآمیز یک آگهی سیاسی درباره کامالا هریس، معاون وقت رئیسجمهوری آمریکا را بدون هیچ توضیحی بازنشر کرد. حرکتی که آشکارا قوانین همان پلتفرمی را زیر پا گذاشت که او مالک آن بود. همزمان، کلاهبرداران فناوری در کشورهایی مانند: بنگلادش، مجارستان و اسلواکی نیز به قلب روندهای انتخاباتی ضربه زدهاند. در انتخابات فدرال ۲۰۲۳ اسلواکی، تبهکاران سایبری دیپفیک صوتی منتشر کردند که میخال شیمچکا، رهبر اپوزیسیون را در حال توطئهچینی برای تقلب انتخاباتی نشان میداد؛ کلیپهایی که تنها چند روز پیش از رایگیری، بهسرعت در فضای مجازی پخش شدند.
به تعبیر AICompetence، «تهدید تنها در خود دروغ نیست؛ بلکه در این است که اعتماد عمومی به هرآنچه واقعی است را سست میکند.» هرچه آگاهی مردم نسبت به وجود دیپفیک بیشتر شود، «سیاستمداران میتوانند رسواییهای واقعی را به پای هوش مصنوعی بگذارند. آگاهی بدون سواد رسانهای، بهجای محافظت میتواند بازوی انتشار اطلاعات گمراهکننده باشد.» دانیل سیترون، استاد حقوق و نویسنده مشترک Deep Fakes: The Coming Infocalypse، این بحران را چنین خلاصه میکند: «خطر واقعی دیپفیک این نیست که مردم دروغ را باور کنند، بلکه این است که دیگر حقیقت را باور نکنند.» این حمله مستقیم به حقیقت، نامی خاص دارد: «سود دروغگو».
نیواطلس پیشتر از ابعاد روبهگسترش این بحران گفته بود؛ از جمله پژوهشی از مایکروسافت ریسرچ آسیا که «مدلی ساخته بود که میتواند تنها با یک عکس ثابت و یک فایل صوتی، ویدیوهایی بسیار واقعی تولید کند.» در آزمایشی دیگر، ۴۹ درصد از شرکتکنندگان «بهراحتی خاطرات نادرست ساختند»، چرا که دیپفیک نسخه جعلی فیلمهای مشهور را باور کرده بودند. با وجود این، نیواطلس از جبهه امید نیز گزارش داده، که فناوریهای تازه تشخیص جعل است، از جمله AntiFake، نوآوری سال ۲۰۲۳ دانشگاه واشینگتن در سنتلوئیس؛ یکی از نخستین ابزارهایی که میتواند دیپفیک صوتی را «پیش از تولد» متوقف کند، با این روش که «استخراج ویژگیهای حیاتی از صداهای واقعی را برای سامانههای هوش مصنوعی بسیار دشوار میسازد.»

















