مسدودکردن ایمیلهای اسپم نبردی همیشگی است که همواره در حال تکامل است. حالا بهلطف شناسایی بهتر متن، امکان تشخیص اسپم جیمیل 38درصد افزایش مییابد.
بهگزارش تکناک، اکثراً اسپمرها از هوموگلیفها (کاراکترهای شبیه به حروف واقعی)، کاراکترهای نامرئی، پرکردن کلمات کلیدی و سایر تغییرات متنی مخالف استفاده میکنند تا از مدلهای طبقهبندی متن جیمیل عبور کنند. این مدلها حملههای فیشینگ و کلاهبرداریها و سایر محتواهای مضر را شناسایی میکند.
بنابر اعلام 9to5google، گوگل با استفاده از RETVec (مخفف Resilient & Efficient Text Vectorizer) با اسپم جیمیل مقابله میکند. گوگل این روش را بهصورت متنباز منتشر کرده است و به مدلها کمک میکند تا عملکرد طبقهبندی بهتری داشته باشند و همزمان هزینهی محاسباتی را کاهش دهند.
همچنین، این روش از همهی زبانها و تمام کاراکترهای UTF-8 بدون نیاز به پیشپردازش متن پشتیبانی میکند. این امر باعث میشود که روش یادشده برای استفاده در گجتها، وب و… مناسب باشد.
مدلهایی که با استفاده از RETVec آموزش دیدهاند، بهدلیل استفاده از پیادهسازی بومی در TensorFlow Text، بهراحتی میتوانند به فرمت TFLite برای دستگاههای تلفنهمراه تبدیل شوند. برای استقرار مدل در برنامههای وب، پیادهسازی لایهی TensorflowJS در گیتهاب ارائه شده است. شما میتوانید صفحه وب نمونهای را بررسی کنید که با استفاده از مدل مبتنیبر RETVec اجرا میشود.
در جیمیل، RETVec باعث بهبود بیش از ۳۸درصدی نرخ تشخیص اسپم جیمیل شده است؛ درحالیکه نرخ خطای مثبت را 19.4درصد و استفاده از واحد پردازش تنسور (Tensor Processing Unit) را 83درصد کاهش داده است.
RETVec با داشتن مدل تعبیهی کلمهی بسیار سبک (با تقریباً 200هزار پارامتر) از بهبودهای زیادی بهرهمند میشود. این امر امکان میدهد تا اندازهی مدل ترانسفورمر با حفظ یا بهبود عملکرد برابر کاهش یابد و توانایی تقسیم محاسبات بین میزبان و واحد پردازش تنسور (TPU) با روشی شبکهای و حافظهای کارآمد دردسترس باشد. گوگل میگوید که سال گذشته RETVec را بهطور گسترده آزمایش کرده و دریافته است که برای برنامههای امنیتی و ضدسوءاستفاده بسیار مؤثر است.