افشای خزنده‌های پنهان Perplexity در گزارش جدید Cloudflare

شرکت Cloudflare اعلام کرده که پلتفرم Perplexity با استفاده از خزنده‌های پنهان، دستورهای عدم‌دسترسی وب‌سایت‌ها را نادیده گرفته و به همین دلیل از فهرست ربات‌های تأییدشده این شرکت حذف شده است.

به گزارش تک‌ناک، این شرکت در پی شکایات متعدد مشتریان خود، تحقیقاتی را درباره رفتار خزنده‌های Perplexity آغاز کرد، که نشان می‌داد این پلتفرم هوش مصنوعی، به‌ صورت پنهانی و برخلاف دستورهای صریح وب‌سایت‌ها، به محتوای آنها دسترسی داشته است.

بر اساس یافته‌های Cloudflare، هوش مصنوعی Perplexity با تغییر عامل کاربر (user agent) و استفاده از شبکه‌های مستقل (ASN) متغیر، فعالیت‌های خود را از دید صاحبان وب‌سایت‌ها پنهان می‌کند. همچنین خزنده‌های این پلتفرم فایل‌های robots.txt را فراخوانی نمی‌کنند؛ فایلی که دستورهای مجاز یا غیرمجاز برای خزیدن در وب‌سایت‌ها را مشخص می‌کند.

در نتیجه این رفتارهای نادرست، شرکت Cloudflare تصمیم گرفته است که Perplexity را از فهرست ربات‌های تأییدشده خود حذف کند؛ تصمیمی که بر نحوه تعامل این پلتفرم با وب‌سایت‌ها ــ به‌ویژه آنهایی که از خدمات حفاظتی Cloudflare استفاده می‌کنند ــ تأثیر مستقیمی خواهد داشت.

خزنده‌های پنهان Perplexity در گزارش جدید Cloudflare افشا شدند

به‌طور پیش‌فرض، خزنده Perplexity با عامل کاربر رسمی خود تحت عنوان PerplexityBot به فعالیت می‌پردازد. اما زمانی که از سوی یک وب‌سایت مسدود می‌شود، از عامل کاربر عمومی مانند مرورگر کروم (نسخه 124.0.0.0 Safari/537.36) استفاده می‌کند تا شناسایی نشود. این خزنده پنهان، از مجموعه‌ IPهایی استفاده می‌کند که در دامنه رسمی Perplexity ثبت نشده‌اند و به‌ طور مداوم بین شبکه‌های مستقل مختلف جابه‌جا می‌شود. شرکت Cloudflare بیان کرد که این رفتار، محدود به چند مورد خاص نیست بلکه در ده‌ها هزار دامنه وب و میلیون‌ها درخواست روزانه مشاهده شده است.

در مقایسه، شرکت‌هایی مانند OpenAI که در وب به جست‌وجو می‌پردازند، رفتارهای شفاف‌تری دارند و به صراحت خزنده‌های خود را معرفی می‌کنند و به دستورهای فایل robots.txt احترام می‌گذارند. آزمایش‌های Cloudflare نشان داده‌اند که خزنده‌های ChatGPT در صورت مشاهده دستور *disallow* یا صفحه سیاه، به سرعت خزیدن را متوقف می‌کنند.

شرکت Cloudflare برای مقابله با خزنده‌های پنهان Perplexity، قوانین جدیدی مبتنی بر تحلیل‌های رفتاری (heuristic rules) به سیستم مقابله با ربات‌های خود اضافه کرده است. این اقدامات برای تمامی مشتریان Cloudflare، حتی کاربران رایگان، فعال شده است و از وب‌سایت‌ها در برابر خزنده‌های پنهان محافظت می‌کند. در این روش، به جای مسدودسازی خزنده‌های خاص، رفتارهای مشکوک شناسایی و مسدود می‌شوند تا در برابر تغییر روش‌های خزیدن، همچنان بتوان از محتوا محافظت کرد.

همچنین Cloudflare اعلام کرده است که با کارشناسان فنی و سیاست‌گذاری در سراسر جهان، از جمله گروه IETF همکاری می‌کند، که در حال تدوین استانداردهای جدید برای فایل robots.txt هستند. هدف این تلاش‌ها، تدوین اصول قابل‌اندازه‌گیری و شفاف برای فعالیت ربات‌هایی است که قصد تعامل مسئولانه با وب را دارند.