خزنده Anthropic به قوانین ضداسکرپینگ احترام نمی‌گذارد

شرکت Anthropic با استفاده از ربات خزنده‌ی ClaudeBot، بدون توجه به قوانین منع جمع‌آوری داده برای آموزش هوش مصنوعی، از وب‌سایت‌های مختلف داده‌برداری کرده است.

به‌گزارش تک‌ناک، Anthropic از ربات خزنده‌ی وب ClaudeBot به‌منظور جمع‌آوری داده‌های آموزشی برای مدل‌های هوش مصنوعی مانند Claude استفاده می‌کند. اخیراً این ربات تقریباً یک‌میلیون بار در یک دوره‌ی ۲۴ ساعته به وب‌سایت iFixit حمله کرده است که ظاهراً در این فرایند، شرایط استفاده‌ی از داده‌های آن را نقض کرده است.

کایل وینز، مدیرعامل iFixit، تصاویری در شبکه‌ی اجتماعی X ارسال کرده است که نشان می‌دهد چت‌بات Anthropic اذعان می‌کند که محتوای iFixit خارج از محدوده‌ی مجاز است. وینز خطلاب به Anthropic گفت:

اگر هر‌یک از آن درخواست‌ها به شرایط خدمات ما دسترسی پیدا می‌کرد، به شما می‌گفت که استفاده از محتوای ما کاملاً ممنوع است؛ اما از من نپرسید، از Claude بپرسید!
شما نه‌تنها بدون پرداخت هزینه، محتوای ما را برداشت می‌کنید؛ بلکه منابع توسعه و عملیات ما را نیز اشغال می‌کنید. چنانچه به بحث درباره‌ی اعطای مجوز استفاده‌ی تجاری از محتوای ما تمایل دارید، آماده‌ی همکاری هستیم.

شرایط استفاده‌ی iFixit تصریح می‌کند که تکثیر و کپی‌برداری یا توزیع هرگونه محتوا از وب‌سایت بدون مجوز کتبی قبلی از شرکت کاملاً ممنوع است. این شامل «آموزش مدل یادگیری ماشین یا هوش مصنوعی» نیز می‌شود.

بااین‌حال، هنگامی‌که 404 Media از شرکت Anthropic درباره‌ی این موضوع سؤال کرد، این شرکت به صفحه‌ای از سؤالات متداول ارجاع داد که بیان می‌کند خزنده‌ی آن تنها از‌طریق فایل robots.txt قابلیت مسدودسازی دارد.

وینز می‌گوید که iFixit از آن زمان تاکنون افزونه‌ی crawl-delay را به robots.txt خود اضافه کرده است. به‌نظر نمی‌رسد iFixit در این زمینه تنها نباشد. اریک هولشر، یکی از بنیان‌گذاران Read the Docs و مت باری، مدیرعامل Freelancer.com، اعلام کردند که خزنده‌ی وب Anthropic وب‌سایتشان را به‌طور تهاجمی اسکن کرده است.

این رفتار جدیدی برای ClaudeBot محسوب نمی‌شود؛ زیرا در چندین رشته قدیمی در ردیت به افزایش چشمگیر فعالیت اسکن وب Anthropic اشاره شده است. در ماه آوریل سال جاری، انجمن وب Linux Mint قطعی وب‌سایت خود را به فشار ناشی از فعالیت‌های اسکن ClaudeBot نسبت داد.

به‌نقل از ورج، محدودسازی خزنده‌ها ازطریق فایل‌های robots.txt روش انتخابی بسیاری از شرکت‌های هوش مصنوعی دیگر مانند OpenAI است؛ اما به صاحبان وب‌سایت برای تعیین نوع مجاز و غیرمجاز بودن اسکرپینگ انعطاف‌پذیری ارائه نمی‌دهد.

شرکت هوش مصنوعی دیگری به نام Perplexity در نادیده‌گرفتن کامل محدودیت‌های robots.txt شناخته شده است. بااین‌حال، این یکی از معدود گزینه‌های موجود برای شرکت‌ها به‌منظور حفظ داده‌های خود خارج از مواد آموزشی هوش مصنوعی است که ردیت در اقدام اخیر خود علیه خزنده‌های وب از آن استفاده کرده است.