شرکت Anthropic با استفاده از ربات خزندهی ClaudeBot، بدون توجه به قوانین منع جمعآوری داده برای آموزش هوش مصنوعی، از وبسایتهای مختلف دادهبرداری کرده است.
بهگزارش تکناک، Anthropic از ربات خزندهی وب ClaudeBot بهمنظور جمعآوری دادههای آموزشی برای مدلهای هوش مصنوعی مانند Claude استفاده میکند. اخیراً این ربات تقریباً یکمیلیون بار در یک دورهی ۲۴ ساعته به وبسایت iFixit حمله کرده است که ظاهراً در این فرایند، شرایط استفادهی از دادههای آن را نقض کرده است.
کایل وینز، مدیرعامل iFixit، تصاویری در شبکهی اجتماعی X ارسال کرده است که نشان میدهد چتبات Anthropic اذعان میکند که محتوای iFixit خارج از محدودهی مجاز است. وینز خطلاب به Anthropic گفت:
اگر هریک از آن درخواستها به شرایط خدمات ما دسترسی پیدا میکرد، به شما میگفت که استفاده از محتوای ما کاملاً ممنوع است؛ اما از من نپرسید، از Claude بپرسید!
شما نهتنها بدون پرداخت هزینه، محتوای ما را برداشت میکنید؛ بلکه منابع توسعه و عملیات ما را نیز اشغال میکنید. چنانچه به بحث دربارهی اعطای مجوز استفادهی تجاری از محتوای ما تمایل دارید، آمادهی همکاری هستیم.
شرایط استفادهی iFixit تصریح میکند که تکثیر و کپیبرداری یا توزیع هرگونه محتوا از وبسایت بدون مجوز کتبی قبلی از شرکت کاملاً ممنوع است. این شامل «آموزش مدل یادگیری ماشین یا هوش مصنوعی» نیز میشود.
بااینحال، هنگامیکه 404 Media از شرکت Anthropic دربارهی این موضوع سؤال کرد، این شرکت به صفحهای از سؤالات متداول ارجاع داد که بیان میکند خزندهی آن تنها ازطریق فایل robots.txt قابلیت مسدودسازی دارد.
وینز میگوید که iFixit از آن زمان تاکنون افزونهی crawl-delay را به robots.txt خود اضافه کرده است. بهنظر نمیرسد iFixit در این زمینه تنها نباشد. اریک هولشر، یکی از بنیانگذاران Read the Docs و مت باری، مدیرعامل Freelancer.com، اعلام کردند که خزندهی وب Anthropic وبسایتشان را بهطور تهاجمی اسکن کرده است.
این رفتار جدیدی برای ClaudeBot محسوب نمیشود؛ زیرا در چندین رشته قدیمی در ردیت به افزایش چشمگیر فعالیت اسکن وب Anthropic اشاره شده است. در ماه آوریل سال جاری، انجمن وب Linux Mint قطعی وبسایت خود را به فشار ناشی از فعالیتهای اسکن ClaudeBot نسبت داد.
بهنقل از ورج، محدودسازی خزندهها ازطریق فایلهای robots.txt روش انتخابی بسیاری از شرکتهای هوش مصنوعی دیگر مانند OpenAI است؛ اما به صاحبان وبسایت برای تعیین نوع مجاز و غیرمجاز بودن اسکرپینگ انعطافپذیری ارائه نمیدهد.
شرکت هوش مصنوعی دیگری به نام Perplexity در نادیدهگرفتن کامل محدودیتهای robots.txt شناخته شده است. بااینحال، این یکی از معدود گزینههای موجود برای شرکتها بهمنظور حفظ دادههای خود خارج از مواد آموزشی هوش مصنوعی است که ردیت در اقدام اخیر خود علیه خزندههای وب از آن استفاده کرده است.