شرکت ردیت با طرح شکایتی علیه پلتفرم هوش مصنوعی پرپلکسیتی و سه شرکت همکار در استخراج داده، این شرکتها را به «دسترسی غیرمجاز» و «دور زدن محدودیتهای فنی» برای جمعآوری محتوای دارای حق نشر کاربران ردیت با هدف آموزش مدلهای هوش مصنوعی متهم کرده و این اقدام را بخشی از پدیده «شستوشوی داده در مقیاس صنعتی» دانسته است.
به گزارش تکناک، این اقدام Reddit در راستای جلوگیری از «دور زدن غیرقانونی حفاظتهای داده و دسترسی غیرمجاز به محتوای دارای حق نشر» صورت گرفته است.
طبق دادخواست تنظیمشده، Reddit اعلام کرده است که شرکتهای SerpApi، Oxylabs و AWMProxy مانند «سارقان بانک» عمل کردهاند که چون نمیتوانند وارد گاوصندوق شوند، بهجای آن به کامیون حامل پول حمله میکنند. Reddit مدعی است که Perplexity مشتری دستکم یکی از این شرکتهای استخراج داده است و برای دسترسی به اطلاعات Reddit، «به هر کاری دست میزند جز بستن قرارداد مستقیم با Reddit»، همانطور که برخی از رقبای آن انجام دادهاند.
بر اساس پرونده قضایی، Reddit در ماه مه ۲۰۲۴ نامهای رسمی با عنوان «توقف و خودداری» برای Perplexity ارسال کرده و خواستار پایان دادن به استخراج دادههای این پلتفرم شده است. با وجود آنکه Perplexity در پاسخ اعلام کرده بود از محتوای Reddit برای آموزش مدلهای هوش مصنوعی استفاده نمیکند و به محدودیتهای robots.txt احترام میگذارد، Reddit میگوید پس از این نامه، میزان ارجاع به محتوای Reddit در پلتفرم Perplexity افزایش یافته است.
در ادامه، Reddit برای آزمودن این ادعا پستی ایجاد کرد که فقط توسط Google قابل مشاهده بود، اما چند ساعت بعد Perplexity محتوای آن پست را در خروجی خود نمایش داد. Reddit در شکایت خود نوشته است: «تنها راهی که Perplexity میتوانست آن محتوا را بهدست آورد، این بود که او یا همدستانش نتایج جستجوی Google را برای محتوای Reddit استخراج کرده باشند و Perplexity آن دادهها را بهسرعت در موتور پاسخ خود وارد کرده باشد.»

به نقل از ورج، دادههای Reddit، که شامل میلیونها پست درباره موضوعات متنوع و با رتبهبندی انسانی است، منبعی ارزشمند برای آموزش مدلهای هوش مصنوعی به شمار میرود. Reddit از این موضوع آگاه است و تغییرات API در سال ۲۰۲۳، که منجر به اعتراض کاربران شد، با هدف دریافت حقالزحمه برای استفاده از این دادهها انجام گرفت. این شرکت تاکنون قراردادهایی با OpenAI و Google امضا کرده و reportedly بهدنبال قراردادهای بهتری است. Reddit همچنین پیشتر از شرکت Anthropic بهدلیل دسترسی غیرمجاز رباتهایش به دادههای پلتفرم شکایت کرده بود.
بن لی (Ben Lee)، مدیر ارشد حقوقی Reddit، در بیانیهای گفته است:
«شرکتهای هوش مصنوعی در رقابتی فشرده برای دسترسی به محتوای انسانی باکیفیت قرار دارند و این رقابت موجب شکلگیری اقتصادی در مقیاس صنعتی برای “شستوشوی داده” شده است. استخراجکنندگان داده با عبور از موانع فناورانه، دادهها را سرقت میکنند و سپس آن را به مشتریانی میفروشند که برای محتوای آموزشی حریصاند. Reddit هدف اصلی این جریان است، زیرا یکی از بزرگترین و پویاترین مجموعههای گفتوگوی انسانی در جهان محسوب میشود.»
لی در ادامه افزود:
«متهمان Oxylabs UAB، AWM Proxy و SerpAI — که به ترتیب یک شرکت لیتوانیایی، یک باتنت سابق روسی و شرکتی با تبلیغات آشکار برای دور زدن محدودیتها هستند — نمونههای آشکاری از این فعالیتهای غیرقانونیاند. چون قادر به استخراج مستقیم از Reddit نیستند، هویت و موقعیت خود را پنهان کرده و با استتار ابزارهای خود، محتوای Reddit را از طریق Google Search میدزدند. Perplexity نیز مشتری داوطلبانه یکی از این شرکتهاست و ترجیح داده دادههای دزدیدهشده را بخرد تا اینکه بهطور قانونی با Reddit همکاری کند.»
در واکنش به این شکایت، Jesse Dwyer، رئیس بخش ارتباطات Perplexity، در گفتوگو با The Verge اظهار داشت:
«Perplexity هنوز دادخواست رسمی را دریافت نکرده است، اما ما همواره برای حق کاربران در دسترسی آزاد و عادلانه به دانش عمومی مبارزه خواهیم کرد. رویکرد ما اصولی و مسئولانه باقی میماند؛ ما پاسخهای دقیق و واقعی را با کمک هوش مصنوعی ارائه میدهیم و تهدید علیه شفافیت و منافع عمومی را تحمل نخواهیم کرد.»
به این ترتیب، تقابل میان Reddit و Perplexity نمونهای از چالشهای روزافزون میان پلتفرمهای محتوایی و شرکتهای هوش مصنوعی بر سر مالکیت و استفاده از دادههای انسانی است — نبردی که احتمالاً در آینده ابعاد گستردهتری پیدا خواهد کرد.