ردیت از پرپلکسیتی شکایت کرد؛ استفاده غیرقانونی از محتوای کاربران برای آموزش هوش مصنوعی

شرکت ردیت با طرح شکایتی علیه پلتفرم هوش مصنوعی پرپلکسیتی و سه شرکت همکار در استخراج داده، این شرکت‌ها را به «دسترسی غیرمجاز» و «دور زدن محدودیت‌های فنی» برای جمع‌آوری محتوای دارای حق نشر کاربران ردیت با هدف آموزش مدل‌های هوش مصنوعی متهم کرده و این اقدام را بخشی از پدیده «شست‌وشوی داده در مقیاس صنعتی» دانسته است.

به گزارش تک‌ناک، این اقدام Reddit در راستای جلوگیری از «دور زدن غیرقانونی حفاظت‌های داده و دسترسی غیرمجاز به محتوای دارای حق نشر» صورت گرفته است.

طبق دادخواست تنظیم‌شده، Reddit اعلام کرده است که شرکت‌های SerpApi، Oxylabs و AWMProxy مانند «سارقان بانک» عمل کرده‌اند که چون نمی‌توانند وارد گاوصندوق شوند، به‌جای آن به کامیون حامل پول حمله می‌کنند. Reddit مدعی است که Perplexity مشتری دست‌کم یکی از این شرکت‌های استخراج داده است و برای دسترسی به اطلاعات Reddit، «به هر کاری دست می‌زند جز بستن قرارداد مستقیم با Reddit»، همان‌طور که برخی از رقبای آن انجام داده‌اند.

بر اساس پرونده قضایی، Reddit در ماه مه ۲۰۲۴ نامه‌ای رسمی با عنوان «توقف و خودداری» برای Perplexity ارسال کرده و خواستار پایان دادن به استخراج داده‌های این پلتفرم شده است. با وجود آنکه Perplexity در پاسخ اعلام کرده بود از محتوای Reddit برای آموزش مدل‌های هوش مصنوعی استفاده نمی‌کند و به محدودیت‌های robots.txt احترام می‌گذارد، Reddit می‌گوید پس از این نامه، میزان ارجاع به محتوای Reddit در پلتفرم Perplexity افزایش یافته است.

در ادامه، Reddit برای آزمودن این ادعا پستی ایجاد کرد که فقط توسط Google قابل مشاهده بود، اما چند ساعت بعد Perplexity محتوای آن پست را در خروجی خود نمایش داد. Reddit در شکایت خود نوشته است: «تنها راهی که Perplexity می‌توانست آن محتوا را به‌دست آورد، این بود که او یا هم‌دستانش نتایج جستجوی Google را برای محتوای Reddit استخراج کرده باشند و Perplexity آن داده‌ها را به‌سرعت در موتور پاسخ خود وارد کرده باشد.»

به نقل از ورج، داده‌های Reddit، که شامل میلیون‌ها پست درباره موضوعات متنوع و با رتبه‌بندی انسانی است، منبعی ارزشمند برای آموزش مدل‌های هوش مصنوعی به شمار می‌رود. Reddit از این موضوع آگاه است و تغییرات API در سال ۲۰۲۳، که منجر به اعتراض کاربران شد، با هدف دریافت حق‌الزحمه برای استفاده از این داده‌ها انجام گرفت. این شرکت تاکنون قراردادهایی با OpenAI و Google امضا کرده و reportedly به‌دنبال قراردادهای بهتری است. Reddit همچنین پیش‌تر از شرکت Anthropic به‌دلیل دسترسی غیرمجاز ربات‌هایش به داده‌های پلتفرم شکایت کرده بود.

بن لی (Ben Lee)، مدیر ارشد حقوقی Reddit، در بیانیه‌ای گفته است:
«شرکت‌های هوش مصنوعی در رقابتی فشرده برای دسترسی به محتوای انسانی باکیفیت قرار دارند و این رقابت موجب شکل‌گیری اقتصادی در مقیاس صنعتی برای “شست‌وشوی داده” شده است. استخراج‌کنندگان داده با عبور از موانع فناورانه، داده‌ها را سرقت می‌کنند و سپس آن را به مشتریانی می‌فروشند که برای محتوای آموزشی حریص‌اند. Reddit هدف اصلی این جریان است، زیرا یکی از بزرگ‌ترین و پویاترین مجموعه‌های گفت‌وگوی انسانی در جهان محسوب می‌شود.»

لی در ادامه افزود:
«متهمان Oxylabs UAB، AWM Proxy و SerpAI — که به ترتیب یک شرکت لیتوانیایی، یک بات‌نت سابق روسی و شرکتی با تبلیغات آشکار برای دور زدن محدودیت‌ها هستند — نمونه‌های آشکاری از این فعالیت‌های غیرقانونی‌اند. چون قادر به استخراج مستقیم از Reddit نیستند، هویت و موقعیت خود را پنهان کرده و با استتار ابزارهای خود، محتوای Reddit را از طریق Google Search می‌دزدند. Perplexity نیز مشتری داوطلبانه یکی از این شرکت‌هاست و ترجیح داده داده‌های دزدیده‌شده را بخرد تا اینکه به‌طور قانونی با Reddit همکاری کند.»

در واکنش به این شکایت، Jesse Dwyer، رئیس بخش ارتباطات Perplexity، در گفت‌وگو با The Verge اظهار داشت:
«Perplexity هنوز دادخواست رسمی را دریافت نکرده است، اما ما همواره برای حق کاربران در دسترسی آزاد و عادلانه به دانش عمومی مبارزه خواهیم کرد. رویکرد ما اصولی و مسئولانه باقی می‌ماند؛ ما پاسخ‌های دقیق و واقعی را با کمک هوش مصنوعی ارائه می‌دهیم و تهدید علیه شفافیت و منافع عمومی را تحمل نخواهیم کرد.»

به این ترتیب، تقابل میان Reddit و Perplexity نمونه‌ای از چالش‌های روزافزون میان پلتفرم‌های محتوایی و شرکت‌های هوش مصنوعی بر سر مالکیت و استفاده از داده‌های انسانی است — نبردی که احتمالاً در آینده ابعاد گسترده‌تری پیدا خواهد کرد.