هوش مصنوعی Perplexity به سرقت ادبی متهم شد!

برخی از خبرگزاری‌ها، هوش مصنوعی Perplexity را به سرقت ادبی و استخراج غیرقانونی از محتوای وب متهم می‌کنند.

به گزارش تک‌ناک، در عصر هوش مصنوعی تولیدکننده، زمانی که چت‌بات‌ها می‌توانند بر اساس محتوای جمع‌آوری‌ شده از اینترنت، پاسخ‌های دقیقی به سؤالات ارائه دهند، مرز میان استفادۀ منصفانه و سرقت ادبی و بین استخراج معمولی وب و خلاصه‌سازی غیرمجاز، بسیار باریک است.

شرکت Perplexity AI یک استارت‌آپ است که یک موتور جست‌وجو را با یک مدل زبان بزرگ ترکیب می‌کند و به جای لینک، پاسخ‌هایی با جزئیات ارائه می‌دهد. برخلاف ChatGPT شرکت OpenAI و Claude، شرکت Perplexity مدل‌های هوش مصنوعی بنیادی خود را آموزش نمی‌دهد، بلکه از مدل‌های موجود به صورت رایگان یا تجاری بهره می‌برد تا اطلاعاتی را که از اینترنت جمع‌آوری می‌کند بگیرد و آن را به پاسخ ترجمه کند.

امّا مجموعه‌ای از اتهامات در ماه ژوئن نشان می‌دهد که رویکرد این استارت‌آپ در حال نزدیک شدن به غیراخلاقی بودن است. مجلۀ فوربس، Perplexity را به سرقت ادبی ادعایی از یکی از مقالات خبری خود در ویژگی بتا Perplexity Pages متهم کرد. همچنین مجلۀ Wired، هوش مصنوعی Perplexity را به همراه سایر سایت‌ها، به استراج غیرقانونی وب‌سایت خود متهم کرده است.

هوش مصنوعی Perplexity که تا آوریل برای جمع‌آوری ۲۵۰ میلیون دلار با ارزشی نزدیک به ۳ میلیارد دلار تلاش می‌کرد، همچنان ادعا می‌کند که کار اشتباهی انجام نداده است. این شرکت که از حمایت Nvidia و جف بزوس برخوردار می‌باشد و می‌گوید که به درخواست‌های ناشران برای استخراج محتوا احترام گذاشته است و در چارچوب قوانین حق تکثیر استفادۀ منصفانه عمل می‌کند.

این وضعیت پیچیده است. در هستۀ آن، ظرافت‌های پیرامون دو مفهوم قرار دارد. اولین مورد، پروتکل عدم دسترسی ربات (Robots Exclusion Protocol) است، استانداردی که توسط وب‌سایت‌ها برای نشان دادن عدم تمایل آنها به دسترسی یا استفاده از محتوای آنها توسط خزنده‌های وب مورد استفاده قرار می‌گیرد. مورد دوم، استفادۀ منصفانه در قانون حق تکثیر است که چارچوب قانونی برای مجاز دانستن استفاده از مواد دارای حق تکثیر بدون اجازه یا پرداخت در شرایط خاص را تعیین می‌کند.

01
از 02
استخراج مخفیانۀ محتوای وب توسط هوش مصنوعی Perplexity

گزارش نوزدهم ژوئن Wired ادعا می‌کند که هوش مصنوعی Perplexity پروتکل عدم دسترسی ربات را نادیده گرفته است تا به طور مخفیانه از مناطقی از وب‌سایت‌ها را که ناشران نمی‌خواهند توسط ربات‌ها دسترسی داشته باشند، استخراج کند. مجلۀ Wired گزارش داد که مشاهده کرده ماشینی که به Perplexity متصل است، این کار را در وب‌سایت خبری خود، همچنین در سایر نشریات تحت مدیریت شرکت مادر خود، Condé Nast انجام می‌دهد.

این گزارش اشاره کرد که توسعه‌دهنده، راب نایت، آزمایش مشابهی انجام داد و به همان نتیجه رسید.

هر دو گزارشگر Wired و نایت با درخواست از Perplexity برای خلاصه کردن مجموعه‌ای از URLها و سپس مشاهدۀ سرور، در حالی که یک آدرس IP مرتبط با Perplexity از آن سایت‌ها بازدید می‌کرد، خود را آزمایش کردند. سپس هوش مصنوعی Perplexity متن آن URLها را «خلاصه» کرد. اگرچه در مورد یک وب‌سایت ساختگی با محتوای محدود که Wired برای این منظور ایجاد کرده بود، متن را از صفحه به طور کامل برگرداند.

اینجاست که ظرافت‌های مربوط به دستورالعمل عدم دسترسی ربات وارد بازی می‌شود.

استخراج از وب از نظر فنی زمانی رخ می‌دهد که قطعه‌های خودکار نرم‌افزار به نام خزنده (کراولر)، وب را برای فهرست‌بندی و جمع‌آوری اطلاعات از وب سایت‌ها جست‌وجو می‌کنند. موتورهای جست‌وجویی مانند گوگل این کار را انجام می‌دهند تا صفحات وب بتوانند در نتایج جست‌وجو گنجانده شوند. شرکت‌ها و پژوهشگران دیگر از خزنده‌ها برای جمع‌آوری داده از اینترنت برای تجزیه و تحلیل بازار، تحقیقات علمی و همان‌طور که متوجه شدیم برای آموزش مدل‌های یادگیری ماشین استفاده می‌کنند.

استخراج‌کنندگان وب مطابق با این دستورالعمل، ابتدا به دنبال فایل “robots.txt” در کد منبع سایت می‌گردند تا ببینند چه موضوعی مجاز است و چه موضوعی مجاز نیست. امروزه، موضوعی که مجاز نیست، استخراج وب سایت یک ناشر برای ساخت مجموعه داده‌های آموزشی عظیم برای هوش مصنوعی است. موتورهای جست‌وجو و شرکت‌های هوش مصنوعی، از جمله Perplexity، اعلام کرده‌اند که با این دستورالعمل مطابقت دارند، امّا آنها از نظر قانونی ملزم به انجام این کار نیستند.

دمیتری شوولنکو، مدیر بخش تجاری هوش مصنوعی Perplexity به رسانۀ TechCrunch گفت که خلاصه کردن یک URL با خزیدن وب (وب اسکریپینگ) یکسان نیست. شوولنکو بیان کرد: «خزیدن زمانی است که شما فقط در حال جمع‌آوری اطلاعات و افزودن آن به فهرست خود هستید.»

او خاطرنشان کرد که ممکن است IP شرکت Perplexity به عنوان بازدیدکنندۀ یک وب سایت «به غیر از آن که طبق پروتکل robots.txt ممنوع است» نمایش داده شود، تنها زمانی که کاربر یک URL را در پرس و جوی خود قرار دهد، که «تعریف خزیدن وب را برآورده نمی‌کند.»

شوولنکو تصریح کرد: «ما فقط به یک درخواست مستقیم و خاص کاربر برای رفتن به آن URL پاسخ می‌دهیم.»

به عبارت دیگر، اگر کاربری به صورت دستی یک URL را به هوش مصنوعی ارائه دهد، Perplexity می‌گوید که هوش مصنوعی آن به عنوان یک خزندۀ وب نمی‌شناسد، بلکه ابزاری برای کمک به کاربر در بازیابی و پردازش اطلاعاتی می‌باشد که درخواست کرده است.

امّا برای Wired و بسیاری از ناشران دیگر، این تمایز بی فایده است، چرا که بازدید از یک URL و استخراج اطلاعات از آن برای خلاصه‌سازی متن، به طور قطع اگر هزاران بار در روز انجام شود، کاملاً شبیه به استخراج وب به نظر می‌رسد.

همچنین مجلۀ Wired گزارش داد که Amazon Web Services، یکی از ارائه‌دهندگان خدمات ابری Perplexity، در حال بررسی این استارتاپ به دلیل نادیده گرفتن پروتکل robots.txt برای استخراج صفحات وب است، که کاربران در پرس و جوی خود ذکر کرده‌اند. AWS به رسانۀ TechCrunch گفت که گزارش Wired نادرست می‌باشد و به این نشریه گفته است که تحقیقات مربوط به رسانۀ آنها را مانند هر گزارش دیگری که سوء استفاده از خدمات را ادعا می‌کند، پردازش خواهد کرد.

02
از 02
سرقت ادبی یا استفادۀ منصفانه؟

همچنین مجلۀ Wired و فوربس، هوش مصنوعی Perplexity را به سرقت ادبی متهم کرده‌اند. جالب اینجاست Wired می‌گوید که Perplexity همان مقاله‌ای را سرقت ادبی کرده است که این استارت‌آپ را به دلیل استخراج مخفیانۀ محتوای وب‌سایتش سرزنش کرده بود.

خبرنگاران Wired گفتند که چت‌بات Perplexity «متنی شش پاراگرافی و ۲۸۷ کلمه‌ای تولید کرد، که خلاصه‌ای نزدیک از نتایج داستان و شواهد استفاده‌شده برای رسیدن به آنها ارائه می‌داد.» یک جمله، دقیقاً یک جمله از داستان اصلی را بازتولید می‌کند؛ Wired می‌گوید این کار سرقت ادبی محسوب می‌شود. دستورالعمل‌های مؤسسۀ Poynter تأکید می‌کند که اگر نویسنده (یا هوش مصنوعی) از هفت کلمۀ متوالی از اثر منبع اصلی استفاده کند، ممکن است سرقت ادبی باشد.

فوربس نیز هوش مصنوعی Perplexity را به سرقت ادبی متهم کرد. این وب‌سایت خبری در اوایل ژوئن، گزارش تحقیقی در مورد چگونگی جذب گستردۀ نیروی انسانی و آزمایش پهپادهای دارای هوش مصنوعی با کاربردهای نظامی توسط مدیرعامل شرکت جدید گوگل، اریک اشمیت، منتشر کرد. روز بعد، جان پازکوفسکی، سردبیر فوربس، در X پستی منتشر کرد و گفت که Perplexity این خبر اختصاصی را به عنوان بخشی از ویژگی بتای خود، Perplexity Pages، بازنشر کرده است.

Perplexity Pages که در حال حاضر فقط برای برخی مشترکان Perplexity در دسترس می‌باشد، یک ابزار جدید است که به گفتۀ Perplexity به کاربران کمک می‌کند تا تحقیقات خود را به «محتوای جامع و بصری خیره‌کننده» تبدیل کنند. نمونه‌هایی از چنین محتوایی در سایت از کارمندان استارت‌آپ است و شامل مقالاتی مانند: «راهنمای مبتدیان برای درام‌نوازی» یا «استیو جابز: مدیرعامل visionONary» می‌شود.

پازکوفسکی در این باره نوشت: «این ابزار بیشتر گزارش‌های ما را کپی می‌کند و به آسانی و با روشی که به راحتی قابل چشم‌پوشی است، به ما و چند سایتی که ما را بازنشر کرده‌‌اند، به عنوان منبع استناد می‌دهد.»

فوربس گزارش داد که بسیاری از پست‌هایی که توسط تیم Perplexity مدیریت می‌شوند، «شباهت چشمگیری به داستان‌های اصلی از نشریات مختلف، از جمله فوربس، CNBC و بلومبرگ دارند.» فوربس گفت که این پست‌ها ده‌ها هزار بازدید داشته‌اند و هیچ یک از نشریات را با نام در متن مقاله ذکر نکرده‌اند. در عوض، مقالات Perplexity شامل انتساب‌هایی به شکل «لوگوهای کوچک و به راحتی قابل چشم‌پوشی است که به آنها لینک می‌دهد.»

علاوه بر این، فوربس گفت که پست مربوط به اشمیت، حاوی «کلمات تقریباً یکسان» با خبر اختصاصی فوربس است. این گردآوری همچنین تصویری داشت که توسط تیم طراحی فوربس ایجاد شده بود و به نظر می‌رسید که توسط Perplexity کمی تغییر داده شده است.

اراویند سرینیواس، مدیرعامل Perplexity در آن زمان با پاسخ به فوربس گفت که استارت‌آپ در آینده به طور برجسته‌تری به منابع استناد خواهد کرد، راه‌حلی که بدون نقص نیست، چرا که خود استنادها هم با مشکلات فنی روبه‌رو هستند. ChatGPT و سایر مدل‌ها لینک‌های توهمی ساخته‌اند و از آنجایی که Perplexity از مدل‌های OpenAI استفاده می‌کند، به احتمال زیاد در برابر چنین توهماتی آسیب‌پذیرتر است.

به جزء اشاره به «نواقص» هوش مصنوعی Perplexity، سرینیواس و شرکت تا حد زیادی بر حق Perplexity برای استفاده از چنین محتوایی برای خلاصه‌سازی تأکید کرده‌اند.

اینجاست که ظرافت‌های استفادۀ منصفانه وارد بازی می‌شود. سرقت ادبی، گرچه مورد نکوهش قرار می‌گیرد، از نظر فنی غیرقانونی نیست.

بر اساس ادارۀ ثبت اختراع و علائم تجاری ایالات متحده، استفاده از بخش‌های محدودی از یک اثر، از جمله نقل قول برای اهدافی مانند تفسیر، نقد، گزارش خبری و گزارش‌های علمی، قانونی است.

شرکت‌های هوش مصنوعی مانند Perplexity معتقد هستند که ارائه خلاصه‌ای از یک مقاله، در محدودۀ استفادۀ منصفانه قرار می‌گیرد.

شوولنکو گفت: «هیچ کس انحصاری بر حقایق ندارد.» همچنین افزود: «هنگامی که حقایق آشکار شدند، برای استفادۀ همه هستند.»

شوولنکو خلاصه‌های هوش مصنوعی Perplexity را با شیوۀ استفادۀ روزنامه‌نگاران از اطلاعات سایر منابع خبری برای تقویت گزارش‌های خود مقایسه کرد.

مارک مکننا، استاد حقوق در مؤسسۀ فناوری، حقوق و سیاست UCLA، به رسانۀ TechCrunch گفت که حل این وضعیت آسان نیست. در یک پروندۀ استفادۀ منصفانه، دادگاه‌ها ارزیابی می‌کنند که آیا خلاصه از عبارات زیادی از مقالۀ اصلی استفاده می‌کند یا فقط از ایده‌ها بهره برده است. همچنین آنها امکان دارد بررسی کنند که آیا خواندن خلاصه ممکن است جایگزین خواندن مقاله شود.

مکننا تأکید کرد: «هیچ خط مرزی روشنی وجود ندارد.» بنابراین [Perplexity] با بیان حقایق آنچه یک مقاله می‌گوید یا گزارش می‌دهد، از جنبه‌های غیرقابل حق تکثیر اثر استفاده می‌کند. این فقط حقایق و ایده‌ها خواهد بود. امّا هر چه خلاصه شامل عبارات و متن واقعی بیشتری باشد، بیشتر شبیه بازتولید به نظر می‌رسد تا فقط یک خلاصه باشد.

متأسفانه برای ناشران، مگر اینکه هوش مصنوعی Perplexity از عبارات کامل استفاده کند (و به نظر می‌رسد در برخی موارد چنین است)، خلاصه‌های آن ممکن است نقض استفادۀ منصفانه در نظر گرفته نشود.

شرکت‌های هوش مصنوعی مانند OpenAI با طیف وسیعی از ناشران برای دسترسی به محتوای فعلی و بایگانی آنها برای آموزش الگوریتم‌های خود، قراردادهای رسانه‌ای امضا کرده‌اند. در مقابل، OpenAI متعهد می‌شود که در پاسخ به پرسش‌های کاربر در ChatGPT، مقالات خبری آن ناشران را نشان دهد. (امّا حتی این موضوع هم مشکلاتی دارد که باید حل شود، همانطور که Nieman Lab هفتۀ گذشته گزارش داد.)

Perplexity شاید منتظر است که اتهامات علیه آن برطرف شود و از اعلام مجموعه‌ای از قراردادهای رسانه‌ای خودداری کرده است. امّا این شرکت با سرعت تمام در حال انجام مجموعه‌ای از معاملات تقسیم درآمد تبلیغاتی با ناشران می‌باشد.

ایده این است که هوش مصنوعی Perplexity شروع به درج تبلیغات در کنار پاسخ‌های پرسش و پاسخ کند و ناشرانی که محتوای آنها در هر پاسخی ذکر شده است، بخشی از درآمد تبلیغاتی مربوطه را دریافت کنند. شوولنکو گفت که Perplexity همچنین در حال کار برای دادن دسترسی به فناوری خود به ناشران است تا بتوانند تجربیات پرسش و پاسخ ایجاد نمایند و مواردی مانند سؤالات مرتبط را به طور طبیعی در داخل سایت‌ها و محصولات خود راه‌اندازی کنند.

امّا آیا این فقط پوششی برای سرقت سیستماتیک مالکیت فکری است؟ هوش مصنوعی Perplexity تنها چت‌باتی نیست که محتوا را به طور کامل خلاصه می‌کند و باعث می‌شود خوانندگان نیازی به کلیک کردن به منبع اصلی نداشته باشند و اگر خزنده‌های هوش مصنوعی مانند این همچنان به کار ناشران ادامه دهند و آن را برای مشاغل خود بازنشر دهند، کسب درآمد تبلیغاتی برای ناشران سخت‌تر خواهد شد. هنگامی که دیگر محتوایی برای استخراج باقی نماند، سیستم‌های هوش مصنوعی تولیدکنندۀ محتوا به آموزش با داده‌های مصنوعی روی خواهند آورد، که می‌تواند باعث یک حلقه بازخورد وحشتناک از محتوای بالقوۀ مغرضانه و نادرست شود.