برخی از خبرگزاریها، هوش مصنوعی Perplexity را به سرقت ادبی و استخراج غیرقانونی از محتوای وب متهم میکنند.
به گزارش تکناک، در عصر هوش مصنوعی تولیدکننده، زمانی که چتباتها میتوانند بر اساس محتوای جمعآوری شده از اینترنت، پاسخهای دقیقی به سؤالات ارائه دهند، مرز میان استفادۀ منصفانه و سرقت ادبی و بین استخراج معمولی وب و خلاصهسازی غیرمجاز، بسیار باریک است.
شرکت Perplexity AI یک استارتآپ است که یک موتور جستوجو را با یک مدل زبان بزرگ ترکیب میکند و به جای لینک، پاسخهایی با جزئیات ارائه میدهد. برخلاف ChatGPT شرکت OpenAI و Claude، شرکت Perplexity مدلهای هوش مصنوعی بنیادی خود را آموزش نمیدهد، بلکه از مدلهای موجود به صورت رایگان یا تجاری بهره میبرد تا اطلاعاتی را که از اینترنت جمعآوری میکند بگیرد و آن را به پاسخ ترجمه کند.
امّا مجموعهای از اتهامات در ماه ژوئن نشان میدهد که رویکرد این استارتآپ در حال نزدیک شدن به غیراخلاقی بودن است. مجلۀ فوربس، Perplexity را به سرقت ادبی ادعایی از یکی از مقالات خبری خود در ویژگی بتا Perplexity Pages متهم کرد. همچنین مجلۀ Wired، هوش مصنوعی Perplexity را به همراه سایر سایتها، به استراج غیرقانونی وبسایت خود متهم کرده است.
هوش مصنوعی Perplexity که تا آوریل برای جمعآوری ۲۵۰ میلیون دلار با ارزشی نزدیک به ۳ میلیارد دلار تلاش میکرد، همچنان ادعا میکند که کار اشتباهی انجام نداده است. این شرکت که از حمایت Nvidia و جف بزوس برخوردار میباشد و میگوید که به درخواستهای ناشران برای استخراج محتوا احترام گذاشته است و در چارچوب قوانین حق تکثیر استفادۀ منصفانه عمل میکند.
این وضعیت پیچیده است. در هستۀ آن، ظرافتهای پیرامون دو مفهوم قرار دارد. اولین مورد، پروتکل عدم دسترسی ربات (Robots Exclusion Protocol) است، استانداردی که توسط وبسایتها برای نشان دادن عدم تمایل آنها به دسترسی یا استفاده از محتوای آنها توسط خزندههای وب مورد استفاده قرار میگیرد. مورد دوم، استفادۀ منصفانه در قانون حق تکثیر است که چارچوب قانونی برای مجاز دانستن استفاده از مواد دارای حق تکثیر بدون اجازه یا پرداخت در شرایط خاص را تعیین میکند.
فهرست مطالب
استخراج مخفیانۀ محتوای وب توسط هوش مصنوعی Perplexity
گزارش نوزدهم ژوئن Wired ادعا میکند که هوش مصنوعی Perplexity پروتکل عدم دسترسی ربات را نادیده گرفته است تا به طور مخفیانه از مناطقی از وبسایتها را که ناشران نمیخواهند توسط رباتها دسترسی داشته باشند، استخراج کند. مجلۀ Wired گزارش داد که مشاهده کرده ماشینی که به Perplexity متصل است، این کار را در وبسایت خبری خود، همچنین در سایر نشریات تحت مدیریت شرکت مادر خود، Condé Nast انجام میدهد.
این گزارش اشاره کرد که توسعهدهنده، راب نایت، آزمایش مشابهی انجام داد و به همان نتیجه رسید.
هر دو گزارشگر Wired و نایت با درخواست از Perplexity برای خلاصه کردن مجموعهای از URLها و سپس مشاهدۀ سرور، در حالی که یک آدرس IP مرتبط با Perplexity از آن سایتها بازدید میکرد، خود را آزمایش کردند. سپس هوش مصنوعی Perplexity متن آن URLها را «خلاصه» کرد. اگرچه در مورد یک وبسایت ساختگی با محتوای محدود که Wired برای این منظور ایجاد کرده بود، متن را از صفحه به طور کامل برگرداند.
اینجاست که ظرافتهای مربوط به دستورالعمل عدم دسترسی ربات وارد بازی میشود.
استخراج از وب از نظر فنی زمانی رخ میدهد که قطعههای خودکار نرمافزار به نام خزنده (کراولر)، وب را برای فهرستبندی و جمعآوری اطلاعات از وب سایتها جستوجو میکنند. موتورهای جستوجویی مانند گوگل این کار را انجام میدهند تا صفحات وب بتوانند در نتایج جستوجو گنجانده شوند. شرکتها و پژوهشگران دیگر از خزندهها برای جمعآوری داده از اینترنت برای تجزیه و تحلیل بازار، تحقیقات علمی و همانطور که متوجه شدیم برای آموزش مدلهای یادگیری ماشین استفاده میکنند.
استخراجکنندگان وب مطابق با این دستورالعمل، ابتدا به دنبال فایل “robots.txt” در کد منبع سایت میگردند تا ببینند چه موضوعی مجاز است و چه موضوعی مجاز نیست. امروزه، موضوعی که مجاز نیست، استخراج وب سایت یک ناشر برای ساخت مجموعه دادههای آموزشی عظیم برای هوش مصنوعی است. موتورهای جستوجو و شرکتهای هوش مصنوعی، از جمله Perplexity، اعلام کردهاند که با این دستورالعمل مطابقت دارند، امّا آنها از نظر قانونی ملزم به انجام این کار نیستند.
دمیتری شوولنکو، مدیر بخش تجاری هوش مصنوعی Perplexity به رسانۀ TechCrunch گفت که خلاصه کردن یک URL با خزیدن وب (وب اسکریپینگ) یکسان نیست. شوولنکو بیان کرد: «خزیدن زمانی است که شما فقط در حال جمعآوری اطلاعات و افزودن آن به فهرست خود هستید.»
او خاطرنشان کرد که ممکن است IP شرکت Perplexity به عنوان بازدیدکنندۀ یک وب سایت «به غیر از آن که طبق پروتکل robots.txt ممنوع است» نمایش داده شود، تنها زمانی که کاربر یک URL را در پرس و جوی خود قرار دهد، که «تعریف خزیدن وب را برآورده نمیکند.»
شوولنکو تصریح کرد: «ما فقط به یک درخواست مستقیم و خاص کاربر برای رفتن به آن URL پاسخ میدهیم.»
به عبارت دیگر، اگر کاربری به صورت دستی یک URL را به هوش مصنوعی ارائه دهد، Perplexity میگوید که هوش مصنوعی آن به عنوان یک خزندۀ وب نمیشناسد، بلکه ابزاری برای کمک به کاربر در بازیابی و پردازش اطلاعاتی میباشد که درخواست کرده است.
امّا برای Wired و بسیاری از ناشران دیگر، این تمایز بی فایده است، چرا که بازدید از یک URL و استخراج اطلاعات از آن برای خلاصهسازی متن، به طور قطع اگر هزاران بار در روز انجام شود، کاملاً شبیه به استخراج وب به نظر میرسد.
همچنین مجلۀ Wired گزارش داد که Amazon Web Services، یکی از ارائهدهندگان خدمات ابری Perplexity، در حال بررسی این استارتاپ به دلیل نادیده گرفتن پروتکل robots.txt برای استخراج صفحات وب است، که کاربران در پرس و جوی خود ذکر کردهاند. AWS به رسانۀ TechCrunch گفت که گزارش Wired نادرست میباشد و به این نشریه گفته است که تحقیقات مربوط به رسانۀ آنها را مانند هر گزارش دیگری که سوء استفاده از خدمات را ادعا میکند، پردازش خواهد کرد.
سرقت ادبی یا استفادۀ منصفانه؟
همچنین مجلۀ Wired و فوربس، هوش مصنوعی Perplexity را به سرقت ادبی متهم کردهاند. جالب اینجاست Wired میگوید که Perplexity همان مقالهای را سرقت ادبی کرده است که این استارتآپ را به دلیل استخراج مخفیانۀ محتوای وبسایتش سرزنش کرده بود.
خبرنگاران Wired گفتند که چتبات Perplexity «متنی شش پاراگرافی و ۲۸۷ کلمهای تولید کرد، که خلاصهای نزدیک از نتایج داستان و شواهد استفادهشده برای رسیدن به آنها ارائه میداد.» یک جمله، دقیقاً یک جمله از داستان اصلی را بازتولید میکند؛ Wired میگوید این کار سرقت ادبی محسوب میشود. دستورالعملهای مؤسسۀ Poynter تأکید میکند که اگر نویسنده (یا هوش مصنوعی) از هفت کلمۀ متوالی از اثر منبع اصلی استفاده کند، ممکن است سرقت ادبی باشد.
فوربس نیز هوش مصنوعی Perplexity را به سرقت ادبی متهم کرد. این وبسایت خبری در اوایل ژوئن، گزارش تحقیقی در مورد چگونگی جذب گستردۀ نیروی انسانی و آزمایش پهپادهای دارای هوش مصنوعی با کاربردهای نظامی توسط مدیرعامل شرکت جدید گوگل، اریک اشمیت، منتشر کرد. روز بعد، جان پازکوفسکی، سردبیر فوربس، در X پستی منتشر کرد و گفت که Perplexity این خبر اختصاصی را به عنوان بخشی از ویژگی بتای خود، Perplexity Pages، بازنشر کرده است.
Perplexity Pages که در حال حاضر فقط برای برخی مشترکان Perplexity در دسترس میباشد، یک ابزار جدید است که به گفتۀ Perplexity به کاربران کمک میکند تا تحقیقات خود را به «محتوای جامع و بصری خیرهکننده» تبدیل کنند. نمونههایی از چنین محتوایی در سایت از کارمندان استارتآپ است و شامل مقالاتی مانند: «راهنمای مبتدیان برای درامنوازی» یا «استیو جابز: مدیرعامل visionONary» میشود.
پازکوفسکی در این باره نوشت: «این ابزار بیشتر گزارشهای ما را کپی میکند و به آسانی و با روشی که به راحتی قابل چشمپوشی است، به ما و چند سایتی که ما را بازنشر کردهاند، به عنوان منبع استناد میدهد.»
فوربس گزارش داد که بسیاری از پستهایی که توسط تیم Perplexity مدیریت میشوند، «شباهت چشمگیری به داستانهای اصلی از نشریات مختلف، از جمله فوربس، CNBC و بلومبرگ دارند.» فوربس گفت که این پستها دهها هزار بازدید داشتهاند و هیچ یک از نشریات را با نام در متن مقاله ذکر نکردهاند. در عوض، مقالات Perplexity شامل انتسابهایی به شکل «لوگوهای کوچک و به راحتی قابل چشمپوشی است که به آنها لینک میدهد.»
علاوه بر این، فوربس گفت که پست مربوط به اشمیت، حاوی «کلمات تقریباً یکسان» با خبر اختصاصی فوربس است. این گردآوری همچنین تصویری داشت که توسط تیم طراحی فوربس ایجاد شده بود و به نظر میرسید که توسط Perplexity کمی تغییر داده شده است.
اراویند سرینیواس، مدیرعامل Perplexity در آن زمان با پاسخ به فوربس گفت که استارتآپ در آینده به طور برجستهتری به منابع استناد خواهد کرد، راهحلی که بدون نقص نیست، چرا که خود استنادها هم با مشکلات فنی روبهرو هستند. ChatGPT و سایر مدلها لینکهای توهمی ساختهاند و از آنجایی که Perplexity از مدلهای OpenAI استفاده میکند، به احتمال زیاد در برابر چنین توهماتی آسیبپذیرتر است.
به جزء اشاره به «نواقص» هوش مصنوعی Perplexity، سرینیواس و شرکت تا حد زیادی بر حق Perplexity برای استفاده از چنین محتوایی برای خلاصهسازی تأکید کردهاند.
اینجاست که ظرافتهای استفادۀ منصفانه وارد بازی میشود. سرقت ادبی، گرچه مورد نکوهش قرار میگیرد، از نظر فنی غیرقانونی نیست.
بر اساس ادارۀ ثبت اختراع و علائم تجاری ایالات متحده، استفاده از بخشهای محدودی از یک اثر، از جمله نقل قول برای اهدافی مانند تفسیر، نقد، گزارش خبری و گزارشهای علمی، قانونی است.
شرکتهای هوش مصنوعی مانند Perplexity معتقد هستند که ارائه خلاصهای از یک مقاله، در محدودۀ استفادۀ منصفانه قرار میگیرد.
شوولنکو گفت: «هیچ کس انحصاری بر حقایق ندارد.» همچنین افزود: «هنگامی که حقایق آشکار شدند، برای استفادۀ همه هستند.»
شوولنکو خلاصههای هوش مصنوعی Perplexity را با شیوۀ استفادۀ روزنامهنگاران از اطلاعات سایر منابع خبری برای تقویت گزارشهای خود مقایسه کرد.
مارک مکننا، استاد حقوق در مؤسسۀ فناوری، حقوق و سیاست UCLA، به رسانۀ TechCrunch گفت که حل این وضعیت آسان نیست. در یک پروندۀ استفادۀ منصفانه، دادگاهها ارزیابی میکنند که آیا خلاصه از عبارات زیادی از مقالۀ اصلی استفاده میکند یا فقط از ایدهها بهره برده است. همچنین آنها امکان دارد بررسی کنند که آیا خواندن خلاصه ممکن است جایگزین خواندن مقاله شود.
مکننا تأکید کرد: «هیچ خط مرزی روشنی وجود ندارد.» بنابراین [Perplexity] با بیان حقایق آنچه یک مقاله میگوید یا گزارش میدهد، از جنبههای غیرقابل حق تکثیر اثر استفاده میکند. این فقط حقایق و ایدهها خواهد بود. امّا هر چه خلاصه شامل عبارات و متن واقعی بیشتری باشد، بیشتر شبیه بازتولید به نظر میرسد تا فقط یک خلاصه باشد.
متأسفانه برای ناشران، مگر اینکه هوش مصنوعی Perplexity از عبارات کامل استفاده کند (و به نظر میرسد در برخی موارد چنین است)، خلاصههای آن ممکن است نقض استفادۀ منصفانه در نظر گرفته نشود.
شرکتهای هوش مصنوعی مانند OpenAI با طیف وسیعی از ناشران برای دسترسی به محتوای فعلی و بایگانی آنها برای آموزش الگوریتمهای خود، قراردادهای رسانهای امضا کردهاند. در مقابل، OpenAI متعهد میشود که در پاسخ به پرسشهای کاربر در ChatGPT، مقالات خبری آن ناشران را نشان دهد. (امّا حتی این موضوع هم مشکلاتی دارد که باید حل شود، همانطور که Nieman Lab هفتۀ گذشته گزارش داد.)
Perplexity شاید منتظر است که اتهامات علیه آن برطرف شود و از اعلام مجموعهای از قراردادهای رسانهای خودداری کرده است. امّا این شرکت با سرعت تمام در حال انجام مجموعهای از معاملات تقسیم درآمد تبلیغاتی با ناشران میباشد.
ایده این است که هوش مصنوعی Perplexity شروع به درج تبلیغات در کنار پاسخهای پرسش و پاسخ کند و ناشرانی که محتوای آنها در هر پاسخی ذکر شده است، بخشی از درآمد تبلیغاتی مربوطه را دریافت کنند. شوولنکو گفت که Perplexity همچنین در حال کار برای دادن دسترسی به فناوری خود به ناشران است تا بتوانند تجربیات پرسش و پاسخ ایجاد نمایند و مواردی مانند سؤالات مرتبط را به طور طبیعی در داخل سایتها و محصولات خود راهاندازی کنند.
امّا آیا این فقط پوششی برای سرقت سیستماتیک مالکیت فکری است؟ هوش مصنوعی Perplexity تنها چتباتی نیست که محتوا را به طور کامل خلاصه میکند و باعث میشود خوانندگان نیازی به کلیک کردن به منبع اصلی نداشته باشند و اگر خزندههای هوش مصنوعی مانند این همچنان به کار ناشران ادامه دهند و آن را برای مشاغل خود بازنشر دهند، کسب درآمد تبلیغاتی برای ناشران سختتر خواهد شد. هنگامی که دیگر محتوایی برای استخراج باقی نماند، سیستمهای هوش مصنوعی تولیدکنندۀ محتوا به آموزش با دادههای مصنوعی روی خواهند آورد، که میتواند باعث یک حلقه بازخورد وحشتناک از محتوای بالقوۀ مغرضانه و نادرست شود.