ظاهراً اپل برای آموزش Apple Intelligence از دههاهزار ویدئو یوتیوب دارای زیرنویس استفاده کرده است که این کار نقض سیاستهای محتوایی این پلتفرم است.
بهگزارش تکناک، پیشازاین اخبار متعددی وجود داشت که OpenAI از محتوای یوتیوب برای آموزش مدل تبدیل متن به ویدئو خود، یعنی «سورا» (Sora)، استفاده کرده است. حالا گزارش شده است که شرکتهایی مانند اپل، انویدیا، آنتروپیک و چند شرکت دیگر نیز از دادههای دردسترس عموم که کاربران تولید میکنند، برای آموزش مدلهای هوش مصنوعی خود استفاده میکنند.
بهنقل از گیزموچاینا، این خبر حاصل تحقیقات مؤسسهی Proof News است که با همکاری Wired منتشر شده است. براساس این تحقیقات، اپل و دیگر شرکتها از مجموعهدادهای به نام زیرنویسهای یوتیوب استفاده میکردهاند که شامل رونوشت ۱۷۳,۵۳۶ ویدئو یوتیوب از بیش از ۴۸،۰۰۰ کانال بود.
ویدئوهای موجود در این مجموعهداده از کانالهای آموزشی مانند خان آکادمی و MIT تا وبسایتهای خبری مثل والاستریت ژورنال و حتی برخی از سازندگان برتر این پلتفرم، مانند MrBeast و مارکوس براونلی را شامل میشدند.
بهگفتهی مارکوس براونلی، مسئولان اپل ازلحاظ فنی از پذیرفتن مسئولیت این کار اجتناب ورزیدهاند؛ زیرا آنها Apple Intelligence را از شرکتهایی تهیه کردهاند که از رونوشت ویدئوهای یوتیوب استفاده میکردهاند، نه اینکه خود بهطور مستقیم از آن دادهها استفاده کنند.
بااینحال، این دادهها و رونوشتها همچنان در مدلهای هوش مصنوعی که سازندگان برای آنها زمان و پول صرف کردهاند، تأثیرگذارند. براونلی در پایان گفت که این موضوع برای طولانیمدت مشکلی روبهرشد خواهد بود.
Proof News نیز ابزاری برای سازندگان ایجاد کرده است تا محتوای خود را در این مجموعهداده جستوجو کنند. مجموعهدادهی زیرنویسهای یوتیوب شامل تصاویر ویدئوها نمیشود؛ اما برخی زیرنویسهای ترجمهشده به زبانهای دیگر را دربر میگیرد.
طبق گزارشها، این مجموعهداده را یکی از آزمایشگاههای تحقیقاتی غیرانتفاعی به نام Eleuther AI ایجاد کرده است که بر ترویج هنجارهای علم باز تمرکز دارد.
هیچیک از شرکتهای ذکرشده در این خبر بلافاصله دربارهی این مسئله اظهارنظر نکردهاند. مدیرعامل یوتیوب، نیل موهن، پیشازاین در مصاحبهای اعلام کرده بود که استفادهی شرکتها از ویدئوهای یوتیوب برای آموزش مدلهای هوش مصنوعیشان، «نقض آشکار» سیاستهای این پلتفرم است.