هاروارد و گوگل یک‌میلیون کتاب حوزه عمومی برای آموزش هوش مصنوعی منتشر کردند

دانشگاه هاروارد و گوگل اعلام کرده‌اند که یک‌میلیون کتاب با محتوای عمومی (Public Domain) را به‌عنوان یک مجموعه داده برای آموزش هوش مصنوعی منتشر خواهند کرد.

به گزارش تک‌ناک، دانشگاه هاروارد و گوگل قصد دارند مجموعه‌ای از یک‌میلیون کتاب حوزه عمومی را به‌عنوان پایگاه داده غنی برای آموزش مدل‌های هوش مصنوعی منتشر کنند. این اقدام که بخشی از پروژه «ابتکار داده‌های نهادی» (IDI) هاروارد است، شامل آثاری از نویسندگان مشهوری مانند چارلز دیکنز و دانته آلیگیری و ویلیام شکسپیر می‌شود. این آثار به‌دلیل قدمتشان دیگر مشمول قانون کپی‌رایت نیستند و طیف گسترده‌ای از ژانرها و زبان‌ها را پوشش می‌دهند.

تک‌کرانچ می‌نویسد که هزینه هنگفت داده‌های آموزشی هوش مصنوعی باعث شده است تا دسترسی به چنین منابعی بیشتر در انحصار شرکت‌های بزرگ فناوری باشد. با‌این‌حال، دانشگاه هاروارد قصد دارد با انتشار این مجموعه، دسترسی آزاد به منابع غنی برای آموزش مدل‌های زبانی بزرگ (LLMs) را فراهم کند. هدف از این اقدام، ایجاد فرصت برابر برای محققان و استارتاپ‌ها و دیگر نهادهایی است که در‌زمینه توسعه هوش مصنوعی فعالیت می‌کنند.

این مجموعه شامل داده‌هایی است که از پروژه Google Books، طرح بلندمدت گوگل برای اسکن کتاب‌ها، به دست آمده است. بر‌اساس اعلام مقام‌های هاروارد، گوگل نقش مهمی در انتشار این گنجینه ارزشمند در سراسر جهان ایفا خواهد کرد.

این مجموعه هنوز در دسترس عموم قرار نگرفته و جزئیات دقیقی درباره زمان و نحوه انتشار آن ارائه نشده است. باوجوداین، پروژه IDI که امروز رسماً آغاز به کار کرده، از پشتیبانی مالی شرکت‌های مایکروسافت و OpenAI نیز بهره می‌برد.

گرگ لپرت، مدیر اجرایی IDI، درباره اهداف این پروژه گفت:

این مجموعه‌ داده طراحی شده است تا با فراهم‌کردن دسترسی به داده‌های عظیم، امکان پیشرفت در حوزه آموزش مدل‌های زبانی و توسعه هوش مصنوعی را برای همه فراهم کند.

این ابتکار بخشی از تلاش‌های گسترده‌تر هاروارد برای ایجاد زیرساخت‌های مطمئن درزمینه داده‌های قانونی هوش مصنوعی است و انتظار می‌رود تأثیر بسزایی بر روند توسعه این فناوری در سطح جهانی بگذارد.