دانشگاه هاروارد و گوگل اعلام کردهاند که یکمیلیون کتاب با محتوای عمومی (Public Domain) را بهعنوان یک مجموعه داده برای آموزش هوش مصنوعی منتشر خواهند کرد.
به گزارش تکناک، دانشگاه هاروارد و گوگل قصد دارند مجموعهای از یکمیلیون کتاب حوزه عمومی را بهعنوان پایگاه داده غنی برای آموزش مدلهای هوش مصنوعی منتشر کنند. این اقدام که بخشی از پروژه «ابتکار دادههای نهادی» (IDI) هاروارد است، شامل آثاری از نویسندگان مشهوری مانند چارلز دیکنز و دانته آلیگیری و ویلیام شکسپیر میشود. این آثار بهدلیل قدمتشان دیگر مشمول قانون کپیرایت نیستند و طیف گستردهای از ژانرها و زبانها را پوشش میدهند.
تککرانچ مینویسد که هزینه هنگفت دادههای آموزشی هوش مصنوعی باعث شده است تا دسترسی به چنین منابعی بیشتر در انحصار شرکتهای بزرگ فناوری باشد. بااینحال، دانشگاه هاروارد قصد دارد با انتشار این مجموعه، دسترسی آزاد به منابع غنی برای آموزش مدلهای زبانی بزرگ (LLMs) را فراهم کند. هدف از این اقدام، ایجاد فرصت برابر برای محققان و استارتاپها و دیگر نهادهایی است که درزمینه توسعه هوش مصنوعی فعالیت میکنند.
این مجموعه شامل دادههایی است که از پروژه Google Books، طرح بلندمدت گوگل برای اسکن کتابها، به دست آمده است. براساس اعلام مقامهای هاروارد، گوگل نقش مهمی در انتشار این گنجینه ارزشمند در سراسر جهان ایفا خواهد کرد.
این مجموعه هنوز در دسترس عموم قرار نگرفته و جزئیات دقیقی درباره زمان و نحوه انتشار آن ارائه نشده است. باوجوداین، پروژه IDI که امروز رسماً آغاز به کار کرده، از پشتیبانی مالی شرکتهای مایکروسافت و OpenAI نیز بهره میبرد.
گرگ لپرت، مدیر اجرایی IDI، درباره اهداف این پروژه گفت:
این مجموعه داده طراحی شده است تا با فراهمکردن دسترسی به دادههای عظیم، امکان پیشرفت در حوزه آموزش مدلهای زبانی و توسعه هوش مصنوعی را برای همه فراهم کند.
این ابتکار بخشی از تلاشهای گستردهتر هاروارد برای ایجاد زیرساختهای مطمئن درزمینه دادههای قانونی هوش مصنوعی است و انتظار میرود تأثیر بسزایی بر روند توسعه این فناوری در سطح جهانی بگذارد.