• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » اخبار هوش مصنوعی » حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

بابک مختارنیا نوشته شده توسط بابک مختارنیا
دوشنبه 30 مرداد 1402 - 12:10
در اخبار هوش مصنوعی
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

مجموعه عظیمی از کتاب‌های بدون حق تکثیر که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شد، پس از پیگیری حقوقی یک گروه دانمارکی مدافع حق نشر از اینترنت حذف شد.

به گزارش تکناک، مجموعه داده Books3 که شامل نزدیک به 200هزار کتاب در قالب متن بود، توسط وب سایتی به نام The Eye میزبانی می شد که داده های دیگری را برای تحقیقات هوش مصنوعی نیز ارائه می دهد. مجموعه داده بخشی از یک پروژه بزرگتر به نام The Pile بود که هدف آن ارائه داده های منبع باز برای مدل های زبان بود.

The Eye با درخواست حذف از طرف گروه Rights Alliance که نماینده ناشران و نویسندگان در دانمارک است، پس از اینکه متوجه شد مجموعه داده Books3 شامل حدود 150 عنوان از اعضای آن است، موافقت کرد.

Rights Alliance همچنین با Hugging Face و EleutherAI، دو سازمانی که پیوندهایی به دانلود Books3 در وب سایت خود داشتند، تماس گرفت. هر دوی آنها گروه مدافع حق نشر را به The Eye هدایت کردند.

مجموعه داده Books3 چیست؟

مجموعه داده Books3 در ابتدا توسط Shawn Presser، توسعه‌دهنده هوش مصنوعی و مدافع هوش مصنوعی منبع باز، در سال 2020 آپلود شد. او گفت که می‌خواهد توسعه هوش مصنوعی را در دسترس‌تر و رقابتی‌تر کند، به‌ویژه در برابر شرکت‌هایی مانند OpenAI، که مدل‌های زبان قبلی خود را بر روی مجموعه داده‌های مخفی و اختصاصی به نام‌های Books1 و Books2 آموزش می‌دادند. پرسر در گزارشی به Gizmodo گفت که حذف Books3 یک تراژدی برای هوش مصنوعی منبع باز بود، زیرا به پروژه‌های مردمی فرصتی داد تا مدل‌های زبانی خود را مانند ChatGPT ایجاد کنند که می‌تواند متون واقعی و منسجم تولید کند.

با این حال، نه تنها پروژه های منبع باز و هوش مصنوعی مردمی از Books3 برای آموزش خود استفاده می کنند. طبق گزارش آتلانتیک، برخی از بزرگترین شرکت‌های فناوری و پروژه‌های هوش مصنوعی مانند Meta، BloombergGPT، و GPT-J (با GPT-3 اشتباه نشود) نیز برای آموزش خود به مجموعه داده‌های کتاب‌های غیرقانونی تکیه کرده‌اند. این مدل ها می توانند متون واقع گرایانه و منسجمی را در موضوعات و حوزه های مختلف مانند مقالات خبری، خلاصه، نقد و حتی داستان تولید کنند.

کاربران برجسته

یکی از برجسته‌ترین کاربران Books3 متا است که توسط چندین نویسنده که ادعا می‌کنند این شرکت برای آموزش هوش مصنوعی LlaMA کتاب‌های آنها را دزدیده است مورد شکایت قرار گرفته است. در این دادخواست اشاره شده است که متا از مخزن Books3 برای آموزش هوش مصنوعی خود استفاده کرده است، اما اضافه شده است که متا اشاره ای نکرده است که چه آثاری در این گیگابایت داده وجود دارد.

محققان متا، در گزارش رسمی خود که مدل اصلی زبان LlaMA را معرفی کردند، Books3 را «مجموعه داده‌ای که برای آموزش مدل‌های زبان بزرگ در دسترس عموم است» نامیدند. آنها اشاره کردند که این مجموعه داده بخشی از The Pile است.

OpenAI از مجموعه کتاب های Books2 برای آموزش هوش مصنوعی خود یعنی GPT-3 استفاده کرد. Books1 و Books2 تقریباً 15 درصد از چیزهایی هستند که GPT-3 از آنها آموخته‌اند، اما ما چیز زیادی در مورد آنچه در آنها وجود دارد نمی‌دانیم. برخی از مردم فکر می کنند Books2 از Libgen آمده است، یک کتابخانه آنلاین رایگان که برخی افراد آن را Library Genesis می نامند. ما حتی در مورد 45 ترابایت کتابی که GPT-4 از آنها آموخته است چیز زیادی نمیدانیم.

مقاله آتلانتیک همچنین برخی از نام‌های نویسندگانی را که از کتاب‌هایشان برای آموزش مدل‌های هوش مصنوعی مولد استفاده می‌شود، مانند استفن کینگ، زادی اسمیت، مایکل پولان و بسیاری دیگر فاش می‌کند. برخی از این نویسندگان ممکن است آگاه نباشند که آثارشان برای اهداف هوش مصنوعی استفاده می شود، در حالی که برخی دیگر ممکن است به دلایل اخلاقی یا هنری به آن اعتراض کنند. این مقاله همچنین به برخی از خطاها و موارد تکراری موجود در Books3 و حتی برخی از کتاب‌های مورد بحث عمومی مانند Mein Kampf اثر آدولف هیتلر اشاره می‌کند.

پرسر به آتلانتیک گفت که هیچ یک از کتاب‌های Books3 را تایید یا حمایت نمی‌کند، اما معتقد است که این کتاب‌ها برای ایجاد مدل‌های زبانی متنوع و بی‌طرفانه ضروری هستند. او گفت که امیدوار است کسی در آینده نسخه بهتری از Books3 با کنترل کیفیت بیشتر و احترام به حقوق نویسندگان بسازد.

حالا چه اتفاقی می افتد؟

سرنوشت Books3 پس از حذف آن توسط The Eye در پی یک اخطار قانونی از اتحادیه حقوق، نامشخص است. با این حال، این احتمال وجود دارد که نسخه‌هایی از مجموعه داده‌ها هنوز به صورت آنلاین یا آفلاین وجود داشته باشد و از آن‌ها برای آموزش هوش مصنوعی توسط پروژه‌ها و سازمان‌های مختلف استفاده شود.

 

استفاده از Books3 برای آموزش هوش مصنوعی چندین مسئله حقوقی و اخلاقی را مطرح می کند. از یک طرف، حقوق مالکیت معنوی نویسندگان و ناشرانی را که آثارشان بدون رضایت یا غرامت در مجموعه داده گنجانده شده است، نقض می کند. از سوی دیگر، پروژه های AI منبع باز و مردمی را قادر می سازد تا با شرکت های بزرگ فناوری که به مجموعه داده های اختصاصی و مخفی دسترسی دارند، رقابت کنند. علاوه بر این، سوالاتی را در مورد کیفیت و تنوع داده‌هایی که برای ایجاد سیستم‌های هوش مصنوعی استفاده می‌شوند که می‌توانند بر ارتباطات و یادگیری انسان تأثیر بگذارند، مطرح می‌کند.

تحقیقات هوش مصنوعی را چگونه انجام دهیم؟

فکر کردن به این موضوع که مدل های هوش مصنوعی به چه حجمی از داده برای آموزش نیاز دارند و چه مقدار از این داده‌ها از کتاب‌هایی می‌آیند که استفاده از آنها رایگان یا قانونی نیست غیر عاقلانه به نظر می رسد. اگر به یاد داشته باشید زمانی که مدل زبان OpenAI در BookCorpus آموزش داده شد، مجموعه ای از هزاران جلد کتاب از وب سایت هایی مانند Smashwords جمع آوری شد. حجم آن مجموعه فقط چند گیگابایت بود، اما کتاب هایی داشت که توسط حق چاپ محافظت می شد یا باید هزینه پرداخت می شد.

اکنون، شرکت‌های بزرگ فناوری نمی‌خواهند داده‌های خود را با کسی به اشتراک بگذارند، زیرا می‌دانند که این امر به آنها برتری نسبت به رقبایشان می‌دهد یا آنها را در معرض مشکلات قانونی قرار می‌دهد. اما، آنها همچنین باید پول زیادی برای آموزش مدل های بزرگ خود بپردازند، به خصوص آنهایی که بزرگتر از همیشه هستند.

 

 

 

بابک مختارنیا

بابک مختارنیا

مطالب مرتبط

google_skills_online_learning_platform
اخبار هوش مصنوعی

گوگل ۳ هزار دوره آموزش آنلاین با تمرکز بر هوش مصنوعی برگزار می‌کند

نوشته شده توسط اسما کلهر
29 مهر 1404
هشدار مایکروسافت اج؛ هنگام استفاده از ChatGPT یا پرپلکسیتی از کوپایلت استفاده کنید
اخبار هوش مصنوعی

هشدار مایکروسافت اج؛ هنگام استفاده از ChatGPT یا پرپلکسیتی از کوپایلت استفاده کنید

نوشته شده توسط تارخ ترهنده
29 مهر 1404
مرورگر ChatGPT Atlas
اخبار هوش مصنوعی

OpenAI مرورگر ChatGPT Atlas را برای رقابت با سافاری و کروم منتشر کرد

نوشته شده توسط اسما کلهر
29 مهر 1404
مرورگر OpenAI
اخبار هوش مصنوعی

مرورگر هوش مصنوعی OpenAI معرفی می‌شود

نوشته شده توسط تارخ ترهنده
29 مهر 1404
مدل OCR دیپ‌سیک
اخبار هوش مصنوعی

مدل جدید دیپ‌سیک متن را به تصویر تبدیل و استفاده از توکن را ۲۰ برابر کمتر می‌کند

نوشته شده توسط امیرحسین یونس
29 مهر 1404
خبر بعدی

راهنمای انتخاب یک گوشی با دوربین مناسب

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

برترین ماشین‌های چینی در بازار جهانی

برترین ماشین‌های چینی در بازار جهانی

13 مهر 1404 - به‌روزشده در 14 مهر 1404
Xiaomi 17

شیائومی ۱۷ با اسنپدراگون ۸ الیت نسل ۵ و باتری ۷,۰۰۰ میلی‌آمپرساعتی از راه رسید

3 مهر 1404 - به‌روزشده در 5 مهر 1404

داغ‌ترین‌های روز

ساعت ماشین‌حسابی کاسیو

نوستالژی در اوج؛ ساعت ماشین‌حسابی کاسیو با تم فیلم «بازگشت به آینده»

24 مهر 1404 - به‌روزشده در 26 مهر 1404
مقایسه گلکسی S25 FE با S24 FE

مقایسه گلکسی S25 FE با S24 FE؛ ارتقا واقعی یا تکرار هوشمندانه؟

27 مهر 1404 - به‌روزشده در 28 مهر 1404
شیائومی به‌روزرسانی امنیتی جدیدی را برای بیش از ۲۰ گوشی ردمی و پوکو منتشر کرد

به‌روزرسانی امنیتی جدید شیائومی برای بیش از ۲۰ گوشی ردمی و پوکو منتشر شد

29 مهر 1404

بهترین هندزفری‌های تک‌گوش برای مکالمه در سال ۲۰۲۵

27 مهر 1404 - به‌روزشده در 28 مهر 1404
 لیست قیمت رسمی و نهایی محصولات ایران خودرو اعلام شد

 لیست قیمت رسمی و نهایی محصولات ایران خودرو اعلام شد

29 مهر 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

google_skills_online_learning_platform

گوگل ۳ هزار دوره آموزش آنلاین با تمرکز بر هوش مصنوعی برگزار می‌کند

29 مهر 1404
I-built-the-worlds-smallest-FPV-drone

ساخت کوچک‌ترین پهپاد FPV جهان توسط یوتیوبر معروف

29 مهر 1404
Casio-G-Shock-Nano-DWN-5600-series-featured

کاسیو از ساعت مینیاتوری جی-شاک نانو رونمایی کرد

29 مهر 1404
هشدار مایکروسافت اج؛ هنگام استفاده از ChatGPT یا پرپلکسیتی از کوپایلت استفاده کنید

هشدار مایکروسافت اج؛ هنگام استفاده از ChatGPT یا پرپلکسیتی از کوپایلت استفاده کنید

29 مهر 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir