• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » اخبار هوش مصنوعی » حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

بابک مختارنیا نوشته شده توسط بابک مختارنیا
دوشنبه 30 مرداد 1402 - 12:10
در اخبار هوش مصنوعی
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

مجموعه عظیمی از کتاب‌های بدون حق تکثیر که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شد، پس از پیگیری حقوقی یک گروه دانمارکی مدافع حق نشر از اینترنت حذف شد.

به گزارش تکناک، مجموعه داده Books3 که شامل نزدیک به 200هزار کتاب در قالب متن بود، توسط وب سایتی به نام The Eye میزبانی می شد که داده های دیگری را برای تحقیقات هوش مصنوعی نیز ارائه می دهد. مجموعه داده بخشی از یک پروژه بزرگتر به نام The Pile بود که هدف آن ارائه داده های منبع باز برای مدل های زبان بود.

The Eye با درخواست حذف از طرف گروه Rights Alliance که نماینده ناشران و نویسندگان در دانمارک است، پس از اینکه متوجه شد مجموعه داده Books3 شامل حدود 150 عنوان از اعضای آن است، موافقت کرد.

Rights Alliance همچنین با Hugging Face و EleutherAI، دو سازمانی که پیوندهایی به دانلود Books3 در وب سایت خود داشتند، تماس گرفت. هر دوی آنها گروه مدافع حق نشر را به The Eye هدایت کردند.

مجموعه داده Books3 چیست؟

مجموعه داده Books3 در ابتدا توسط Shawn Presser، توسعه‌دهنده هوش مصنوعی و مدافع هوش مصنوعی منبع باز، در سال 2020 آپلود شد. او گفت که می‌خواهد توسعه هوش مصنوعی را در دسترس‌تر و رقابتی‌تر کند، به‌ویژه در برابر شرکت‌هایی مانند OpenAI، که مدل‌های زبان قبلی خود را بر روی مجموعه داده‌های مخفی و اختصاصی به نام‌های Books1 و Books2 آموزش می‌دادند. پرسر در گزارشی به Gizmodo گفت که حذف Books3 یک تراژدی برای هوش مصنوعی منبع باز بود، زیرا به پروژه‌های مردمی فرصتی داد تا مدل‌های زبانی خود را مانند ChatGPT ایجاد کنند که می‌تواند متون واقعی و منسجم تولید کند.

با این حال، نه تنها پروژه های منبع باز و هوش مصنوعی مردمی از Books3 برای آموزش خود استفاده می کنند. طبق گزارش آتلانتیک، برخی از بزرگترین شرکت‌های فناوری و پروژه‌های هوش مصنوعی مانند Meta، BloombergGPT، و GPT-J (با GPT-3 اشتباه نشود) نیز برای آموزش خود به مجموعه داده‌های کتاب‌های غیرقانونی تکیه کرده‌اند. این مدل ها می توانند متون واقع گرایانه و منسجمی را در موضوعات و حوزه های مختلف مانند مقالات خبری، خلاصه، نقد و حتی داستان تولید کنند.

کاربران برجسته

یکی از برجسته‌ترین کاربران Books3 متا است که توسط چندین نویسنده که ادعا می‌کنند این شرکت برای آموزش هوش مصنوعی LlaMA کتاب‌های آنها را دزدیده است مورد شکایت قرار گرفته است. در این دادخواست اشاره شده است که متا از مخزن Books3 برای آموزش هوش مصنوعی خود استفاده کرده است، اما اضافه شده است که متا اشاره ای نکرده است که چه آثاری در این گیگابایت داده وجود دارد.

محققان متا، در گزارش رسمی خود که مدل اصلی زبان LlaMA را معرفی کردند، Books3 را «مجموعه داده‌ای که برای آموزش مدل‌های زبان بزرگ در دسترس عموم است» نامیدند. آنها اشاره کردند که این مجموعه داده بخشی از The Pile است.

OpenAI از مجموعه کتاب های Books2 برای آموزش هوش مصنوعی خود یعنی GPT-3 استفاده کرد. Books1 و Books2 تقریباً 15 درصد از چیزهایی هستند که GPT-3 از آنها آموخته‌اند، اما ما چیز زیادی در مورد آنچه در آنها وجود دارد نمی‌دانیم. برخی از مردم فکر می کنند Books2 از Libgen آمده است، یک کتابخانه آنلاین رایگان که برخی افراد آن را Library Genesis می نامند. ما حتی در مورد 45 ترابایت کتابی که GPT-4 از آنها آموخته است چیز زیادی نمیدانیم.

مقاله آتلانتیک همچنین برخی از نام‌های نویسندگانی را که از کتاب‌هایشان برای آموزش مدل‌های هوش مصنوعی مولد استفاده می‌شود، مانند استفن کینگ، زادی اسمیت، مایکل پولان و بسیاری دیگر فاش می‌کند. برخی از این نویسندگان ممکن است آگاه نباشند که آثارشان برای اهداف هوش مصنوعی استفاده می شود، در حالی که برخی دیگر ممکن است به دلایل اخلاقی یا هنری به آن اعتراض کنند. این مقاله همچنین به برخی از خطاها و موارد تکراری موجود در Books3 و حتی برخی از کتاب‌های مورد بحث عمومی مانند Mein Kampf اثر آدولف هیتلر اشاره می‌کند.

پرسر به آتلانتیک گفت که هیچ یک از کتاب‌های Books3 را تایید یا حمایت نمی‌کند، اما معتقد است که این کتاب‌ها برای ایجاد مدل‌های زبانی متنوع و بی‌طرفانه ضروری هستند. او گفت که امیدوار است کسی در آینده نسخه بهتری از Books3 با کنترل کیفیت بیشتر و احترام به حقوق نویسندگان بسازد.

حالا چه اتفاقی می افتد؟

سرنوشت Books3 پس از حذف آن توسط The Eye در پی یک اخطار قانونی از اتحادیه حقوق، نامشخص است. با این حال، این احتمال وجود دارد که نسخه‌هایی از مجموعه داده‌ها هنوز به صورت آنلاین یا آفلاین وجود داشته باشد و از آن‌ها برای آموزش هوش مصنوعی توسط پروژه‌ها و سازمان‌های مختلف استفاده شود.

 

استفاده از Books3 برای آموزش هوش مصنوعی چندین مسئله حقوقی و اخلاقی را مطرح می کند. از یک طرف، حقوق مالکیت معنوی نویسندگان و ناشرانی را که آثارشان بدون رضایت یا غرامت در مجموعه داده گنجانده شده است، نقض می کند. از سوی دیگر، پروژه های AI منبع باز و مردمی را قادر می سازد تا با شرکت های بزرگ فناوری که به مجموعه داده های اختصاصی و مخفی دسترسی دارند، رقابت کنند. علاوه بر این، سوالاتی را در مورد کیفیت و تنوع داده‌هایی که برای ایجاد سیستم‌های هوش مصنوعی استفاده می‌شوند که می‌توانند بر ارتباطات و یادگیری انسان تأثیر بگذارند، مطرح می‌کند.

تحقیقات هوش مصنوعی را چگونه انجام دهیم؟

فکر کردن به این موضوع که مدل های هوش مصنوعی به چه حجمی از داده برای آموزش نیاز دارند و چه مقدار از این داده‌ها از کتاب‌هایی می‌آیند که استفاده از آنها رایگان یا قانونی نیست غیر عاقلانه به نظر می رسد. اگر به یاد داشته باشید زمانی که مدل زبان OpenAI در BookCorpus آموزش داده شد، مجموعه ای از هزاران جلد کتاب از وب سایت هایی مانند Smashwords جمع آوری شد. حجم آن مجموعه فقط چند گیگابایت بود، اما کتاب هایی داشت که توسط حق چاپ محافظت می شد یا باید هزینه پرداخت می شد.

اکنون، شرکت‌های بزرگ فناوری نمی‌خواهند داده‌های خود را با کسی به اشتراک بگذارند، زیرا می‌دانند که این امر به آنها برتری نسبت به رقبایشان می‌دهد یا آنها را در معرض مشکلات قانونی قرار می‌دهد. اما، آنها همچنین باید پول زیادی برای آموزش مدل های بزرگ خود بپردازند، به خصوص آنهایی که بزرگتر از همیشه هستند.

 

 

 

بابک مختارنیا

بابک مختارنیا

مطالب مرتبط

به‌روزرسانی کوپایلت مایکروسافت
اخبار هوش مصنوعی

شخصیت میکو با حالت «صحبت واقعی» و چت‌ گروهی به کوپایلت اضافه شد

نوشته شده توسط اسما کلهر
1 آبان 1404
ChatGPT Atlas browser
اخبار هوش مصنوعی

مرورگر ChatGPT Atlas حس گوگل را با مراحل اضافی القا می‌کند

نوشته شده توسط امیرحسین یونس
1 آبان 1404
به‌روزرسانی‌ مرورگر ChatGPT Atlas
اخبار هوش مصنوعی

OpenAI اولین به‌روزرسانی‌ مرورگر ChatGPT Atlas را منتشر کرد

نوشته شده توسط امیرحسین یونس
1 آبان 1404
مایکروسافت با بازی کاربران، هوش مصنوعی خود را آموزش می‌ دهد
اخبار هوش مصنوعی

مایکروسافت با بازی کاربران، هوش مصنوعی خود را آموزش می‌ دهد

نوشته شده توسط سید محمد برازنده
1 آبان 1404
گوگل ابزار هوش مصنوعی Nano Banana را به رابط Gemini می‌ آورد
اخبار هوش مصنوعی

گوگل ابزار هوش مصنوعی Nano Banana را به رابط Gemini می‌ آورد + تصویر

نوشته شده توسط سید محمد برازنده
1 آبان 1404
خبر بعدی

راهنمای انتخاب یک گوشی با دوربین مناسب

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

برتری ناچیز گلکسی S25 اج بر آیفون ایر در تست باتری

برتری ناچیز گلکسی S25 اج بر آیفون ایر در تست باتری

6 مهر 1404
سامسونگ SmartThings

با SmartThings سامسونگ ماشین را روشن و در را قفل کنید

4 مهر 1404 - به‌روزشده در 5 مهر 1404

داغ‌ترین‌های روز

Xiaomi 17 Pro most durable smartphone display

شیائومی بادوام‌ترین نمایشگر گوشی جهان را ساخت

30 مهر 1404
شیائومی به‌روزرسانی امنیتی جدیدی را برای بیش از ۲۰ گوشی ردمی و پوکو منتشر کرد

به‌روزرسانی امنیتی جدید شیائومی برای بیش از ۲۰ گوشی ردمی و پوکو منتشر شد

29 مهر 1404
Windows 11 quietly gets a built-in Google Lens-like feature powered by Bing

ویندوز ۱۱ به قابلیتی مشابه گوگل لنز مجهز می‌شود

30 مهر 1404
مقایسه گلکسی S25 FE با S24 FE

مقایسه گلکسی S25 FE با S24 FE؛ ارتقا واقعی یا تکرار هوشمندانه؟

27 مهر 1404 - به‌روزشده در 1 آبان 1404
به‌روزرسانی اکتبر ۲۰۲۵ سامسونگ برای Galaxy S25 FE و Galaxy A56 منتشر شد

به‌روزرسانی اکتبر ۲۰۲۵ سامسونگ برای Galaxy S25 FE و Galaxy A56 منتشر شد

29 مهر 1404 - به‌روزشده در 30 مهر 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

استوری‌ اینستاگرام به ابزار ویرایش هوش مصنوعی مجهز می‌شود

استوری‌ اینستاگرام به ابزار ویرایش هوش مصنوعی مجهز می‌شود

1 آبان 1404
کنترلر Raiju V3 Pro ریزر

شرکت ریزر از کنترلر Raiju V3 Pro برای پلی‌استیشن ۵ رونمایی کرد

1 آبان 1404
Nike Project Amplify

کفش هوشمند Project Amplify نایکی با موتور رباتیک معرفی شد

1 آبان 1404
Trump pardons convicted Binance founder Changpeng Z

دونالد ترامپ بنیان‌گذار بایننس را عفو کرد

1 آبان 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir