یک پروژه جدید برای فراگیرتر شدن هوش مصنوعی

گروهی متشکل از بیش از یک هزار پژوهشگر هوش مصنوعی یک مدل زبان بزرگ چندزبانه بزرگتر از GPT-3 ایجاد کرده اند - و آن را به صورت رایگان ارائه می کنند.

گروهی متشکل از بیش از یک هزار پژوهشگر هوش مصنوعی یک مدل زبان بزرگ چندزبانه بزرگتر از GPT-3 ایجاد کرده اند – و آن را به صورت رایگان ارائه می کنند.

به گزارش تک ناک، در داخل مرکز ابررایانه‌ای مرکز ملی تحقیقات علمی فرانسه، در حومه پاریس، ردیف‌ها و ردیف‌هایی ازآنچه شبیه  یخچال‌های سیاه رنگ است  با صدای کر کننده  100 دسی‌بل با هم زمزمه می‌کنند.

اینها  بخشی از یک ابر رایانه را تشکیل می دهند که 117 روز را صرف تولید یک مدل زبان بزرگ جدید (LLM) به نام BLOOM کرده است .سازندگان آن امیدوارند روشی  را که اساسا متفاوت از روشی که معمولاً هوش مصنوعی توسعه می یابد را ارائه کنند.

بر خلاف سایر مدل‌های زبان بزرگ معروف‌تر مانند GPT-3 Open AI و LaMDA Google، BLOOM (که مخفف BigScience Large Open-Science Open-Access Multilingual Language Model است) محققان این زبان را به گونه‌ای طراحی کرده اند که تا حد امکان در مورد داده هایی که بر روی آن آموزش دیده بود، چالش های توسعه آن، و روشی که آنها عملکرد آن را ارزیابی کردند شفاف باشند.

Open AI و گوگل کدهای خود را به اشتراک نگذاشته اند  ویا مدل های خود را در دسترس عموم قرار نداده اند و پژوهشگران  خارج از مجموعه های تولید کننده این زبانها  درک بسیار کمی از نحوه آموزش این مدل زبانها دارند.

digikala

BLOOM در سال گذشته توسط بیش از یک هزار پژوهشگر داوطلب در پروژه ای به نام BigScience ایجاد شد . این پروژه که توسط استارتاپ Hugging Face با استفاده از بودجه دولت فرانسه هماهنگ شده بود، به طور رسمی در تیرماه گذشته راه اندازی شد.

محققان امیدوارند توسعه یک LLM با دسترسی آزاد که عملکردی مانند سایر مدل های پیشرو داشته باشد، منجر به تغییرات با تاثیر پایدار در فرهنگ توسعه هوش مصنوعی شود و به فراگیرتر شدن دسترسی به فناوری پیشرفته هوش مصنوعی برای محققان در سراسر جهان کمک کند.

سهولت دسترسی این مدل بزرگترین نقطه قوت آن است. اکنون که زنده است، هرکسی می‌تواند آن را دانلود کند و در وب‌سایت Hugging Face به صورت رایگان آن را پیکر بندی کند.

کاربران می‌توانند از میان مجموعه‌ای از زبان‌ها انتخاب کنند و سپس درخواست‌هایی را برای BLOOM تایپ کنند تا کارهایی مانند نوشتن دستور العمل یا شعر، ترجمه یا خلاصه کردن متون یا نوشتن کد برنامه‌نویسی را انجام دهد. توسعه دهندگان هوش مصنوعی می توانند از این مدل به عنوان پایه ای برای ساخت برنامه های کاربردی خود استفاده کنند.

BigScience ادعا می کند که سطوحی از دقت و سمیت مشابه با سایر مدل های هم اندازه ارائه می دهد. برای زبان هایی مانند اسپانیایی و عربی، BLOOM اولین مدل زبان بزرگ در این اندازه است.

اما حتی سازندگان مدل هشدار می‌دهند که این مدل مشکلات عمیقاً ریشه‌دار در مورد مدل‌های زبانی بزرگ، از جمله فقدان سیاست‌های کافی در مورد حاکمیت داده‌ها و حریم خصوصی و تمایل الگوریتم‌ها به انتشار محتوای سمی، مانند زبان نژادپرستانه یا جنسیت‌گرا را برطرف نخواهد کرد.مدل زبان GPT-3

بیرون در فضای باز

مدل‌های زبان بزرگ، الگوریتم‌های یادگیری عمیق هستند که بر روی حجم عظیمی از داده‌ها آموزش داده می‌شوند. آنها یکی از داغ ترین حوزه های پژوهش در باره  هوش مصنوعی هستند. مدل‌های قدرتمندی مانند GPT-3 و LaMDA که متی را تولید می‌کنند که گویی انسان آن را نوشته است، پتانسیل بسیار زیادی برای تغییر روش پردازش اطلاعات آنلاین دارند. از آنها می توان به عنوان چت ربات یا برای جستجوی اطلاعات، تعدیل محتوای آنلاین، خلاصه کردن کتاب ها، یا تولید متن های کاملاً جدید بر اساس درخواست ها استفاده کرد. اما آنها نیز با مشکلاتی روبرو هستند. ، فقط کمی تحریک کافی است تا این مدل ها شروع به تولید محتوای مضر کنند.

این مدل ها بسیار منحصر به فرد هستند. آنها باید در مورد حجم عظیمی از داده با استفاده از قدرت محاسباتی پر هزینه آموزش ببینند، چیزی که تنها شرکت های فناوری بزرگ (و عمدتا آمریکایی) مانند گوگل می توانند از عهده آن برآیند.

اکثر شرکت های بزرگ فناوری که در حال توسعه LLM های پیشرفته هستند، استفاده از آن ها را توسط افراد خارج از مجموعه خود محدود می کنند و اطلاعاتی در مورد عملکرد داخلی مدل های خود منتشر نکرده اند . این امر باعث می شود که مسئولیت پذیری آنها دشوار باشد. محرمانه بودن و انحصاری  بودن مواردی است  که محققانی که روی BLOOM کار می کنند امید به تغییر آن دارند.

متا قبلاً از وضعیت موجود فاصله گرفته است: در ماه مه 2022 این شرکت مدل بزرگ زبان خود را با نام Open Pretrained Transformer (OPT-175B) همراه با کد و دفترچه گزارشی که جزئیات نحوه آموزش مدل را نشان می‌دهد منتشر کرد.مدل زبان GPT-3

اما مدل متا فقط در صورت درخواست در دسترس است و مجوزی دارد که استفاده از آن را به اهداف تحقیقاتی محدود می کند. اما شرکت Hugging Face یک قدم فراتر می رود. جلساتی که جزئیات کامل  مدل شرکت Hugging Face را  در سال گذشته شرح می دهد، به صورت آنلاین بارگذاری می شود و هر کسی می تواند این مدل را به صورت رایگان دانلود کرده و از آن برای تحقیق یا ساخت برنامه های تجاری استفاده کند.

تمرکز بزرگ برای BigScience این بود که ملاحظات اخلاقی را در مدل از همان ابتدا در نظر بگیرد، . LLM ها بر اساس هزاران داده جمع آوری شده با خراش دادن اینترنت آموزش می بینند. این می تواند مشکل ساز باشد، زیرا این مجموعه داده ها شامل اطلاعات شخصی زیادی هستند و اغلب سوگیری های خطرناک را منعکس می کنند.

این گروه ساختارهای حاکمیت داده را به طور خاص برای LLM ایجاد کرد که باید مشخص کند داده هایی که استفاده می شود به چه کسانی تعلق دارد، و مجموعه داده های مختلفی را از سراسر جهان تهیه کرد که به راحتی به صورت آنلاین در دسترس نبودند.

digikala

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار جدید تک‌ناک را از دست ندهید.