گروهی متشکل از بیش از یک هزار پژوهشگر هوش مصنوعی یک مدل زبان بزرگ چندزبانه بزرگتر از GPT-3 ایجاد کرده اند – و آن را به صورت رایگان ارائه می کنند.
به گزارش تک ناک، در داخل مرکز ابررایانهای مرکز ملی تحقیقات علمی فرانسه، در حومه پاریس، ردیفها و ردیفهایی ازآنچه شبیه یخچالهای سیاه رنگ است با صدای کر کننده 100 دسیبل با هم زمزمه میکنند.
اینها بخشی از یک ابر رایانه را تشکیل می دهند که 117 روز را صرف تولید یک مدل زبان بزرگ جدید (LLM) به نام BLOOM کرده است .سازندگان آن امیدوارند روشی را که اساسا متفاوت از روشی که معمولاً هوش مصنوعی توسعه می یابد را ارائه کنند.
بر خلاف سایر مدلهای زبان بزرگ معروفتر مانند GPT-3 Open AI و LaMDA Google، BLOOM (که مخفف BigScience Large Open-Science Open-Access Multilingual Language Model است) محققان این زبان را به گونهای طراحی کرده اند که تا حد امکان در مورد داده هایی که بر روی آن آموزش دیده بود، چالش های توسعه آن، و روشی که آنها عملکرد آن را ارزیابی کردند شفاف باشند.
Open AI و گوگل کدهای خود را به اشتراک نگذاشته اند ویا مدل های خود را در دسترس عموم قرار نداده اند و پژوهشگران خارج از مجموعه های تولید کننده این زبانها درک بسیار کمی از نحوه آموزش این مدل زبانها دارند.
BLOOM در سال گذشته توسط بیش از یک هزار پژوهشگر داوطلب در پروژه ای به نام BigScience ایجاد شد . این پروژه که توسط استارتاپ Hugging Face با استفاده از بودجه دولت فرانسه هماهنگ شده بود، به طور رسمی در تیرماه گذشته راه اندازی شد.
محققان امیدوارند توسعه یک LLM با دسترسی آزاد که عملکردی مانند سایر مدل های پیشرو داشته باشد، منجر به تغییرات با تاثیر پایدار در فرهنگ توسعه هوش مصنوعی شود و به فراگیرتر شدن دسترسی به فناوری پیشرفته هوش مصنوعی برای محققان در سراسر جهان کمک کند.
سهولت دسترسی این مدل بزرگترین نقطه قوت آن است. اکنون که زنده است، هرکسی میتواند آن را دانلود کند و در وبسایت Hugging Face به صورت رایگان آن را پیکر بندی کند.
کاربران میتوانند از میان مجموعهای از زبانها انتخاب کنند و سپس درخواستهایی را برای BLOOM تایپ کنند تا کارهایی مانند نوشتن دستور العمل یا شعر، ترجمه یا خلاصه کردن متون یا نوشتن کد برنامهنویسی را انجام دهد. توسعه دهندگان هوش مصنوعی می توانند از این مدل به عنوان پایه ای برای ساخت برنامه های کاربردی خود استفاده کنند.
BigScience ادعا می کند که سطوحی از دقت و سمیت مشابه با سایر مدل های هم اندازه ارائه می دهد. برای زبان هایی مانند اسپانیایی و عربی، BLOOM اولین مدل زبان بزرگ در این اندازه است.
اما حتی سازندگان مدل هشدار میدهند که این مدل مشکلات عمیقاً ریشهدار در مورد مدلهای زبانی بزرگ، از جمله فقدان سیاستهای کافی در مورد حاکمیت دادهها و حریم خصوصی و تمایل الگوریتمها به انتشار محتوای سمی، مانند زبان نژادپرستانه یا جنسیتگرا را برطرف نخواهد کرد.مدل زبان GPT-3
بیرون در فضای باز
مدلهای زبان بزرگ، الگوریتمهای یادگیری عمیق هستند که بر روی حجم عظیمی از دادهها آموزش داده میشوند. آنها یکی از داغ ترین حوزه های پژوهش در باره هوش مصنوعی هستند. مدلهای قدرتمندی مانند GPT-3 و LaMDA که متی را تولید میکنند که گویی انسان آن را نوشته است، پتانسیل بسیار زیادی برای تغییر روش پردازش اطلاعات آنلاین دارند. از آنها می توان به عنوان چت ربات یا برای جستجوی اطلاعات، تعدیل محتوای آنلاین، خلاصه کردن کتاب ها، یا تولید متن های کاملاً جدید بر اساس درخواست ها استفاده کرد. اما آنها نیز با مشکلاتی روبرو هستند. ، فقط کمی تحریک کافی است تا این مدل ها شروع به تولید محتوای مضر کنند.
این مدل ها بسیار منحصر به فرد هستند. آنها باید در مورد حجم عظیمی از داده با استفاده از قدرت محاسباتی پر هزینه آموزش ببینند، چیزی که تنها شرکت های فناوری بزرگ (و عمدتا آمریکایی) مانند گوگل می توانند از عهده آن برآیند.
اکثر شرکت های بزرگ فناوری که در حال توسعه LLM های پیشرفته هستند، استفاده از آن ها را توسط افراد خارج از مجموعه خود محدود می کنند و اطلاعاتی در مورد عملکرد داخلی مدل های خود منتشر نکرده اند . این امر باعث می شود که مسئولیت پذیری آنها دشوار باشد. محرمانه بودن و انحصاری بودن مواردی است که محققانی که روی BLOOM کار می کنند امید به تغییر آن دارند.
متا قبلاً از وضعیت موجود فاصله گرفته است: در ماه مه 2022 این شرکت مدل بزرگ زبان خود را با نام Open Pretrained Transformer (OPT-175B) همراه با کد و دفترچه گزارشی که جزئیات نحوه آموزش مدل را نشان میدهد منتشر کرد.مدل زبان GPT-3
اما مدل متا فقط در صورت درخواست در دسترس است و مجوزی دارد که استفاده از آن را به اهداف تحقیقاتی محدود می کند. اما شرکت Hugging Face یک قدم فراتر می رود. جلساتی که جزئیات کامل مدل شرکت Hugging Face را در سال گذشته شرح می دهد، به صورت آنلاین بارگذاری می شود و هر کسی می تواند این مدل را به صورت رایگان دانلود کرده و از آن برای تحقیق یا ساخت برنامه های تجاری استفاده کند.
تمرکز بزرگ برای BigScience این بود که ملاحظات اخلاقی را در مدل از همان ابتدا در نظر بگیرد، . LLM ها بر اساس هزاران داده جمع آوری شده با خراش دادن اینترنت آموزش می بینند. این می تواند مشکل ساز باشد، زیرا این مجموعه داده ها شامل اطلاعات شخصی زیادی هستند و اغلب سوگیری های خطرناک را منعکس می کنند.
این گروه ساختارهای حاکمیت داده را به طور خاص برای LLM ایجاد کرد که باید مشخص کند داده هایی که استفاده می شود به چه کسانی تعلق دارد، و مجموعه داده های مختلفی را از سراسر جهان تهیه کرد که به راحتی به صورت آنلاین در دسترس نبودند.