روز جمعه، متا یک مدل زبان بزرگ جدید با هوش مصنوعی (LLM) به نام LLaMA-13B را معرفی کرد که ادعا میکند علیرغم اینکه ۱۰ برابر کوچکتر است، میتواند از مدل GPT-3 OpenAI بهتر عمل کند.
به گزارش تکناک، مدلهای هوش مصنوعی با اندازه کوچکتر میتوانند منجر به اجرای دستیارهای زبان شبیه ChatGPT به صورت محلی در دستگاههایی مانند رایانههای شخصی و تلفنهای هوشمند شوند. این بخشی از خانواده جدیدی از مدلهای زبانی به نام «مدل زبان بزرگ هوش مصنوعی متا» یا به اختصار LLAMA است.
مجموعه مدل های زبان LLaMA از 7 میلیارد تا 65 میلیارد پارامتر در اندازه است. در مقایسه، مدل GPT-3 OpenAI ( مدل اساسی پشت ChatGPT ) دارای 175 میلیارد پارامتر است.
متا مدلهای LLaMA خود را با استفاده از مجموعه دادههای در دسترس عموم، مانند Common Crawl، Wikipedia، و C4 آموزش داد، که به این معنی است که شرکت میتواند به طور بالقوه مدل را به صورت اوپن سورس منتشر کند. این یک پیشرفت چشمگیر جدید در صنعتی است که تا به حال، بازیگران بزرگ فناوری در مسابقه هوش مصنوعی قدرتمندترین فناوری خود را برای خود نگه داشته اند.
گیوم لمپل عضو پروژه توییت کرد: برخلاف Chinchilla، PalM، یا GPT-3، ما فقط از مجموعه دادههایی که به صورت عمومی در دسترس هستند استفاده میکنیم و کارمان را با منبع باز و به صورت قابل تکرار سازگار میکنیم، در حالی که بیشتر مدلهای موجود بر دادههایی تکیه میکنند که در دسترس عموم یا غیرمستند نیستند.
Today we release LLaMA, 4 foundation models ranging from 7B to 65B parameters.
LLaMA-13B outperforms OPT and GPT-3 175B on most benchmarks. LLaMA-65B is competitive with Chinchilla 70B and PaLM 540B.
The weights for all models are open and available at https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq— Guillaume Lample @ ICLR 2024 (@GuillaumeLample) February 24, 2023
در حالی که مدل برتر LLaMA (LLaMA-65B، با 65 میلیارد پارامتر) ، طبق گزارش ها می تواند عملکرد بهتری از GPT-3 بر روی یک GPU واحد اجرا می شود، داشته باشد، برخلاف الزامات مرکز داده (Data Center)برای مشتقات GPT-3، مدل LLaMA-13B دری را برای عملکرد مشابه ChatGPT بر روی سخت افزار در سطح مصرف کننده مانند موبایل ها و تبلت ها در آینده نزدیک باز می کند.
اندازه پارامتر در هوش مصنوعی بسیار مهم است. پارامتر متغیری است که یک مدل یادگیری ماشینی از آن برای پیشبینی یا طبقهبندی بر اساس دادههای ورودی استفاده میکند.
تعداد پارامترها در یک مدل زبان یک عامل کلیدی در عملکرد آن است و مدلهای بزرگتر با تعداد زیادی پارامتر معمولاً قادر به انجام وظایف پیچیدهتر و تولید خروجی منسجمتر هستند.
با این حال، پارامترهای بیشتر فضای بیشتری را اشغال میکنند و برای اجرا به منابع محاسباتی سخت افزاری بیشتری نیاز دارند. بنابراین اگر یک مدل بتواند به نتایج مشابه مدل دیگر با پارامترهای کمتر دست ، نشان دهنده افزایش قابل توجهی در کارایی است.
سایمون ویلیسون محقق مستقل هوش مصنوعی در Mastodon نوشت: من اکنون به این فکر میکنم که ظرف یک یا دو سال آینده بتوانیم مدلهای زبانی را با بخش قابل توجهی از قابلیتهای ChatGPT روی تلفنهای همراه و لپتاپ خودمان اجرا کنیم.
در حال حاضر، یک نسخه کوچک شده از LLaMA در GitHub در دسترس است. برای دریافت کد و دادههای آموزشی «یادگرفتهشده» در یک شبکه عصبی، متا فرمی را برای درخواست دسترسی در آنجا قرار داده است. متا در حال حاضر برنامهای برای عرضه گستردهتر این مدل اعلام نکرده است.