متا یک مدل زبان جدید معرفی کرد

روز جمعه، متا یک مدل زبان بزرگ جدید با هوش مصنوعی (LLM) به نام LLaMA-13B را معرفی کرد که ادعا می‌کند علیرغم اینکه ۱۰ برابر کوچک‌تر است، می‌تواند از مدل GPT-3 OpenAI بهتر عمل کند.

به گزارش تکناک، مدل‌های هوش مصنوعی با اندازه کوچک‌تر می‌توانند منجر به اجرای دستیارهای زبان شبیه ChatGPT به صورت محلی در دستگاه‌هایی مانند رایانه‌های شخصی و تلفن‌های هوشمند شوند. این بخشی از خانواده جدیدی از مدل‌های زبانی به نام «مدل زبان بزرگ هوش مصنوعی متا» یا به اختصار LLAMA است.

مجموعه مدل های زبان LLaMA از 7 میلیارد تا 65 میلیارد پارامتر در اندازه است. در مقایسه، مدل GPT-3 OpenAI ( مدل اساسی پشت ChatGPT ) دارای 175 میلیارد پارامتر است.

متا مدل‌های LLaMA خود را با استفاده از مجموعه داده‌های در دسترس عموم، مانند Common Crawl، Wikipedia، و C4 آموزش داد، که به این معنی است که شرکت می‌تواند به طور بالقوه مدل را به صورت اوپن سورس منتشر کند. این یک پیشرفت چشمگیر جدید در صنعتی است که تا به حال، بازیگران بزرگ فناوری در مسابقه هوش مصنوعی قدرتمندترین فناوری خود را برای خود نگه داشته اند.

گیوم لمپل عضو پروژه توییت کرد: برخلاف Chinchilla، PalM، یا GPT-3، ما فقط از مجموعه داده‌هایی که به صورت عمومی در دسترس هستند استفاده می‌کنیم و کارمان را با منبع باز و به صورت قابل تکرار سازگار می‌کنیم، در حالی که بیشتر مدل‌های موجود بر داده‌هایی تکیه می‌کنند که در دسترس عموم یا غیرمستند نیستند.

Today we release LLaMA, 4 foundation models ranging from 7B to 65B parameters.
LLaMA-13B outperforms OPT and GPT-3 175B on most benchmarks. LLaMA-65B is competitive with Chinchilla 70B and PaLM 540B.
The weights for all models are open and available at https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq

— Guillaume Lample (@GuillaumeLample) February 24, 2023

در حالی که مدل برتر LLaMA (LLaMA-65B، با 65 میلیارد پارامتر) ، طبق گزارش ها می تواند عملکرد بهتری از GPT-3 بر روی یک GPU واحد اجرا می شود، داشته باشد، برخلاف الزامات مرکز داده (Data Center)برای مشتقات GPT-3، مدل LLaMA-13B دری را برای عملکرد مشابه ChatGPT بر روی سخت افزار در سطح مصرف کننده مانند موبایل ها و تبلت ها در آینده نزدیک باز می کند.

اندازه پارامتر در هوش مصنوعی بسیار مهم است. پارامتر متغیری است که یک مدل یادگیری ماشینی از آن برای پیش‌بینی یا طبقه‌بندی بر اساس داده‌های ورودی استفاده می‌کند.

تعداد پارامترها در یک مدل زبان یک عامل کلیدی در عملکرد آن است و مدل‌های بزرگتر با تعداد زیادی پارامتر معمولاً قادر به انجام وظایف پیچیده‌تر و تولید خروجی منسجم‌تر هستند.

با این حال، پارامترهای بیشتر فضای بیشتری را اشغال می‌کنند و برای اجرا به منابع محاسباتی سخت افزاری بیشتری نیاز دارند. بنابراین اگر یک مدل بتواند به نتایج مشابه مدل دیگر با پارامترهای کمتر دست ، نشان دهنده افزایش قابل توجهی در کارایی است.

سایمون ویلیسون محقق مستقل هوش مصنوعی در Mastodon نوشت: من اکنون به این فکر می‌کنم که ظرف یک یا دو سال آینده بتوانیم مدل‌های زبانی را با بخش قابل توجهی از قابلیت‌های ChatGPT روی تلفن‌های همراه و لپ‌تاپ خودمان اجرا کنیم.

در حال حاضر، یک نسخه کوچک شده از LLaMA در GitHub در دسترس است. برای دریافت کد و داده‌های آموزشی «یادگرفته‌شده» در یک شبکه عصبی، متا فرمی را برای درخواست دسترسی در آنجا قرار داده است. متا در حال حاضر برنامه‌ای برای عرضه گسترده‌تر این مدل اعلام نکرده است.

فناوری، هوش مصنوعی

متا یک مدل زبان جدید معرفی کرد

صمد کردی

دیدگاهتان را بنویسید لغو پاسخ