در حالی که متا در رویداد سالانه خود از چندین ویژگی جدید مبتنی بر هوش مصنوعی برای فیسبوک، اینستاگرام و واتساپ رونمایی کرد، چشمگیرترین نوآوری این غول رسانه های اجتماعی ممکن است مورد توجه بسیاری قرار نگیرد.
به گزارش تکناک، تیمی از محققان متا بی سر و صدا مقاله ای را منتشر کردند که در آن ، یک مدل هوش مصنوعی جدید را با نام Llama 2 Long معرفی کرد که می تواند پاسخ های منسجم و مرتبطی را به پرسش های طولانی کاربر تولید کند و از برخی از بهترین رقبا در این زمینه پیشی بگیرد.
Llama 2 Long افزونه Llama 2 است، یک مدل هوش مصنوعی منبع باز که متا در تابستان منتشر کرد. Llama 2 می تواند از منابع مختلف داده یاد بگیرد و وظایف متعددی مانند کدنویسی، ریاضی، درک زبان، استدلال عقل سلیم، مهارت های مکالمه و… را انجام دهد.
با این وجود، Llama 2 Long بر روی دادههای بیشتری که حاوی متون طولانیتر است، آموزش دیده است و برای رسیدگی به توالیهای طولانیتر اطلاعات اصلاح شده است. این ویژگی ها به Llama 2 Long اجازه می دهد تا از سایر مدل ها مانند GPT-3.5 Turbo و Claude 2 که دارای محدودیت هایی در زمینه استفاده از آنها برای تولید پاسخ هستند، بهتر عمل کند.
Llama 2 Long چگونه کار می کند؟
محققان متا از نسخه های مختلف Llama 2 استفاده کردند که شامل 7 تا 70 میلیارد پارامتر بود. اینها مقادیری هستند که مدل هوش مصنوعی می تواند با یادگیری از داده ها آنها را تنظیم کند. محققان 400 میلیارد توکن دیگر (واحد متن) داده اضافه کردند که حاوی متن های طولانی تر از مجموعه داده اصلی Llama 2 بود.
آنها همچنین معماری Llama 2 را با تغییر نحوه رمزگذاری موقعیت هر توکن در دنباله، کمی تغییر دادند. آنها از تکنیکی به نام Rotary Positional Embedding (RoPE) استفاده کردند که هر توکن را به نقطه ای از یک نمودار سه بعدی نگاشت می کند که ارتباط آن را با توکن های دیگر، حتی در صورت چرخش، نشان می دهد. این به مدل کمک می کند تا پاسخ های دقیق و مفیدی را با اطلاعات و حافظه کمتر نسبت به روش های دیگر تولید کند.
آنها زاویه چرخش رمزگذاری RoPE را از Llama 2 به Llama 2 Long کاهش دادند، که آنها را قادر ساخت تا توکن های بیشتری را در پایگاه دانش مدل قرار دهند.
آنها همچنین از یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده کردند. در این روش مدل هوش مصنوعی برای پاسخهای صحیح پاداش میگیرد و توسط ارزیابهای انسانی تصحیح میشود. در این روش دادههای مصنوعی تولید شده توسط خود چت Llama 2، برای بهبود عملکرد خود در وظایف مختلف استفاده می شود.
این مقاله ادعا میکند که Llama 2 Long میتواند پاسخهایی با کیفیت بالا به درخواستهای کاربر ایجاد کند که حداکثر 200هزار کاراکتر است که معادل حدود 40 صفحه متن می باشد. این مقاله همچنین نمونههایی از پاسخهای Llama 2 Long به پرسشهایی در مورد موضوعاتی مانند تاریخ، علم، ادبیات و ورزش را نشان میدهد.
محققان می گویند که Llama 2 Long گامی به سوی ساخت مدل های هوش مصنوعی عمومی تر و همه کاره تر است که می تواند نیازهای پیچیده و متنوع کاربران را برطرف کند. آنها همچنین پیامدهای اخلاقی و اجتماعی بالقوه چنین مدلهایی را تصدیق میکنند و خواهان تحقیق و گفتگوی بیشتر در مورد چگونگی استفاده مسئولانه و سودمند از آنها هستند.