مطالعهای مشترک از سوی پژوهشگران متا، گوگل، انویدیا و دانشگاه کرنل برای نخستینبار به صورت دقیق نشان داده است که حافظه مدلهای زبانی بزرگ (LLM) چه میزان از دادههای آموزشی خود را «حفظ» میکنند.
به گزارش تکناک، نتایج این تحقیق نشان میدهد که مدلهای مبتنی بر ساختار GPT ظرفیت ثابتی برای حافظهسپاری دارند، که برابر با ۳.۶ بیت به ازای هر پارامتر است. به بیان دیگر، یک مدل با ۱.۵ میلیارد پارامتر، تنها حدود ۶۷۵ مگابایت اطلاعات خام را به صورت مستقیم ذخیره میکند؛ رقمی که در مقایسه با مجموعه دادههای تریلیونواژهای بسیار ناچیز به نظر میرسد.
فهرست مطالب
آموزش مدلهای زبانی بزرگ؛ از واژه تا مفهوم
مدلهای زبانی بزرگ همچون ChatGPT، Claude شرکت Anthropic و Gemini گوگل با تریلیونها واژه از منابع گوناگون شامل وبسایتها، کتابها، پایگاههای کد، تصاویر، صوت و ویدیو آموزش دیدهاند. این مدلها از دل چنین دادههایی، درکی آماری و تعمیمیافته از زبان و جهان پیرامون بهدست میآورند. در این فرایند، میلیاردها پارامتر تنظیم میشود تا خروجی مدل، پاسخهایی متناسب با الگوهای زبانی و مفهومی مشاهدهشده در دادهها باشد.
اما همیشه این نگرانی وجود داشته که مدلها ممکن است بهجای تعمیم مفاهیم، صرفاً محتوای آموزشدیده را حفظ و بازتولید کنند. این مسئله بهویژه از منظر حقوقی و نقض احتمالی کپیرایت اهمیت فراوانی دارد.
کشف عددی بنیادین: ۳.۶ بیت به ازای هر پارامتر
پژوهش جدید نشان میدهد که مدلهای GPTمحور دارای ظرفیت حافظهای ثابت و قابل اندازهگیری هستند، که ۳٫۶ بیت به ازای هر پارامتر است. این عدد به زبان ساده یعنی هر پارامتر تنها توانایی حفظ حدود ۱۲ مقدار متفاوت را دارد، که تقریباً معادل انتخاب یک ماه از سال یا نتیجه یک تاس ۱۲وجهی است. این مقدار حتی برای ذخیره یک کاراکتر کامل در زبان انگلیسی (که حدود ۴٫۷ بیت نیاز دارد) کافی نیست.
پژوهشگران با آموزش مدلهای ترنسفورمر بر رشتههایی از بیتهای کاملاً تصادفی، امکان هرگونه تعمیم را حذف کردند. در چنین شرایطی، عملکرد مدلهای زبانی بزرگ در بازشناسی دادهها تنها میتواند ناشی از حافظه باشد. آنها از طریق این روش، رابطه مستقیمی میان تعداد پارامترها و میزان حافظه قابل ذخیره شناسایی کردند.
نتایج حافظه مدلهای زبانی بزرگ با اندازههای مختلف — از ۵۰۰هزار تا ۱٫۵ میلیارد پارامتر — یکسان بود. حتی افزایش دقت عددی مدل از bfloat16 به float32 تنها باعث افزایش اندکی در ظرفیت حافظه (از ۳٫۵۱ به ۳٫۸۳ بیت) شد.

داده بیشتر، حفظ کمتر
برخلاف تصور رایج، آموزش مدل با داده بیشتر باعث افزایش حفظشدگی نمیشود. به گفته جک موریس، نویسنده اصلی مقاله، آموزش با داده بیشتر باعث میشود که مدلها به ازای هر نمونه، اطلاعات کمتری حفظ کنند. به عبارت دیگر، داده بیشتر به معنای تعمیم بیشتر و حافظه کمتر است، که موضوعی حیاتی در مباحث حقوقی و اخلاقی مربوط به مدلهای زبانی میشود.
همچنین این مطالعه نشان میدهد که حملات استنتاج عضویت — که برای تشخیص وجود یک داده خاص در مجموعه آموزشی طراحی شدهاند — با افزایش حجم دادهها ناکارآمدتر میشوند. این یافته میتواند به کاهش نگرانیها پیرامون افشای اطلاعات حساس یا دارای کپیرایت توسط LLMها کمک کند.
با وجود این، نویسندگان مقاله بیان کردند که دادههای خاص و منحصربهفرد — مانند متون با سبک بسیار ویژه یا هنری — همچنان ممکن است بیشتر حفظ شوند. با وجود این، رویکرد آنها برای بررسی روندهای کلی طراحی شده است و به استثناها توجهی ندارند.
داده بیشتر، مدل امنتر
این پژوهش گامی مهم در جهت درک دقیق عملکرد مدلهای زبانی بزرگ و تفکیک حافظه از یادگیری محسوب میشود. یافتهها نشان میدهند که استفاده از دادههای بیشتر نهتنها باعث تعمیم بهتر مدل میشود، بلکه ریسک بازتولید محتوای حساس یا تحت کپیرایت را نیز کاهش میدهد.
به عنوان نمونه، یک مدل با ۵۰۰ هزار پارامتر میتواند حدود ۲۲۵ کیلوبایت داده حفظ کند، در حالی که ظرفیت حافظه یک مدل ۱٫۵ میلیارد پارامتری حدود ۶۷۵ مگابایت تخمین زده میشود. این میزان در مقایسه با فایلهای رسانهای زیاد نیست، اما در دنیای متن و زبان، معنا و اهمیت ویژهای دارد.
با توجه به دعواهای حقوقی پرشمار میان توسعهدهندگان هوش مصنوعی و صاحبان محتوا، بیتردید این پژوهش به عنوان مرجعی علمی و قانونی در بررسی عملکرد و مسئولیت مدلهای زبانی مورد استناد قرار خواهد گرفت.