نوآوری مایکروسافت در مدل زبانی Phi-1

جدیدترین مدل زبانی مایکروسافت با 1.3 میلیارد  پارامتر و با نام Phi-1 رونمایی شد.

به گزارش تکناک، بر خلاف باور متداول که مدل‌های بزرگتر عملکرد بهتری دارند، مایکروسافت در اینجا روی کیفیت داده‌های آموزشی تمرکز کرده است. Phi-1 با استفاده از یک مجموعه داده در سطح کتاب درسی با دقت بالا آموزش داده شده و با 100 میلیارد پارامتر، GPT-3.5 را پشت سر گذاشته است.

زمان آموزش مدل مایکروسافت فقط 4 روز بود

مدل زبان Microsoft Phi-1 که بر مبنای معماری Transformer ساخته شده است، به دلیل عملکرد قابل قبول خود، توجهات زیادی را به خود جلب کرده است. تیم پشتیبان Phi-1 تاکید خود را بر کیفیت داده‌های آموزشی قرار داد، که باعث شد از روند رو به افزایش اندازه مدل‌ها فاصله گرفته شود.

با استفاده از مجموعه داده با کیفیت بالا که از منابع اینترنتی و محتوایی در سطح کتاب درسی تشکیل شده بود، تیم Microsoft با استفاده از GPT-3.5 اطلاعات را پردازش کرد. با استفاده از 8 GPU Nvidia A100، فرآیند آموزش فقط در چهار روز به پایان رسید.

به گفته مایکروسافت، تمرکز بر بهبود کیفیت داده‌های آموزشی در مقایسه با افزایش تعداد پارامترها، نتایج قابل تحسینی را به همراه داشته است. در آزمایش‌های مقایسه‌ای، Phi-1 به امتیاز دقت 50.6 درصد رسید که از عملکرد 47درصدی GPT-3.5 با 175 میلیارد پارامتر فراتر رفت.

مایکروسافت قصد دارد مدل زبان Phi-1 را با استفاده از پلتفرم HuggingFace منتشر کند و بخشی از کد آن را به صورت آزاد در دسترس عموم قرار دهد. این اقدام، دسترسی به این مدل زبان و پتانسیل همکاری بیشتر را تقویت خواهد کرد.

اولین بار نیست که مایکروسافت به ساخت مدل‌های زبان کوچکتر می‌پردازد؛ قبلاً مدل Orca با 13 میلیارد پارامتر را با استفاده از داده‌های مصنوعی با استفاده از GPT-4 آموزش داده شده بود. حتی این مدل هم نسبت به ChatGPT گذشته است. مقاله تحقیقاتی درباره Phi-1 در arXiv منتشر شده است که جزئیاتی درباره ساختار و روش آموزش آن را ارائه می‌دهد. برای کسانی که به بررسی جنبه‌های فنی علاقه‌مند هستند، این مقاله بررسی جامعی از توسعه Phi-1 ارائه می‌دهد.

مدل زبان  Phi-1 مایکروسافت، با تمرکز بر داده‌های آموزشی با کیفیت بالا، نشان داده است که افزایش حجم پارامترها برای بهبود عملکرد ضروری نیست. Phi-1 با دقت قابل توجهی به نمایش درآمده است و حتی در مقایسه با مدل‌های بزرگتر، عملکرد بهتری داشته است. اینکه  Phi-1 به صورت آزاد منتشر شود، نشان دهنده تعهد مایکروسافت به پیشبرد حوزه پردازش زبان طبیعی است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار جدید تک‌ناک را از دست ندهید.