جدیدترین مدل زبانی مایکروسافت با 1.3 میلیارد پارامتر و با نام Phi-1 رونمایی شد.
به گزارش تکناک، بر خلاف باور متداول که مدلهای بزرگتر عملکرد بهتری دارند، مایکروسافت در اینجا روی کیفیت دادههای آموزشی تمرکز کرده است. Phi-1 با استفاده از یک مجموعه داده در سطح کتاب درسی با دقت بالا آموزش داده شده و با 100 میلیارد پارامتر، GPT-3.5 را پشت سر گذاشته است.
زمان آموزش مدل مایکروسافت فقط 4 روز بود
مدل زبان Microsoft Phi-1 که بر مبنای معماری Transformer ساخته شده است، به دلیل عملکرد قابل قبول خود، توجهات زیادی را به خود جلب کرده است. تیم پشتیبان Phi-1 تاکید خود را بر کیفیت دادههای آموزشی قرار داد، که باعث شد از روند رو به افزایش اندازه مدلها فاصله گرفته شود.
با استفاده از مجموعه داده با کیفیت بالا که از منابع اینترنتی و محتوایی در سطح کتاب درسی تشکیل شده بود، تیم Microsoft با استفاده از GPT-3.5 اطلاعات را پردازش کرد. با استفاده از 8 GPU Nvidia A100، فرآیند آموزش فقط در چهار روز به پایان رسید.
به گفته مایکروسافت، تمرکز بر بهبود کیفیت دادههای آموزشی در مقایسه با افزایش تعداد پارامترها، نتایج قابل تحسینی را به همراه داشته است. در آزمایشهای مقایسهای، Phi-1 به امتیاز دقت 50.6 درصد رسید که از عملکرد 47درصدی GPT-3.5 با 175 میلیارد پارامتر فراتر رفت.
مایکروسافت قصد دارد مدل زبان Phi-1 را با استفاده از پلتفرم HuggingFace منتشر کند و بخشی از کد آن را به صورت آزاد در دسترس عموم قرار دهد. این اقدام، دسترسی به این مدل زبان و پتانسیل همکاری بیشتر را تقویت خواهد کرد.
اولین بار نیست که مایکروسافت به ساخت مدلهای زبان کوچکتر میپردازد؛ قبلاً مدل Orca با 13 میلیارد پارامتر را با استفاده از دادههای مصنوعی با استفاده از GPT-4 آموزش داده شده بود. حتی این مدل هم نسبت به ChatGPT گذشته است. مقاله تحقیقاتی درباره Phi-1 در arXiv منتشر شده است که جزئیاتی درباره ساختار و روش آموزش آن را ارائه میدهد. برای کسانی که به بررسی جنبههای فنی علاقهمند هستند، این مقاله بررسی جامعی از توسعه Phi-1 ارائه میدهد.
مدل زبان Phi-1 مایکروسافت، با تمرکز بر دادههای آموزشی با کیفیت بالا، نشان داده است که افزایش حجم پارامترها برای بهبود عملکرد ضروری نیست. Phi-1 با دقت قابل توجهی به نمایش درآمده است و حتی در مقایسه با مدلهای بزرگتر، عملکرد بهتری داشته است. اینکه Phi-1 به صورت آزاد منتشر شود، نشان دهنده تعهد مایکروسافت به پیشبرد حوزه پردازش زبان طبیعی است.