محققان با استفاده از تکنیک Distillation و مدل جمنای توانستند مدل متنباز رقیب OpenAI را در کمتر از ۳۰ دقیقه و با هزینه کمتر از ۵۰ دلار آموزش دهند.
به گزارش تکناک، پژوهشگران هوش مصنوعی در دانشگاه استنفورد و دانشگاه واشنگتن توانستند مدلی استدلالی را با استفاده از اعتبار پردازش ابری و هزینهای کمتر از ۵۰ دلار آموزش دهند. این مدل که با نام s1 شناخته میشود، در آزمونهای سنجش تواناییهای ریاضی و برنامهنویسی عملکردی همسطح با مدلهای پیشرفتهای مانند o1 شرکت OpenAI و R1 شرکت دیپسیک از خود نشان داد. مدل مذکور بههمراه دادهها و کدهای آموزشیاش در گیتهاب منتشر شده است.
تککرانچ مینویسد که تیم توسعهدهنده s1 ابتدا از مدل پایه آماده استفاده و سپس آن را ازطریق فرایند تقطیر بهینهسازی کرد. در این روش، قابلیتهای استدلالی مدل هوش مصنوعی دیگر با آموزش براساس پاسخهای آن استخراج میشود. به گفته پژوهشگران، مدل s1 از یکی از مدلهای استدلالی شرکت گوگل با نام Gemini 2.0 Flash Thinking Experimental تقطیر شده است. پیشتر نیز پژوهشگران دانشگاه برکلی این روش را برای ساخت مدلی استدلالی با هزینهای حدود ۴۵۰ دلار به کار گرفته بودند.
اینکه گروهی از پژوهشگران بدون سرمایهگذاریهای چندمیلیوندلاری همچنان میتوانند در حوزه هوش مصنوعی نوآوری داشته باشند، برای برخی میتواند جذاب باشد؛ اما توسعه مدل s1، مدل متنباز رقیب OpenAI، سؤالاتی جدی درباره تجاریسازی مدلهای هوش مصنوعی مطرح میکند.
![](https://technoc.ir/wp-content/uploads/2025/02/2-27-1024x683.webp)
اگر بتوان با هزینهای ناچیز مدلی همسطح نمونهای چندمیلیوندلاری توسعه داد؛ پس مزیت رقابتی شرکتهای بزرگ چیست؟ جای تعجب ندارد که شرکتهای بزرگ هوش مصنوعی از این روند ناخشنود باشند. شرکت OpenAI پیشتر دیپسیک را به استفاده غیرمجاز از دادههای API خود برای تقطیر مدلهای هوش مصنوعی متهم کرده بود.
پژوهشگران s1 بهدنبال یافتن سادهترین روش برای دستیابی به عملکرد استدلالی قوی و بهینهسازی زمان پاسخدهی بودند. این یعنی مدل بتواند پیشاز ارائه پاسخ، مدت بیشتری را برای پردازش صرف کند. این ویژگی یکی از پیشرفتهای مهم مدل o1 شرکت OpenAI بود که شرکت دیپسیک و سایر آزمایشگاههای هوش مصنوعی تلاش کردهاند تا آن را با روشهای مختلف بازسازی کنند.
مقاله مرتبط با s1 نشان میدهد که مدلهای استدلالی را میتوان با مجموعه دادهای نسبتاً کوچک و با روشی به نام «تنظیم دقیق تحت نظارت» (SFT) تقطیر کرد. در این روش، مدل هوش مصنوعی برای تقلید از رفتارهای خاص موجود در مجموعه دادهها آموزش داده میشود. SFT معمولاً روشی کمهزینهتر از یادگیری تقویتی در مقیاس وسیع است که دیپسیک برای آموزش مدل R1، رقیب مدل o1 شرکت OpenAI، به کار گرفت.
گوگل دسترسی رایگان به مدل Gemini 2.0 Flash Thinking Experimental را ازطریق پلتفرم Google AI Studio ارائه میدهد؛ هرچند این دسترسی محدودیتهای روزانه دارد. بااینحال، گوگل استفاده از مدلهای خود برای توسعه سرویسهای رقیب را ازطریق مهندسی معکوس ممنوع کرده است.
مدل s1 بر اساس مدلی کوچک و آماده از آزمایشگاه هوش مصنوعی Qwen، متعلق به شرکت علیبابا، توسعه یافته است که بهرایگان در دسترس قرار دارد. برای آموزش این مدل، پژوهشگران مجموعهای شامل تنها ۱,۰۰۰ پرسش منتخب را همراه با پاسخهای مرتبط و فرایند «تفکر» پشت هر پاسخ از مدل Gemini 2.0 Flash Thinking Experimental ایجاد کردند.
براساس گزارش پژوهشگران، آموزش مدل s1 که با استفاده از ۱۶ کارت گرافیک H100 انویدیا انجام شد، کمتر از ۳۰ دقیقه به طول انجامید و این مدل در برخی آزمونهای هوش مصنوعی عملکرد چشمگیری داشت. نیکلاس مونینگهف، پژوهشگر دانشگاه استنفورد، در گفتوگو با تککرانچ اعلام کرد که امروز میتواند پردازش موردنیاز را با هزینهای حدود ۲۰ دلار اجاره کند.
در سال ۲۰۲۵، شرکتهای متا و گوگل و مایکروسافت قصد دارند صدها میلیارد دلار در زیرساختهای هوش مصنوعی سرمایهگذاری کنند که بخشی از آن صرف توسعه مدلهای پیشرفتهتر خواهد شد. این میزان از سرمایهگذاری احتمالاً همچنان برای پیشبرد نوآوری در حوزه هوش مصنوعی ضروری خواهد بود. اگرچه تقطیر روشی مؤثر برای بازتولید قابلیتهای مدلهای هوش مصنوعی با هزینه کمتر است، این روش به تولید مدلهایی بهمراتب پیشرفتهتر از نمونههای موجود منجر نمیشود.