مدل هوش مصنوعی کوچک سامسونگ عملکردی هم‌تراز با Gemini و o3-mini دارد

مدل هوش مصنوعی کوچک سامسونگ به نام Tiny Recursion Model یا TRM، عملکردی هم‌تراز با Gemini و o3-mini دارد.

به گزارش تک‌ناک، پژوهشگر ارشد بخش هوش مصنوعی سامسونگ در کانادا، با معرفی این مدل کوچک و نوآورانه، چالش تازه‌ای برای باور رایج در صنعت هوش مصنوعی ایجاد کرده است؛ باوری که می‌گوید هر چه مدل بزرگ‌تر و پرپارامترتر باشد، عملکرد آن نیز بهتر خواهد بود.

این مدل تنها ۷ میلیون پارامتر دارد، اما توانسته است در برخی از دشوارترین آزمون‌های استدلالی، عملکردی مشابه یا حتی بالاتر از مدل‌های غول‌پیکری مانند: OpenAI o3-mini و Google Gemini 2.5 Pro ارائه دهد. الکسا ژولیکور-مارتینو، پژوهشگر مؤسسه تحقیقات پیشرفته سامسونگ (SAIT) در مونترال، هدف از توسعه این مدل را اثبات این نکته دانست که می‌توان با منابع محدود نیز به هوشی محاسباتی دست یافت که توانایی رقابت با مدل‌های چند تریلیون پارامتری را داشته باشد. او در پستی در شبکه اجتماعی X نوشت: «باور به اینکه تنها مدل‌های عظیم با بودجه‌های میلیون دلاری قادر به حل مسائل پیچیده هستند، اشتباهی بزرگ است. تمرکز بیش از اندازه بر استفاده از مدل‌های زبانی بزرگ، نوآوری را محدود کرده است. باید به جای بهره‌برداری بی‌پایان از مدل‌های آماده، به سراغ خلق روش‌های تازه رفت.»

مدل TRM که مقاله آن با عنوان “Less is More: Recursive Reasoning with Tiny Networks” در وب‌سایت arXiv منتشر شده، بر پایه مفهوم استدلال بازگشتی طراحی شده است؛ مفهومی که به‌جای افزایش لایه‌ها و عمق شبکه، به مدل اجازه می‌دهد چندین بار روی پاسخ خود بازاندیشی کند تا نتیجه نهایی را بهبود دهد. ژولیکور-مارتینو در ساخت TRM از مدل Hierarchical Reasoning Model (HRM) الهام گرفته است، اما برخلاف HRM که از دو شبکه همکار با فرکانس‌های متفاوت استفاده می‌کرد، ساختار جدید تنها از یک شبکه ساده دو‌لایه بهره می‌برد. در این روش، مدل، ورودی را دریافت و پاسخی اولیه تولید می‌کند، سپس با ارزیابی خروجی خود و تصحیح خطاهای احتمالی، در هر چرخه به نتیجه‌ای دقیق‌تر نزدیک می‌شود. این فرایند تکراری تا زمانی ادامه می‌یابد که پاسخ به پایداری برسد.

مدل هوش مصنوعی کوچک سامسونگ نشان داده است که می‌توان با همین روش ساده و کم‌هزینه، عملکردی هم‌تراز یا حتی بالاتر از مدل‌هایی داشت که ده‌هزار برابر پارامتر بیشتر دارند. نتایج آزمایش‌های انجام‌شده روی مجموعه داده‌های شناخته‌شده نشان می‌دهد که دقت TRM در Sudoku-Extreme به ۸۷٫۴ درصد رسیده است، در حالی‌ که مدل HRM تنها به ۵۵ درصد دست یافته بود. در آزمون Maze-Hard نیز دقت ۸۵ درصدی ثبت شده و در دو نسخه از مجموعه آزمون ARC-AGI، به ترتیب ۴۵ و ۸ درصد دقت کسب کرده است. این نتایج در حالی به دست آمده است که TRM تنها از ۰٫۰۱ درصد پارامترهای مدل‌هایی مانند Gemini 2.5 Pro یا DeepSeek R1 بهره می‌برد.

راز موفقیت TRM در طراحی مینیمالیستی آن نهفته است. ژولیکور-مارتینو در مصاحبه‌ای اشاره کرده است که هرچه مدل را پیچیده‌تر و پرلایه‌تر کرده، دقت و توانایی تعمیم آن کاهش یافته است. مدل‌های بزرگ به‌ سرعت دچار بیش‌برازش می‌شوند، به‌ویژه وقتی داده‌های آموزشی محدود باشد. در مقابل، ساختار ساده‌ دو‌لایه به همراه نظارت عمیق و بازگشت‌پذیری، تعادلی میان کارایی و دقت ایجاد کرده است. نکته جالب دیگر این است که در برخی وظایف کوچک مانند: حل Sudoku، حذف مکانیزم خودتوجهی و جایگزینی آن با پرسپترون چند‌لایه باعث بهبود عملکرد شده است، در حالی‌ که برای وظایف پیچیده‌تر و شبکه‌ای بزرگ‌تر مثل ARC-AGI، استفاده از self-attention همچنان ضروری بوده است. این یافته‌ها نشان می‌دهد که معماری بهینه‌ مدل باید متناسب با ساختار داده‌ها باشد و صرفاً بر اساس افزایش ظرفیت نباشد.

از منظر فلسفی، مدل هوش مصنوعی کوچک سامسونگ پاسخی به گرایش غالب “scale is all you need” در صنعت هوش مصنوعی است، که اعتقاد دارد بزرگ‌تر شدن همیشه بهتر است. اما این پژوهش نشان داده است که مقیاس بی‌نهایت لزوماً مسیر پیشرفت نیست و گاهی تفکر بازگشتی می‌تواند جایگزین عمق و اندازه شود. در واقع، TRM با تکیه بر تکرار و بازنگری داخلی، همان تأثیری را ایجاد می‌کند که مدل‌های بزرگ از طریق زنجیره‌های طولانی استدلال، با صرف حافظه و انرژی به‌مراتب کمتر به آن می‌رسند.

معرفی مدل هوش مصنوعی کوچک سامسونگ با عملکردی هم‌تراز Gemini و o3-mini

کد منبع TRM به‌ صورت عمومی و با مجوز MIT در پلتفرم GitHub منتشر شده است، به این معنا که هر فرد یا شرکت می‌تواند از آن برای مقاصد تحقیقاتی یا تجاری استفاده کند. این مخزن شامل اسکریپت‌های کامل آموزش و ارزیابی سازنده‌های داده برای مجموعه‌های Sudoku، Maze و ARC-AGI و تنظیمات مرجع برای بازتولید نتایج است. بر اساس توضیحات ارائه‌شده، آموزش مدل برای مجموعه Sudoku تنها به یک کارت گرافیک NVIDIA L40S نیاز دارد، در حالی‌ که برای مجموعه‌های پیچیده‌تر مانند ARC-AGI از چند GPU مدل H100 استفاده شده است. نکته مهم این است که هرچند TRM کوچک است، اما همچنان به تکرارهای متعدد در حین آموزش نیاز دارد و از تکنیک‌های تقویتی مانند تغییر رنگ، چرخش و تبدیل‌های هندسی داده‌ها برای افزایش تنوع بهره می‌برد.

انتشار عمومی مدل هوش مصنوعی کوچک سامسونگ واکنش‌های گسترده‌ای را در میان جامعه علمی به دنبال داشته است. بسیاری از پژوهشگران آن را شاهدی بر توانایی مدل‌های کوچک در رقابت با غول‌های محاسباتی دانسته‌اند. برخی در شبکه X از این مدل به‌ عنوان «ده‌هزار برابر کوچک‌تر اما باهوش‌تر» یاد کرده‌اند. در مقابل، گروهی دیگر معتقد هستند که دامنه‌ کاربرد TRM محدود است و این مدل تنها در وظایف شبکه‌ای و ساختارمند مانند پازل‌ها، عملکرد چشمگیری دارد، اما در حوزه‌های بازتر مانند درک زبان طبیعی یا تولید متن، مزیتی ندارد. یکی از محققان با نام یونمین چا اشاره کرده است که اگرچه TRM کوچک است، اما تکرارهای بازگشتی آن عملاً زمان اجرا و هزینه محاسباتی را افزایش می‌دهد، بنابراین صرفه‌جویی واقعی در منابع چندان زیاد نیست. در همین حال، پژوهشگر دیگری به نام سباستین راسچکا گفته است که TRM را باید به‌ عنوان ساده‌سازی موفقی از HRM دید و به عنوان گامی به‌سوی هوش عمومی مصنوعی ندانست. به گفته او، این مدل اساساً در دو گام کار می‌کند: ابتدا حالت درونی استدلال را به‌روزرسانی می‌کند و سپس پاسخ را اصلاح می‌نماید.

با وجود این، حتی منتقدان نیز بر یک نکته توافق دارند: پیام اصلی TRM روشن است. برای رسیدن به پیشرفت در استدلال ماشینی، همیشه نیازی به افزایش بی‌پایان اندازه مدل‌ها نیست. در واقع، طراحی دقیق چرخه‌های استدلال و بازخورد داخلی می‌تواند کارایی مشابهی با مدل‌های چند تریلیون پارامتری ایجاد کند. از این منظر، TRM می‌تواند الهام‌بخش نسل جدیدی از پژوهش‌ها در زمینه مدل‌های کوچک اما هوشمند باشد.

ژولیکور-مارتینو در پایان پژوهش خود به مسیرهای آینده اشاره کرده است. او قصد دارد نسخه‌هایی از TRM را توسعه دهد که بتوانند به‌جای یک پاسخ قطعی، چند پاسخ محتمل تولید کنند و در وظایف مولد یا زایشی نیز کاربرد داشته باشند. همچنین پژوهش‌های آینده به دنبال کشف قوانین مقیاس‌پذیری در استدلال بازگشتی خواهند بود؛ قوانینی که مشخص می‌کنند اصل «کمتر، بیشتر است» تا چه اندازه در سطوح پیچیده‌تر و داده‌های گسترده‌تر نیز معتبر می‌ماند.

در نهایت، مدل هوش مصنوعی کوچک سامسونگ نه‌تنها ابزاری عملی برای حل مسائل ساختارمند ارائه می‌دهد، بلکه یادآور این حقیقت است که پیشرفت در هوش مصنوعی الزاماً در گروی افزایش قدرت پردازشی نیست. گاهی یک شبکه‌ کوچک، اگر بتواند با دقت و منطق درونی فکر کند، می‌تواند نتایجی به‌دست آورد که حتی بزرگ‌ترین مدل‌ها از آن ناتوان‌ هستند. این دستاورد تازه‌ سامسونگ نشان می‌دهد که مسیر آینده‌ هوش مصنوعی شاید نه در مقیاس، بلکه در کیفیت تفکر نهفته باشد؛ تفکری که با بازگشت، اصلاح و تکرار، خود را کامل‌تر می‌سازد.