مبارزه ۱۴ ربات هوش مصنوعی در بازی Street Fighter III

یکی از مهندسان داده ۱۴ ربات هوش مصنوعی را در بازی Street Fighter III درمقابل هم قرار داد تا ببیند کدام مدل بهتر عمل می‌کند.

به‌گزارش تک‌ناک، چند هفته پیش، برنامه‌نویسی فرانسوی به نام استن ژیرار LLM Colosseum را معرفی کرد. این اپلیکیشنی متن‌باز است که به کاربران امکان می‌دهد تا کیفیت مدل‌های زبان بزرگ (LLM) را ارزیابی و آن‌ها را رتبه‌بندی کنند. ژیرار در آزمایش اولیه خود، مدل‌های OpenAI را در‌مقابل مدل‌های MistralAI قرار داد تا ببیند کدام مدل عملکرد بهتری دارد.

درادامه، می‌توانید ویدئویی را مشاهده کنید که این ابزار معیار را برای LLMها به‌نمایش می‌گذارد.

 

wccftech می‌نویسد که بعد از اجرای اولیه‌ این معیار با استفاده از LLM Colosseum، بانجو اوبایومی، مهندس آمازون، تصمیم گرفت تا ۱۴ مدل LLM را با استفاده از سرویس هوش مصنوعی تولیدکننده‌ آمازون، یعنی Amazon Bedrock، در ۳۱۴ مسابقه‌ Street Fighter III با‌هم به رقابت بگذارد. اوبایومی برای انجام این معیار از اپلیکیشن متن‌باز استن ژیرار و شبیه‌سازی استفاده کرد که بازی Street Fighter شرکت کپکام را از سال ۱۹۹۷ اجرا می‌کرد.

این شبیه‌ساز با زمینه‌ مبارزه‌ هوش مصنوعی Diambra پشتیبانی می‌شد. برای شروع مسابقه، دو LLM به‌صورت تصادفی انتخاب می‌شدند تا کنترل شخصیت مشهور «کن» را برعهده بگیرند. سپس، LLM Colosseum داده‌های وضعیت بازی را جمع‌آوری و حرکت‌های بازیکن را از LLMها دریافت می‌کرد و در‌نهایت، این LLMها حرکات انتخابی‌شان را در شبیه‌ساز اجرا می‌کردند.

با بررسی نتایج کلی که اوبایومی منتشر کرد، مشخص شد که مدل‌های LLM کوچک‌تر عملکرد بهتری از مدل‌های بزرگ‌تر داشتند. این موضوع احتمالاً به‌دلیل تأخیر کمتر رخ داده است؛ به‌طوری‌که مدل‌های Claude متعلق به Anthropic در صدر جدول عملکرد قرار گرفتند. این معیار جدید یافته‌های جالبی را ارائه داد؛ ازجمله مواردی که مدل‌ها سعی می‌کردند دانش خود را برای انجام حرکات غیرممکن مانند «ترکیبی با بیشترین ضربه» به‌کار گیرند.

همچنین، به‌نظر می‌رسد که هر مدل در طول معیار، سبک بازی خاص خود را توسعه داده است. برخی از مدل‌ها رویکرد دفاعی را در پیش گرفتند؛ در‌حالی‌که برخی دیگر تهاجمی عمل و حتی بعضی از مدل‌ها از مبارزه امتناع کردند. تماشای این نوع چت‌بات‌های هوش مصنوعی که با‌هم مبارزه می‌کنند و اینکه چقدر سریع می‌توانند خود را وفق دهند، واقعاً جالب است. اگر به راه‌اندازی معیاری مشابه علاقه‌مند هستید، این لینک را دنبال کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار جدید تک‌ناک را از دست ندهید.