یکی از مهندسان داده ۱۴ ربات هوش مصنوعی را در بازی Street Fighter III درمقابل هم قرار داد تا ببیند کدام مدل بهتر عمل میکند.
بهگزارش تکناک، چند هفته پیش، برنامهنویسی فرانسوی به نام استن ژیرار LLM Colosseum را معرفی کرد. این اپلیکیشنی متنباز است که به کاربران امکان میدهد تا کیفیت مدلهای زبان بزرگ (LLM) را ارزیابی و آنها را رتبهبندی کنند. ژیرار در آزمایش اولیه خود، مدلهای OpenAI را درمقابل مدلهای MistralAI قرار داد تا ببیند کدام مدل عملکرد بهتری دارد.
درادامه، میتوانید ویدئویی را مشاهده کنید که این ابزار معیار را برای LLMها بهنمایش میگذارد.
wccftech مینویسد که بعد از اجرای اولیه این معیار با استفاده از LLM Colosseum، بانجو اوبایومی، مهندس آمازون، تصمیم گرفت تا ۱۴ مدل LLM را با استفاده از سرویس هوش مصنوعی تولیدکننده آمازون، یعنی Amazon Bedrock، در ۳۱۴ مسابقه Street Fighter III باهم به رقابت بگذارد. اوبایومی برای انجام این معیار از اپلیکیشن متنباز استن ژیرار و شبیهسازی استفاده کرد که بازی Street Fighter شرکت کپکام را از سال ۱۹۹۷ اجرا میکرد.
این شبیهساز با زمینه مبارزه هوش مصنوعی Diambra پشتیبانی میشد. برای شروع مسابقه، دو LLM بهصورت تصادفی انتخاب میشدند تا کنترل شخصیت مشهور «کن» را برعهده بگیرند. سپس، LLM Colosseum دادههای وضعیت بازی را جمعآوری و حرکتهای بازیکن را از LLMها دریافت میکرد و درنهایت، این LLMها حرکات انتخابیشان را در شبیهساز اجرا میکردند.
با بررسی نتایج کلی که اوبایومی منتشر کرد، مشخص شد که مدلهای LLM کوچکتر عملکرد بهتری از مدلهای بزرگتر داشتند. این موضوع احتمالاً بهدلیل تأخیر کمتر رخ داده است؛ بهطوریکه مدلهای Claude متعلق به Anthropic در صدر جدول عملکرد قرار گرفتند. این معیار جدید یافتههای جالبی را ارائه داد؛ ازجمله مواردی که مدلها سعی میکردند دانش خود را برای انجام حرکات غیرممکن مانند «ترکیبی با بیشترین ضربه» بهکار گیرند.
همچنین، بهنظر میرسد که هر مدل در طول معیار، سبک بازی خاص خود را توسعه داده است. برخی از مدلها رویکرد دفاعی را در پیش گرفتند؛ درحالیکه برخی دیگر تهاجمی عمل و حتی بعضی از مدلها از مبارزه امتناع کردند. تماشای این نوع چتباتهای هوش مصنوعی که باهم مبارزه میکنند و اینکه چقدر سریع میتوانند خود را وفق دهند، واقعاً جالب است. اگر به راهاندازی معیاری مشابه علاقهمند هستید، این لینک را دنبال کنید.