قابلیت کم نظیر ابزار جدید یادگیری تقویتی دیپ مایند

گروه هوش مصنوعی دیپ مایند گوگل یک ابزار یادگیری تقویتی را منتشر کرده است که می تواند الگوریتم های بسیار بهینه سازی شده ای را توسعه دهد.

به گزارش تکناک، دیپ مایند این کار را بدون اینکه ابتدا روی نمونه‌های کد انسانی آموزش ببیند انجام می‌دهد، زیرا به گونه‌ای تنظیم شده است که برنامه‌نویسی را به عنوان یک بازی در نظر بگیرد.

دیپ مایند قبلاً این توانایی را داشت که به خود بیاموزد که چگونه بازی کند و بازی‌های مختلفی مانند Chess and Go و StarCraft را به پایان برساند. این نرم‌افزار در یادگیری خود محور بازی ها بسیار موثر عمل می کند و روش هایی را برای امتیازگیری کشف می کند که هرگز به مغز انسان خطور نکرده است.

رفع نیاز به الگوهای انسانی

امروزه، مدل‌های زبان بزرگ، کد های مؤثری را می‌نویسند، زیرا بر اساس مدل‌های انسانی آموزش دیده‌اند. با این حال، این آموزش به این معنی است که آنها به احتمال زیاد نمی توانند چیزی را توسعه دهند که انسان قبلاً آن را انجام نداده است.

به همین دلیل است که برای بهینه‌سازی الگوریتم‌هایی که به خوبی درک شده‌اند، بهتر است آنها را بر اساس کدهای انسانی قرار ندهید. سوالی که مطرح می شود این است که چگونه می توان یک هوش مصنوعی را برای شناسایی یک رویکرد واقعا جدید و منحصر به فرد به کار برد؟

برنامه نویسان در دیپ مایند تصمیم گرفتند رویکردی را که در بازی Chess and Go استفاده کرده بودند تکرار کنند و بهینه سازی کد را به یک بازی تبدیل کردند.

آنها الگوریتم هایی را مهندسی کردند که تأخیر کد را به عنوان یک امتیاز در نظر می گرفتند و سعی کردند این امتیاز را به حداقل برسانند و در نتیجه نرم افزاری را ایجاد کردند که توانایی نوشتن کدهای فشرده و بسیار کارآمد را داشت.

آنها این کار را از طریق یک سیستم هوش مصنوعی پیچیده به نام AlphaDev انجام دادند که از چندین جزء مجزا تشکیل شده است. تابع نمایش آن، عملکرد کلی کد را در حین توسعه دنبال می کند، از جمله ساختار کلی الگوریتم و استفاده از رجیستر ها و حافظه x86.

مزایای بسیار

مزیت اصلی این سیستم جدید این است که آموزش آن نیازی به نمونه کد ندارد، زیرا نمونه های کد خود را تولید می کند و سپس به ارزیابی آنها می پردازد. Ars Technica گزارش داد که از طریق این سیستم، اطلاعاتی درباره ترکیبی از دستورالعمل‌هایی که در مرتب‌سازی مؤثر هستند، جمع‌آوری می‌کند.

در ژانویه 2023، Google Research و دیپ مایند، MedPaLM را راه‌اندازی کردند، که یک مدل زبان بزرگ در حوزه پزشکی است.

این نرم افزار به منظور ایجاد پاسخ های ایمن و مفید در زمینه پزشکی ایجاد شد. MedPaLM، HealthSearchQA را ترکیب می کند که یک مجموعه داده جدید با پاسخ رایگان از سوالات پزشکی است و به صورت آنلاین جستجو می‌شود.

در همین حال، ماه گذشته، دمیس حسابیس، مدیر عامل دیپ مایند، گفت: هوش جامع مصنوعی (AGI) که یک هوش ماشینی است و می تواند جهان را مانند انسان درک کند، ممکن است طی دهه اخیر توسعه زیادی پیدا کند.