بهینه‌سازی Gemma برای شتاب‌دهنده‌های هوش مصنوعی

بهینه‌سازی‌های انویدیا برای Gemma، این مدل زبانی بزرگ را به ابزاری قدرتمندتر و کارآمدتر برای طیف وسیعی از برنامه‌ها تبدیل می‌کند.

به‌گزارش تک‌ناک، به‌منظور بهینه‌سازی مدل‌های زبانی بزرگ رایج با پردازنده‌های گرافیکی سری RTX مجهز به هوش مصنوعی، انویدیا اخیراً سرعت پیشرفت‌ها را افزایش داده است. این پیشرفت با بهینه‌سازی مدل پیشرفته‌ Gemma متعلق به گوگل به مرحله‌ جدیدی رسیده است.

انویدیا با همکاری گوگل، از بهینه‌سازی‌هایی برای مدل‌های زبانی بزرگ و سبک‌وزن Gemma (با ظرفیت 2 و 7 میلیارد پارامتر) روی تمامی پلتفرم‌های هوش مصنوعی انویدیا خبر داده است.

این مدل‌های جدید و پیشرفته‌ گوگل در هر دستگاهی اجرا می‌شوند و با کاهش هزینه‌ها، نوآوری و کارهای خلاقانه را در حوزه‌های تخصصی سرعت می‌بخشند. به‌نقل از wccftech، تیم‌های هر دو شرکت برای تسریع عملکرد Gemma که با همان تحقیقات و فناوری استفاده‌شده در ساخت مدل‌های جمینی ساخته شده است، همکاری تنگاتنگی کردند.

این تسریع با استفاده از TensorRT-LLM انویدیا، کتابخانه‌ای منبع‌باز برای بهینه‌سازی استنتاج مدل‌های زبانی بزرگ، هنگام اجرا روی پردازنده‌های گرافیکی انویدیا در مراکز داده و کلود و رایانه‌های شخصی مجهز به پردازنده‌های گرافیکی انویدیا RTX به‌دست آمد. این امر به توسعه‌دهندگان کمک می‌کند تا از پایگاه نصب‌شده‌‌ بیش از 100 میلیون پردازنده‌ گرافیکی NVIDIA RTX در رایانه‌های شخصی هوش مصنوعی با کارایی بالا در سراسر جهان استفاده کنند.

همچنین، توسعه‌دهندگان می‌توانند Gemma را روی پردازنده‌های گرافیکی انویدیا در فضای ابری اجرا کنند؛ ازجمله موارد موجود در سرویس ابری گوگل روی نمونه‌های A3 با پردازنده گرافیکی H100 Tensor Core و به‌زودی پردازنده‌های گرافیکی H200 Tensor Core انویدیا که از 141 گیگابایت حافظه HBM3e با سرعت 4/8 ترابایت‌بر‌ثانیه بهره می‌برند.

علاوه‌بر‌این، توسعه‌دهندگان سازمانی می‌توانند از مجموعه‌ گسترده‌ ابزارهای انویدیا شامل NVIDIA AI Enterprise با فریم‌ورک NeMo و TensorRT-LLM برای تنظیم دقیق Gemma و استقرار مدل بهینه‌شده در برنامه‌های کاربردی تولیدی خود استفاده کنند.

01
از 01
Gemma با RTX برای چت می‌آید

در آینده، قابلیت پشتیبانی از جما به Chat with RTX (چت‌ با RTX) اضافه خواهد شد. چت با RTX فناوری‌ای آزمایشی از انویدیا است که از تولید متن تقویت‌شده با بازیابی و نرم‌افزار TensorRT-LLM برای ارائه قابلیت‌های هوش مصنوعی مولد به کاربران در رایانه‌های شخصی ویندوزی مجهز به RTX استفاده می‌کند. این قابلیت به کاربران اجازه می‌دهد تا به‌راحتی با اتصال فایل‌های محلی به یک مدل زبانی بزرگ، چت‌بات خود را شخصی‌سازی کنند.

به‌دلیل اجرای محلی مدل، نتایج به‌سرعت نمایش داده می‌شوند و داده‌های کاربر روی دستگاه باقی می‌مانند. برخلاف سرویس‌های مدل زبانی بزرگ ابری، چت با RTX به کاربران اجازه می‌دهد تا داده‌های حساس را بدون نیاز به اشتراک‌گذاری با شخص ثالث یا برقراری اتصال به اینترنت، مستقیماً روی رایانه شخصی خود پردازش کنند.

بهینه‌سازی مدل گوگل، Gemma، یک نکته هیجان‌انگیز دارد: انویدیا به‌روزرسانی‌هایی را به‌منظور بهینه‌سازی بیشتر این مدل برای پردازنده‌های گرافیکی مصرفی RTX خود نیز معرفی کرده است که گامی مهم برای توانمندسازی توسعه‌دهندگان بدون نیاز به تجهیزات پیشرفته مانند پردازنده‌های گرافیکی مخصوص هوش مصنوعی است.