بهینهسازیهای انویدیا برای Gemma، این مدل زبانی بزرگ را به ابزاری قدرتمندتر و کارآمدتر برای طیف وسیعی از برنامهها تبدیل میکند.
بهگزارش تکناک، بهمنظور بهینهسازی مدلهای زبانی بزرگ رایج با پردازندههای گرافیکی سری RTX مجهز به هوش مصنوعی، انویدیا اخیراً سرعت پیشرفتها را افزایش داده است. این پیشرفت با بهینهسازی مدل پیشرفته Gemma متعلق به گوگل به مرحله جدیدی رسیده است.
انویدیا با همکاری گوگل، از بهینهسازیهایی برای مدلهای زبانی بزرگ و سبکوزن Gemma (با ظرفیت 2 و 7 میلیارد پارامتر) روی تمامی پلتفرمهای هوش مصنوعی انویدیا خبر داده است.
این مدلهای جدید و پیشرفته گوگل در هر دستگاهی اجرا میشوند و با کاهش هزینهها، نوآوری و کارهای خلاقانه را در حوزههای تخصصی سرعت میبخشند. بهنقل از wccftech، تیمهای هر دو شرکت برای تسریع عملکرد Gemma که با همان تحقیقات و فناوری استفادهشده در ساخت مدلهای جمینی ساخته شده است، همکاری تنگاتنگی کردند.
این تسریع با استفاده از TensorRT-LLM انویدیا، کتابخانهای منبعباز برای بهینهسازی استنتاج مدلهای زبانی بزرگ، هنگام اجرا روی پردازندههای گرافیکی انویدیا در مراکز داده و کلود و رایانههای شخصی مجهز به پردازندههای گرافیکی انویدیا RTX بهدست آمد. این امر به توسعهدهندگان کمک میکند تا از پایگاه نصبشده بیش از 100 میلیون پردازنده گرافیکی NVIDIA RTX در رایانههای شخصی هوش مصنوعی با کارایی بالا در سراسر جهان استفاده کنند.
همچنین، توسعهدهندگان میتوانند Gemma را روی پردازندههای گرافیکی انویدیا در فضای ابری اجرا کنند؛ ازجمله موارد موجود در سرویس ابری گوگل روی نمونههای A3 با پردازنده گرافیکی H100 Tensor Core و بهزودی پردازندههای گرافیکی H200 Tensor Core انویدیا که از 141 گیگابایت حافظه HBM3e با سرعت 4/8 ترابایتبرثانیه بهره میبرند.
علاوهبراین، توسعهدهندگان سازمانی میتوانند از مجموعه گسترده ابزارهای انویدیا شامل NVIDIA AI Enterprise با فریمورک NeMo و TensorRT-LLM برای تنظیم دقیق Gemma و استقرار مدل بهینهشده در برنامههای کاربردی تولیدی خود استفاده کنند.
Gemma با RTX برای چت میآید
در آینده، قابلیت پشتیبانی از جما به Chat with RTX (چت با RTX) اضافه خواهد شد. چت با RTX فناوریای آزمایشی از انویدیا است که از تولید متن تقویتشده با بازیابی و نرمافزار TensorRT-LLM برای ارائه قابلیتهای هوش مصنوعی مولد به کاربران در رایانههای شخصی ویندوزی مجهز به RTX استفاده میکند. این قابلیت به کاربران اجازه میدهد تا بهراحتی با اتصال فایلهای محلی به یک مدل زبانی بزرگ، چتبات خود را شخصیسازی کنند.
بهدلیل اجرای محلی مدل، نتایج بهسرعت نمایش داده میشوند و دادههای کاربر روی دستگاه باقی میمانند. برخلاف سرویسهای مدل زبانی بزرگ ابری، چت با RTX به کاربران اجازه میدهد تا دادههای حساس را بدون نیاز به اشتراکگذاری با شخص ثالث یا برقراری اتصال به اینترنت، مستقیماً روی رایانه شخصی خود پردازش کنند.
بهینهسازی مدل گوگل، Gemma، یک نکته هیجانانگیز دارد: انویدیا بهروزرسانیهایی را بهمنظور بهینهسازی بیشتر این مدل برای پردازندههای گرافیکی مصرفی RTX خود نیز معرفی کرده است که گامی مهم برای توانمندسازی توسعهدهندگان بدون نیاز به تجهیزات پیشرفته مانند پردازندههای گرافیکی مخصوص هوش مصنوعی است.