پردازنده گرافیکی H100 انویدیا دو برابر سریع‌تر از MI300X ای‌ام‌دی است

H100

شرکت انویدیا مدعی است که پردازنده گرافیکی H100 انویدیا دو برابر سریع‌تر از MI300X ای‌ام‌دی است و ای‌ام‌دی از نرم‌افزار بهینه‌شده برای دستگاه DGX H100 استفاده نکرده است.

به‌گزارش تک‌ناک، هنگام عرضه Instinct MI300X، ای‌ام‌دی ادعا کرد که جدیدترین پردازنده گرافیکی‌اش برای هوش مصنوعی (AI) و محاسبات با عملکرد بالا (HPC)، در بارگیری‌های استنتاجی بسیار سریع‌تر از پردازنده گرافیکی H100 انویدیاست. بااین‌حال، هفته‌ گذشته انویدیا نشان داد که وضعیت کاملاً برعکس است. این شرعکت ادعا می‌کند با بهینه‌سازی مناسب، سرورهای مبتنی‌بر H100 از سرورهای Instinct MI300X سریع‌تر هستند.

تامزهاردور گزارش می‌دهد که انویدیا ادعا می‌کند ای‌ام‌دی از نرم‌افزار بهینه‌شده برای دستگاه DGX H100 استفاده نکرده است و برای مقایسه عملکرد آن با سرور مبتنی‌بر Instinct MI300X استفاده شده است. شرکت یادشده اشاره می‌کند که عملکرد مطلوب هوش مصنوعی به چهارچوب محاسبات موازی قوی، مجموعه‌ای از ابزارهای چندمنظوره، الگوریتم‌های بسیار به‌روز‌شده و سخت‌افزار عالی وابسته است. به‌گفته انویدیا، بدون هر‌یک از این شاخص‌ها، عملکرد ضعیف خواهد بود.

انویدیا می‌افزاید ویژگی‌های TensorRT-LLM شامل بهینه‌سازی‌های پیشرفته در سطح کرنل برای معماری Hopper است که عاملی حیاتی برای عملکرد پردازنده‌های گرافیکی H100 و مشابه آن محسوب می‌شود. این تنظیم دقیق امکان اجرای عملیات شتاب‌دهنده FP8 روی پردازنده‌های گرافیکی H100 با مدل‌هایی مانند Llama 2 70B را بدون کاهش دقت استنتاج‌ها فراهم می‌کند.

انویدیا برای اثبات حرف خود، معیارهای عملکرد را برای سرور DGX H100 با ۸ پردازنده گرافیکی H100 ارائه داد که مدل Llama 2 70B را اجرا می‌کند. DGX H100 وظیفه استنتاجی را زمانی‌که به اندازه یک دسته (Batch) تنظیم شده است، می‌تواند تنها در 1.7 ثانیه به‌اتمام برساند.

این یعنی هر درخواست را هم‌زمان پردازش می‌کند که درمقایسه‌با ماشین هشت‌گانه MI300X ای‌ام‌دی با زمان 2.5 ثانیه (بر اساس اعداد منتشر‌شده ای‌ام‌دی) کمتر است. این تنظیمات سریع‌ترین پاسخ را برای پردازش مدل ارائه می‌دهد.

به‌طور‌کلی، به‌منظور توازن بین زمان پاسخ و کارایی کلی، خدمات ابری اغلب از زمان پاسخ استانداردی برای برخی از وظایف (مانند 2.0 و 2.3 و 2.5 ثانیه در نمودار) استفاده می‌کنند. این رویکرد به آن‌ها امکان می‌دهد تا چندین درخواست استنتاج را هم‌زمان در دسته‌های بزرگ‌تر پردازش کنند و در‌نتیجه، تعداد کل استنتاج‌های روی سرور در هر ثانیه را افزایش دهند. این روش اندازه‌گیری عملکرد که شامل زمان پاسخ مشخصی است، استانداردی رایج در بنچمارک‌های صنعتی مانند MLPerf است.

حتی اصلاحات کوچک در زمان پاسخ می‌توانند تعداد استنتاج‌هایی را بسیار افزایش دهد که سرور هم‌زمان مدیریت می‌کند. به‌عنوان مثال، با زمان پاسخ تعیین‌شده 2.5 ثانیه، سرور DGX H100 هشت‌گانه می‌تواند بیش از ۵ استنتاج Llama 2 70B را در هر ثانیه انجام دهد. این افزایش درخورتوجهی درمقایسه‌با پردازش کمتر از یک استنتاج در ثانیه با تنظیمات یک دسته (Batch-One) است. در‌عین‌حال، انویدیا عددی برای Instinct MI300X ای‌ام‌دی در زمان اندازه‌گیری عملکرد در این تنظیمات نداشت.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار جدید تک‌ناک را از دست ندهید.