شکستن رکورد جهانی پردازش هوش مصنوعی توسط انویدیا

شرکت انویدیا با پردازش بیش از ۱,۰۳۸ توکن در ثانیه برای هر کاربر، رکورد جهانی جدیدی را در حوزه هوش مصنوعی به ثبت رساند.

به گزارش تک‌ناک، این رکورد در سرعت پاسخگویی هوش مصنوعی با استفاده از نود پیشرفته‌ DGX B200 و پردازنده‌های گرافیکی Blackwell در همکاری با مدل زبانی Llama 4 Maverick از شرکت متا به‌دست آمده است.

طبق این گزارش، عملکرد انویدیا ۳۱ درصد بالاتر از رکورد پیشین متعلق به شرکت SambaNova بوده است، که پیش از این موفق به ثبت عدد ۷۹۲ توکن بر ثانیه برای هر کاربر شده بود. در مقایسه، شرکت‌هایی مانند آمازون و Groq امتیازهایی نزدیک به ۳۰۰ توکن ثبت کرده‌اند و سایر رقبا نظیر Fireworks، Lambda Labs، Google Vertex، Deepinfra و Azure همگی زیر ۲۰۰ توکن بر ثانیه عملکرد داشته‌اند.

01
از 02
راز موفقیت انویدیا در پردازش هوش مصنوعی

رکوردشکنی Blackwell تنها به سخت‌افزار متکی نبوده، بلکه نتیجه‌ مجموعه‌ای از بهینه‌سازی‌های پیشرفته‌ نرم‌افزاری بوده است. شرکت انویدیا از ابزار TensorRT و روش speculative decoding با تکنیک Eagle-3 برای پیش‌بینی توکن‌ها قبل از پردازش واقعی استفاده کرده است، تکنیکی که به تنهایی باعث چهار برابر شدن افزایش عملکرد نسبت به رکوردهای پیشین این سیستم شده است.

همچنین استفاده از داده‌های FP8 به جای BF16، بهینه‌سازی عملیات توجه (Attention) و بهره‌گیری از ساختار نوآورانه‌ Mixture of Experts (که نخستین بار در مدل DeepSeek R1 معرفی شد)، باعث افزایش چشمگیر دقت و کارایی شده‌اند.

در سطح پایین‌تر، مهندسان انویدیا نیز دست به تغییراتی در هسته CUDA زده‌اند و با تکنیک‌هایی نظیر spatial partitioning و GEMM weight shuffling موفق به استخراج حداکثر توان از سخت‌افزار شده‌اند.

رکورد جهانی پردازش هوش مصنوعی توسط انویدیا شکسته شد

02
از 02
چرا TPS/user مهم است؟

عبارت TPS/user که مخفف «توکن بر ثانیه برای هر کاربر» است، یکی از مهم‌ترین معیارهای سنجش عملکرد مدل‌های زبانی هوش مصنوعی به‌ویژه در کاربردهای کاربرمحور مانند چت‌بات‌ها (از جمله ChatGPT و Copilot) به حساب می‌آید. این معیار به جای ارزیابی در شرایط دسته‌ای (batch)، بر توانایی پاسخ‌دهی سریع به درخواست‌های تک‌کاربره تمرکز دارد، که عاملی کلیدی برای بهبود تجربه‌ واقعی کاربر است.

برچسب‌ها: p6