شرکت انویدیا با پردازش بیش از ۱,۰۳۸ توکن در ثانیه برای هر کاربر، رکورد جهانی جدیدی را در حوزه هوش مصنوعی به ثبت رساند.
به گزارش تکناک، این رکورد در سرعت پاسخگویی هوش مصنوعی با استفاده از نود پیشرفته DGX B200 و پردازندههای گرافیکی Blackwell در همکاری با مدل زبانی Llama 4 Maverick از شرکت متا بهدست آمده است.
طبق این گزارش، عملکرد انویدیا ۳۱ درصد بالاتر از رکورد پیشین متعلق به شرکت SambaNova بوده است، که پیش از این موفق به ثبت عدد ۷۹۲ توکن بر ثانیه برای هر کاربر شده بود. در مقایسه، شرکتهایی مانند آمازون و Groq امتیازهایی نزدیک به ۳۰۰ توکن ثبت کردهاند و سایر رقبا نظیر Fireworks، Lambda Labs، Google Vertex، Deepinfra و Azure همگی زیر ۲۰۰ توکن بر ثانیه عملکرد داشتهاند.
فهرست مطالب
راز موفقیت انویدیا در پردازش هوش مصنوعی
رکوردشکنی Blackwell تنها به سختافزار متکی نبوده، بلکه نتیجه مجموعهای از بهینهسازیهای پیشرفته نرمافزاری بوده است. شرکت انویدیا از ابزار TensorRT و روش speculative decoding با تکنیک Eagle-3 برای پیشبینی توکنها قبل از پردازش واقعی استفاده کرده است، تکنیکی که به تنهایی باعث چهار برابر شدن افزایش عملکرد نسبت به رکوردهای پیشین این سیستم شده است.
همچنین استفاده از دادههای FP8 به جای BF16، بهینهسازی عملیات توجه (Attention) و بهرهگیری از ساختار نوآورانه Mixture of Experts (که نخستین بار در مدل DeepSeek R1 معرفی شد)، باعث افزایش چشمگیر دقت و کارایی شدهاند.
در سطح پایینتر، مهندسان انویدیا نیز دست به تغییراتی در هسته CUDA زدهاند و با تکنیکهایی نظیر spatial partitioning و GEMM weight shuffling موفق به استخراج حداکثر توان از سختافزار شدهاند.

چرا TPS/user مهم است؟
عبارت TPS/user که مخفف «توکن بر ثانیه برای هر کاربر» است، یکی از مهمترین معیارهای سنجش عملکرد مدلهای زبانی هوش مصنوعی بهویژه در کاربردهای کاربرمحور مانند چتباتها (از جمله ChatGPT و Copilot) به حساب میآید. این معیار به جای ارزیابی در شرایط دستهای (batch)، بر توانایی پاسخدهی سریع به درخواستهای تککاربره تمرکز دارد، که عاملی کلیدی برای بهبود تجربه واقعی کاربر است.