مرکز ملی اَبَررایانه در ووکسی چین اَبَررایانهی جدید خود با نام Sunway SW26010 Pro را رونمایی کرد. این دستگاه به 384 هستهی پردازندهی پیشرفته تولید داخل مجهز است.
بهگزارش تکناک و بهنقل از Chips and Cheese، پردازندهی Sunway SW26010 Pro نهتنها ازنظر تعداد هستهها برتر از نسخهی غیر پرو، یعنی SW26010 است؛ بلکه با بهرهمندی از پیشرفتهای معماری میکرو بهبود عملکرد چهاربرابری را ارائه میدهد. بااینحال، این پردازندهی Manycore با وجود قابلیتهای فراوان روی کاغذ، چندین محدودیت عملکردی دارد.
جزئیات اولیه دربارهی پردازندهی مانیکور Sunway SW26010 Pro و اَبَررایانههای مبتنیبر آن در سال 2021 منتشر شدند. اخیراً در کنفرانس SC23، این شرکت پردازندههای واقعی را بهنمایش گذاشت و جزئیات بیشتری از معماری و طراحی آنها را فاش کرد که نشاندهندهی پیشرفت چشمگیری در عملکرد است.
انتظار میرود این پردازندهی جدید امکان تولید اَبَررایانههای بسیار قدرتمند با استفاده از پردازندههای ساخت داخل را برای چین فراهم کند. هر پردازندهی Sunway SW26010 Pro حداکثر عملکرد FP64 با 13.8 ترافلاپس ارائه میدهد که روی کاغذ بسیار عالی است. در مقام مقایسه، حداکثر عملکرد FP64 پردازندهی 96هستهای EPYC 9654 ایامدی به 5.4 ترافلاپس میرسد.
CPU | Compute Cores | FP64 | FP32 |
SW26010-Pro | 384 | 13.8 TFLOPS | 27.6 TFLOPS |
SW26010 | 256 | 2.9 TFLOPS | 5.8 TFLOPS |
A64FX | 48 | 3 TFLOPS | 6 TFLOPS |
MI250X (Single GCD) | 110 | 23.9 TFLOPS | 23.9 TFLOPS | 47.8 TFLOPS (packed) |
پردازندهی Sunway SW26010 Pro بهعنوان نسل تکاملیافتهی نسخهی اصلی SW26010، معماری بنیادین خود را حفظ کرده است؛ اما با معرفی چندین بهبود شاخص، تفاوتهای مهمی دارد. این پردازندهی جدید برپایهی معماری RISC اختصاصی و نوآورانهی ۶۴بیتی ساخته شده است. این معماری شامل شش گروه هسته (CG) و یک واحد پردازش پروتکل (PPU) است.
هر گروه هسته در Sunway SW26010 Pro از ۶۴ عنصر پردازش محاسباتی (CPE) با پهنای ۲ واید تشکیل شده است. این CPEها به موتور بُرداری ۵۱۲بیتی و ۲۵۶ کیلوبایت حافظهی محلی سریع (کش اسکرچپد) برای دادهها و ۱۶ کیلوبایت برای دستورالعملها مجهزند.
علاوهبراین، هر CG متشکل از یک عنصر پردازش مدیریتی (MPE) است. این MPE یک هستهی اوت-اوف-آردر ابراسکالار با موتور بُرداری و ۳۲ کیلوبایت کش دستورالعمل/داده L1 و ۲۵۶ کیلوبایت کش L2 را در خود جای داده است.
ازنظر رابط حافظه، پردازندهی Sunway SW26010 Pro با رابط حافظهی DDR4-3200 با پهنای باند ۱۲۸بیتی تجهیز شده است. این ویژگیها نشاندهندهی پیشرفتهای مهم در قدرت پردازشی و کارایی درمقایسهبا نسل قبلی هستند.
پردازندههای MPE و CPE در SW26010 Pro از پروتکل مبتنیبر دایرکتوری برای تسهیل اشتراکگذاری دادههای هماهنگ استفاده میکنند. این سیستم به کاهش حرکت دادهها بین هستهها و پشتیبانی از همکاری دقیق بین هستههای مختلف کمک میکند.
این امر برای برنامههایی با دسترسی نامنظم بهاشتراکگذاری دادهها حیاتی است. با داشتن شش CPE در هر CG، پردازندهی Sunway SW26010 Pro از 384 CPE و شش MPE بهره میبرد که درمجموع به 390 هسته و یک PPU میرسد.
پردازندهی SW26010 Pro نهتنها با سرعتهای بیشتر از مدل قبلی کار میکند (CPEها با سرعت 2.25 گیگاهرتز و MPEها با 2.10 گیگاهرتز)؛ بلکه معماری میکرو 64بیتی RISC جدید نیز برای چهار برابر افزایش ظرفیت پردازش دادههای FP64 کاملاً بازطراحی شده است.
برای افزایش پهنای باند حافظهی دراختیار هستههای جدید، طراحان کنترلرهای حافظهی DDR3 را به DDR4 ارتقا دادهاند که پهنای باند و ظرفیت حافظه را افزایش درخورتوجهی میدهد.
هر CG در پردازندهی جدید به 16 گیگابایت حافظهی DDR4 مجهز شده است که دو برابر 8 گیگابایت حافظهی DDR3 موجود در هر خوشه از SW26010 است. این افزایش بهبود کل حافظهی پشتیبانیشدهی پردازنده را از 32 گیگابایت در SW26010 به 96 گیگابایت در SW26010 Pro نشان میدهد.
با وجود پیشرفتهای مهم در پردازندههای SW26010 و SW26010-Pro، هر دو پردازنده با محدودیتی مشترک در زیرسیستم کش و حافظهشان مواجهاند. درحالیکه Sunway SW26010 Pro تلاش کرده است با افزایش ظرفیت کش اسکرچپد به 256 کیلوبایت (از 64 کیلوبایت در SW26010)، این محدودیت را تا حدی رفع کند، این ظرفیت در شرایط نبود L2 مناسب همچنان ناکافی است. این مسئله باعث ایجاد محدودیت عملکردی اصلی در هر دو پردازنده میشود.
همچنین، زیرسیستم حافظهی دوکانالهی DDR4-3200 با پهنای باند 51.2 گیگابایتبرثانیه برای 64 هسته با FPU بُرداری 512بیتی که توانایی انجام تا 16 FLOPS FP64 در هر چرخه را دارند، بهسختی کافی است. این مسئله نیز بهعنوان یکی دیگر از محدودیتهای اصلی در نظر گرفته میشود.
Sunway SW26010 Pro گام روبهجلو مهمی درمقایسهبا SW26010 است؛ بهویژه در زمینههایی مانند ظرفیت حافظه و تراکم محاسباتی و عملکرد کلی. این بهبودها نشاندهندهی رشد توانمندیهای چین درزمینه سوپرکامپیوتینگ هستند.
اگرچه با بهینهسازیهای نرمافزاری مشکلات پردازندهی موجود را کاهش داد، این راهحلها ازنظر زمانی و مالی پرهزینه هستند. بنابراین، هنوز مشخص نیست که آیا SW26010 Pro میتواند سیستمهایی را برای حل مسائل پیچیدهی دنیای واقعی و ارائهی سطوح عملکردی واقعی ExaFLOPS بسازد یا خیر.