افزایش ظرفیت VRAM با استفاده از SSDهای متصل به PCIe

افزایش ظرفیت VRAM

کارت‌های گرافیک (GPU) حالا می‌توانند از حافظه یا SSD‌های متصل به PCIe برای افزایش ظرفیت حافظه VRAM استفاده کنند.

به‌گزارش تک‌ناک، کارت‌های گرافیک پیشرفته برای هوش مصنوعی (AI) و محاسبات با کارایی بالا (HPC) با مقدار محدودی از حافظه‌ی پهنای باند بالا (HBM) ساخته می‌شوند که روی خود کارت گرافیک قرار دارد. این محدودیت بر عملکرد آن‌ها در هوش مصنوعی و سایر کارها تأثیر می‌گذارد.

با‌این‌حال، فناوری جدیدی به شرکت‌ها امکان می‌دهد تا ظرفیت حافظه‌ی کارت گرافیک را با اتصال حافظه‌های بیشتر به باس PCIe افزایش دهند، به‌جای اینکه کاملاً به حافظه‌ی داخلی آن محدود باشند. این فناوری حتی امکان استفاده از SSD‌ها را نیز برای افزایش ظرفیت حافظه فراهم می‌کند.

تامزهاردور می‌نویسد شرکت Panmnesia که مؤسسه‌ی تحقیقاتی مشهور KAIST کره‌جنوبی از آن پشتیبانی می‌کند، یک IP با تأخیر کم CXL توسعه داده است که می‌تواند برای گسترش حافظه‌ی کارت گرافیک با استفاده از توسعه‌دهنده‌های حافظه CXL استفاده شود.

افزایش ظرفیت VRAM

نیاز به حافظه برای مجموعه داده‌های پیشرفته‌تر در آموزش هوش مصنوعی به‌سرعت در حال افزایش است. این یعنی شرکت‌های فعال در حوزه‌ی هوش مصنوعی یا مجبورند کارت‌های گرافیک‌ جدید بخرند یا از مجموعه داده‌های ساده‌تر یا از حافظه‌ی CPU به قیمت افت عملکرد استفاده کنند.

اگرچه CXL پروتکلی است که به‌طور رسمی روی لینک PCIe کار می‌کند و به کاربران امکان می‌دهد تا حافظه‌ی بیشتری را از‌طریق باس PCIe به سیستم متصل کنند، این فناوری باید به‌واسطه‌ی مدار مجتمع خاص (ASIC) و زیرسیستم آن شناسایی شود. بنابراین، صرفاً اضافه‌کردن کنترل‌کننده‌ی CXL برای راه‌اندازی این فناوری کافی نیست، به‌خصوص روی یک  کارت گرافیک.

شرکت Panmnesia با مشکلاتی در‌زمینه‌ی ادغام CXL برای گسترش حافظه‌ی کارت گرافیک مواجه بود؛ زیرا هیچ زیرساخت و زیرسیستمی منطقی CXL وجود نداشت که از انتهای خطوط حافظه‌ی رم (DRAM) یا SSD در کارت‌های گرافیک پشتیبانی کند. علاوه‌بر‌این، حافظه‌ی نهان (Cache) و زیرسیستم‌های حافظه‌ی کارت گرافیک هیچ‌گونه توسعه‌ای را به‌جز حافظه‌ی مجازی یکپارچه (UVM) که کُند عمل می‌کند، تشخیص نمی‌دهند.

افزایش ظرفیت VRAM

برای حل این مشکل، Panmnesia ریشه‌ی مجتمع (Root Complex) سازگار با CXL 3.1 را توسعه داده است که به چندین پورت ریشه (Root Port) مجهز است و از حافظه‌ی خارجی روی رابط PCIe پشتیبانی می‌کند. این ریشه مجتمع به پل میزبان (Host Bridge) با رمزگشای حافظه‌ی دستگاه مدیریت‌شده‌ی میزبان (Host-Managed Device Memory – HDM) نیز مجهز است که به باس سیستم پردازنده‌ی گرافیک متصل می‌شود.

رمزگشای HDM مسئول مدیریت محدوده‌ی آدرس‌های حافظه سیستم است و اساساً باعث می‌شود تا زیرسیستم حافظه‌ی پردازنده‌ی گرافیک تصور کند که با حافظه‌ی سیستم کار می‌کند؛ در‌حالی‌که در واقعیت این زیرسیستم از حافظه‌ی رم (DRAM) یا حافظه‌ی فلش (NAND) متصل به رابط PCIe استفاده می‌کند. این یعنی می‌توان از هر دو حافظه‌ی DDR5 یا SSD برای افزایش حجم حافظه‌ی کارت گرافیک استفاده کرد.

افزایش ظرفیت VRAM

این راه‌حل بر‌اساس پردازنده‌ی گرافیکی سفارشی و با عنوان CXL-Opt علامت‌گذاری شده و آزمایش‌های گسترده‌ای را پشت‌سر گذاشته است و تأخیر رفت‌و‌برگشتی دو‌رقمی نانوثانیه را نشان می‌دهد. در‌مقایسه‌با 250 نانوثانیه برای نمونه‌های اولیه‌ای که سامسونگ و متا توسعه داده‌اند و در نمودارهای زیر با عنوان CXL-Proto مشخص شده‌اند.

این تأخیر شامل زمان موردنیاز برای تبدیل پروتکل بین عملیات حافظه‌ی استاندارد و انتقالات بسته‌ای CXL (CXL flit) است. این فناوری با موفقیت در هر دو توسعه‌دهنده‌ی حافظه و نمونه‌های اولیه‌ی پردازنده‌ی گرافیک/پردازنده‌ی مرکزی در سطح RTL سخت‌افزاری ادغام شده است و سازگاری آن را با سخت‌افزار محاسباتی مختلف نشان می‌دهد.

افزایش ظرفیت VRAM

همان‌طورکه Panmnesia آزمایش کرده است، UVM به‌دلیل سربار ناشی از دخالت زمان اجرای میزبان در هنگام خطاهای صفحه و انتقال داده در سطح صفحه که اغلب فراتر از نیازهای کارت گرافیک است، بدترین عملکرد را در بین تمامی هسته‌های گرافیکی آزمایش‌شده نشان می‌دهد. درمقابل CXL با استفاده از دستورهای بارگذاری/ذخیره‌سازی، دسترسی مستقیم به حافظه‌ی توسعه‌یافته را امکان‌پذیر و این مشکلات را برطرف می‌کند.

در‌نتیجه، زمان اجرای CXL-Proto به‌اندازه‌ی 1/94 برابر سریع‌تر از UVM است. CXL-Opt شرکت Panmnesia با داشتن کنترل‌کننده‌ی بهینه که تأخیر دو‌رقمی نانوثانیه را به‌دست می‌آورد و تأخیر خواندن/نوشتن را به‌حداقل می‌رساند، زمان اجرای پردازش را 1/66 برابر دیگر کاهش می‌دهد.

این الگو در نمودار دیگری نیز مشهود است که مقادیر IPC ثبت‌شده در طول اجرای هسته گرافیکی را نشان می‌دهد. این نمودار نشان می‌دهد که CXL-Opt شرکت Panmnesia به‌ترتیب 3/22 و 1/65 برابر سریع‌تر از UVM و CXL-Proto عمل می‌کند.

به‌طور کلی، پشتیبانی از CXL می‌تواند مزایای زیادی برای کارت‌های گرافیک هوش مصنوعی (AI) و محاسبات با کارایی بالا (HPC) به‌همراه داشته باشد؛ اما عملکرد همچنان سؤالی بزرگ است. علاوه‌بر‌این، هنوز مشخص نیست که شرکت‌هایی مانند AMD و انویدیا از CXL در کارت‌های گرافیک خود پشتیبانی خواهند کرد یا خیر.

اگر رویکرد استفاده از حافظه‌ی متصل به PCIe برای کارت‌های گرافیک با استقبال روبه‌رو شود، تنها زمان نشان خواهد داد که بازیگران اصلی این صنعت از بلوک‌های IP شرکت‌هایی مانند Panmnesia استفاده خواهند کرد یا به‌سادگی فناوری خود را توسعه خواهند داد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

technoc-instagram