کارتهای گرافیک پرچمدار انویدیا شامل GeForce RTX 5090 و RTX PRO 6000 با یک باگ جدید در حوزه مجازیسازی روبهرو شدهاند که باعث میشود این سختافزارها پس از مدتی استفاده در ماشینهای مجازی، کاملاً از دسترس خارج شوند.
به گزارش تک ناک؛ شرکت CloudRift، ارائهدهنده خدمات پردازش ابری با GPU برای توسعهدهندگان، نخستین بار این مشکل را گزارش داد. بنا بر اعلام این شرکت، پس از چند روز استفاده در محیطهای مجازی، کارتهای مذکور به طور کامل غیرقابلدسترس میشوند و تنها با راهاندازی مجدد کل سیستم امکان بازگشت آنها وجود دارد.
در حالی که این مشکل برای مدلهایی مانند RTX 4090، Hopper H100 و Blackwell B200 مشاهده نشده است، به نظر میرسد صرفاً کارتهای RTX 5090 و RTX PRO 6000 را تحت تأثیر قرار میدهد.
این اختلال بهطور خاص زمانی بروز میکند که GPU با استفاده از درایور VFIO به یک محیط مجازی تخصیص داده شده و پس از اجرای «ریست در سطح عملکرد» (FLR) دیگر هیچ پاسخی دریافت نمیشود. پیامد آن ایجاد قفل نرم در هسته سیستم است که موجب بنبست میان محیط میزبان و کلاینت میشود. برای رفع این وضعیت، راهاندازی مجدد ماشین میزبان الزامی است؛ اقدامی که با توجه به تعداد زیاد ماشینهای مهمان برای CloudRift روندی دشوار محسوب میشود.

مشکل یادشده محدود به CloudRift نیست. یکی از کاربران در پلتفرم Proxmox نیز گزارش کرده پس از خاموش کردن یک کلاینت ویندوز، میزبان او به طور کامل از کار افتاده است. به گفته وی، انویدیا ضمن پاسخ به این گزارش اعلام کرده که توانسته مشکل را بازتولید کند و در حال کار روی راهحل است. هرچند هنوز تأیید رسمی منتشر نشده، شواهد نشان میدهد که این نقص مختص GPUهای مبتنی بر معماری Blackwell است.
در همین حال، CloudRift جایزهای معادل ۱۰۰۰ دلار برای هر کسی که بتواند راهحلی برای رفع یا کاهش این مشکل ارائه دهد تعیین کرده است. انتظار میرود انویدیا نیز بهزودی اصلاحیهای منتشر کند؛ چرا که این نقص میتواند بارهای کاری حیاتی مرتبط با هوش مصنوعی را تحت تأثیر قرار دهد.