انویدیا، تولیدکننده تراشههای هوش مصنوعی، بهاشتباه در طراحی تراشههای Blackwell اعتراف کرد. تراشههای Blackwell با طراحی اصلاحشده اکنون در حال تولید هستند.
بهگزارش تکناک، انویدیا نقص طراحی چیپهای AI خود را تأیید کرد و مسئولیت کامل آن را برعهده گرفت. مدیرعامل این شرکت، جنسن هوانگ، اذعان کرد که این مشکل کاملاً تقصیر انویدیا بوده و شریک تولید آنها، TSMC، هیچ نقشی در این مسئله نداشته است. این در حالی است که چیپهای اصلاحشده Blackwell اکنون وارد خطتولید انبوه شدهاند.
بهگزارش رویترز، انویدیا اعلام کرد که نقص طراحی در پردازندههای Blackwell که به کاهش بازدهی تولید منجر شده بود، چندین ماه پیش شناسایی و برطرف شده است. نسخههای بهبودیافته پردازندههای B100 و B200 بهزودی وارد تولید انبوه خواهند شد. جنسن هوانگ در مصاحبهای گفت:
ما در طراحی Blackwell مشکل داشتیم که هرچند عملکردی بود؛ اما باعث کاهش بازدهی تولید شد. این مشکل بهطور کامل تقصیر انویدیا بود.
تامزهاردور مینویسد گزارشهای اولیه حاکی از این بود که برخی رسانهها TSMC را بهعنوان مقصر معرفی و ادعا کردند که این موضوع ممکن است تنشهایی بین انویدیا و این شریک تولید ایجاد کند. بااینحال، هوانگ این ادعاها را رد کرد و تأکید کرد که مشکلات بهدلیل اشتباهات محاسباتی داخلی انویدیا ایجاد شده است. وی گزارشهای مبنیبر وجود تنش بین دو شرکت را اخبار جعلی خواند.
چیپهای B100 و B200 بلکول انویدیا با فناوری CoWoS-L شرکت TSMC ساخته شدهاند که از رابط RDL با پلهای سیلیکونی (LSI) برای انتقال دادهها با سرعت حدود ۱۰ ترابایتبرثانیه استفاده میکند.
بااینحال، گزارش شده است که نبود تطابق در خواص حرارتی بین قطعات مختلف سیستم شامل چیپلتهای GPU، پلهای LSI، رابط RDL و زیرلایه مادربرد، باعث تغییر شکل و خرابی سیستم شده بود. انویدیا بهمنظور بهبود بازدهی تولید، تغییراتی در لایههای بالایی و اتصالات چیپ سیلیکونی اعمال کرده است. این شرکت جزئیات دقیق این اصلاحات را فاش نکرد؛ اما اعلام کرد که نیاز به استفاده از ماسکهای جدید بوده است.
مشکلات تولید و مسائل عملکردی در دنیای نیمههادی غیرمعمول نیستند و معمولاً شرکتها با تغییر در لایههای فلزی این مشکلات را حل میکنند. بهعنوان مثال، پردازنده Sapphire Rapids شرکت اینتل ۵۰۰ باگ داشت و این شرکت حدود دوازده استپینگ برای رفع این مشکلات عرضه کرد. بهگفته کارشناسان، فرایند هر استپینگ حدود سه ماه زمان میبرد. در این شرایط، سرعت عمل انویدیا و TSMC در رفع مشکل چیپهای Blackwell مهم است.
طبق اعلام انویدیا، پردازندههای اصلاحشده بلکول برای استفاده در حوزههای هوش مصنوعی و ابررایانهها از اواخر اکتبر وارد تولید انبوه میشوند و انتظار میرود اوایل سال آینده میلادی که همچنان سال مالی ۲۰۲۵ انویدیا است، عرضه شوند.
بااینحال، انویدیا پیشتر اعلام کرده بود که بهمنظور تأمین تقاضای ارائهدهندگان خدمات ابری مانند AWS و گوگل و مایکروسافت پردازندههای Blackwell مجبور است تعدادی از پردازندههای اولیه با تولید محدود را در سال ۲۰۲۴ عرضه کند. هنوز مشخص نیست که چه تعداد از این پردازندهها به مراکز داده ارسال خواهد شد.