اندری کارپاتی، مدیر سابق هوش مصنوعی تسلا، با استفاده از کد منبع جدیدی به نام llm.c، مدل زبانی GPT-2 را در ۲۴ ساعت و با هزینهی فقط ۶۷۲ دلار بازتولید کرد.
بهگزارش تکناک، شرکت OpenAI در سال ۲۰۱۹ مدل GPT-2 را معرفی کرد. در آن زمان، گزارش شده بود که هزینهی آموزش این هوش مصنوعی ۲۵۶ دلار در ساعت بود. بااینحال، از آن زمان پنج سال گذشته و اکنون به GPT-4 رسیدهایم. همانطورکه آندره کارپاتی، توسعهدهندهی پروژهی بازتولید GPT-2 در llm.c، ثابت کرده، پیشرفت در سختافزار و نرمافزار و دادهها بدینمعنی است که آموزش همان مدل زمان و هزینهی کمتری میبرد.
تامزهاردور مینویسد که عامل اصلی کاهش هزینه استفاده از گره 8XH100 واحد برای آموزش است که هزینه را به تنها ۲۸ دلار در ساعت کاهش میدهد؛ یعنی تقریباً ۹۰ درصد کاهش در کمتر از پنج سال. انویدیا پردازندهی H100 را در سال ۲۰۲۳ معرفی کرد؛ بنابراین، OpenAI احتمالاً از سختافزار با قدرت بسیار کمتر هنگام شروع کار روی GPT-2 استفاده کرده است. بااینحال، تعداد ساعتهای صرفشده برای آموزش GPT-2 مشخص نیست. در مقام مقایسه، هزینهی آموزش GPT-4 بیش از ۱۰۰ میلیون دلار برآورد شده است.
یکی دیگر از عواملی که باعث شد آموزش llm.c بسیار سریعتر انجام شود، پیادهسازی مستقیم آموزش GPT در آن است. پروژهی llm.c ابتدا بهعنوان بخشی از ویدئویی آموزشی شروع شد؛ اما بهزودی به چیزی تبدیل شد که کارپاتی پس از «گیرکردن با برخی موارد PyTorch» از ابتدا ساخت. این نشاندهندهی علاقهی کارپاتی به هوش مصنوعی و تلاشهایی است که برای تکمیل پروژهی خود انجام داده است. بااینحال، وی این کار را بهتنهایی انجام نداد و از حمایت چندین توسعهدهنده از سراسر جهان برخوردار بود.
پیشرفت در سختافزار و نرمافزار و دادههای آموزشی بدینمعنی نیست که آموزش پیشرفتهی هوش مصنوعی ارزانتر میشود. داریو آمودئی، مدیرعامل آنتروپیک (Anthropic)، گفت مدلهای هوش مصنوعی که امروز آموزش میبینند، درحالحاضر ۱ میلیارد دلار هزینه دارند و مدلهای گرانتر تا سال ۲۰۲۵ به ۱۰۰ میلیارد دلار میرسند.
دلیل این افزایش هزینهها آن است که اگرچه سختافزارها قدرتمندتر میشوند، قیمتشان نیز افزایش مییابد. برای مثال، هر پردازندهی H100 انویدیا درحالحاضر ۴۰ هزار دلار قیمت دارد. همچنین، انتظار میرود که نسل بعدی چیپهای هوش مصنوعی بلکول (Blackwell) با قیمت ۷۰ هزار دلار فروخته شوند و رک کامل سرور به ۳ میلیون دلار یا بیشتر برسد؛ مگر اینکه پیشرفتهای سختافزاری مانند چیپ هوش مصنوعی Sohu، ایسیک (ASIC) طراحیشدهی مخصوص ترانسفورمرها، پیدا کنیم.
علاوهبر پیامدهای هزینه، افزایش نیازهای انرژی مراکز داده هوش مصنوعی برخی از متخصصان را نگران کرده است. فقط یک چیپ H100 با نرخ استفاده سالانهی متوسط ۶۱ درصد، سالانهی ۳/۷ مگاواتساعت برق مصرف میکند. با فروش بیش از ۳/۸ میلیون GPU هوش مصنوعی انویدیا و سایر شرکتها در سال گذشته، این میزان به ۱۴/۳ تراوات ساعت برق در سال میرسد؛ درست بهاندازهی تأمین برق ۱/۳ میلیون خانوار متوسط آمریکایی.
بااینهمه حتی با تمام پول و انرژی صرفشده برای هوش مصنوعی، مدیرعامل دیپمایند گوگل میگوید که مدلهای فعلی هنوز در سطح IQ گربه هستند؛ بنابراین، هنوز باید میلیاردها دلار دیگر در مدلهای آینده سرمایهگذاری کنیم. بااینحال، اگر میخواهید مدل زبان بزرگ خود را با استفاده از مدلهای قدیمیتر بسازید، به صرف سرمایهای هنگفت نیازی ندارید؛ بلکه فقط هوش لازم برای ایجاد زبان و چندصد دلار کافی است.