جدیدترین محصول انویدیا متن را به مدل‎های سه بعدی تبدیل می‌کند

محققان انویدیا روز جمعه، برنامه هوش مصنوعی Magic3D را معرفی کردند که می تواند مدل های سه بعدی را از توضیحات متن تولید کند.

به گزارش تکناک، برنامه Magic3D پس از وارد کردن پیامی مانند “قورباغه آبی سمی روی نیلوفر آبی نشسته است” یک مدل مش سه بعدی، کامل با بافت رنگی، در حدود 40 دقیقه تولید می کند. با تغییراتی، مدل به دست آمده را می توان در بازی های ویدیویی یا صحنه های هنری CGI استفاده کرد.

انویدیا در مقاله آکادمیک خود، Magic3D را به عنوان پاسخی به DreamFusion، یک مدل تبدیل متن به مدل سه بعدی که محققان گوگل در ماه سپتامبر آن را معرفی کردند دسته بندی میکند.

DreamFusion با استفاده از یک مدل متن به تصویر ابتدا یک تصویر دوبعدی را تولید کرده، سپس این تصویر دو بعدی را به داده های حجمی NeRF (میدان تابش عصبی) بهینه سازی میکند.، Magic3D برای تولید تصویر سه بعدی از متن از یک فرآیند دو مرحله ای استفاده می کند . ابتدا یک مدل درشت تولید شده با وضوح پایین را تولید میکند سپس این مدل را با افزودن رنگ و افزایش وضوح بهبود می بخشد.

ویرایش سریع مش های سه بعدی در مدل هوش مصنوعی Magic3D به صورت promt-Base (مبتنی بر خط فرمان) است. با توجه به این که مدل هوش مصنوعی Magic3D ابتدا برای تولید مدل سه بعدی نهایی ، یک مدل سه بعدی با وضوح پایین با خط فرمان ایجاد می کند، ضمن آنکه امکان تغییر متن برای تغییر مدل نیز وجود دارد.

همچنین، طراحان Magic3D حفظ یک موضوع را در چندین مرحله تولید تصویر (مفهومی که اغلب انسجام نامیده می شود) و استفاده از سبک یک تصویر دو بعدی (مانند یک نقاشی کوبیسم) در یک مدل سه بعدی نشان می دهند.

انویدیا هیچ بخشی از کد Magic3D را همراه با مقاله آکادمیک خود منتشر نکرد.

توانایی تولید تصویرسه‌بعدی از متن مانند یک تکامل طبیعی در مدل‌های diffusion امروزی است که از شبکه‌های عصبی برای ترکیب محتوای جدید پس از آموزش بر روی مجموعه‌ای از داده‌ها استفاده می‌کنند.

تنها در سال 2022، ما شاهد ظهور مدل‌های هوش مصنوعی متن به تصویر توانمند مانند DALL-E و Stable Diffusion و تولیدکننده‌های ابتدایی تبدیل متن به ویدیو از Google و Meta بوده‌ایم. گوگل همچنین دو ماه پیش مدل هوش مصنوعی فوق‌الذکر از تبدیل متن به تصویر سه بعدی DreamFusion را معرفی کرد و از آن زمان، افراد تکنیک‌های مشابهی را برای کار با آن به عنوان یک مدل هوش مصنوعی منبع باز مبتنی بر Stable Diffusion تطبیق داده‌اند.

محققان در مورد Magic3D، امیدوارند که به هر کسی اجازه دهد بدون نیاز به آموزش خاص، مدل‌های سه بعدی ایجاد کند. فناوری حاصل پس از اصلاح، می تواند توسعه بازی های ویدیویی ( VR) را سرعت ببخشد و شاید در نهایت کاربردهایی در تولید جلوه های ویژه در ساخت فیلمها و تولیدات تلویزیون پیدا کند. آنها در پایان مقاله خود می نویسند: امیدواریم با Magic3D بتوانیم فرایند سه بعدی را فراگیر کنیم تا همه بتوانند خلاقیتشان در تولید محتوای سه بعدی را از بالقوه به بالفعل تبدیل کنند.