محققان دانشگاه کارنگی ملون ابزار هوش مصنوعی جدید LegoGPT را توسعه دادهاند که با استفاده از دستورهای متنی، مدلهای لگو فیزیکی پایدار تولید میکند.
به گزارش تکناک، تیمی پژوهشی از دانشگاه کارنگی ملون ابزار هوش مصنوعی LegoGPT را طراحی کردهاند که فقط با دریافت دستور متنی، میتواند طرحهای معتبر لگو ایجاد کند. براساس مقالهای که این تیم در گیتهاب منتشر کرده، این مدل زبانی بزرگ از نوع «اتورگرسیو» آموزش دیده است؛ اما نکته مهم این است که ابزار هوش مصنوعی LegoGPT، میتواند از صفر و فقط براساس توصیف متنی، طرح لگو خلق کند.
تامزهاردور مینویسد که برای آموزش مدل سازنده لگو، مجموعه دادهای متشکل از بیش از ۴۷ هزار ساختار لگویی استفاده شده که شامل بیش از ۲۸ هزار شیء سهبعدی منحصربهفرد مانند کتابخانه، میز، صندلی، خودرو، کشتی و گیتار بوده است. با این دادهها، مدل توانایی تولید طرحهای جدید و خلاقانه را پیدا کرده است.
این ابزار اکنون بهرایگان روی گیتهاب در دسترس عموم قرار گرفته است و قابلیت ترکیب با مدلهای بینایی کامپیوتری را نیز دارد. برای مثال، کاربر میتواند با گرفتن عکس از لگوهای موجود خود، از هوش مصنوعی بخواهد دهها طرح مختلف و مناسب با قطعات موجود ارائه دهد.

ابزار هوش مصنوعی LegoGPT هنگام تولید طرحها، بهکمک سازوکاری به نام اعتباریابی و بازگشت درصورت ناپایداری فیزیکی، بررسی میکند که قطعات رویهم نیفتاده باشند (نداشتن همپوشانی) و در فضا معلق نباشند (پایداری فیزیکی). اگر طرح نهایی ناپایدار باشد، مدل به آخرین نقطه پایدار بازمیگردد و از آنجا ادامه میدهد تا به خروجی معتبر برسد. این طرح نهایی باید بهواسطه انسان و ربات قابلیت ساختن داشته باشد.
برای تولید دادههای آموزشی، ابتدا متن به مش سهبعدی براساس ShapeNetCore تبدیل میشود. این مش در شبکه حجمی ۲۰ در ۲۰ در ۲۰ جاسازی و طرح اولیه لگویی استخراج میشود. سپس این طرح اولیه با حفظ شکل کلی، تغییراتی کنترلشده پیدا میکند و طرحهای ناپایدار حذف میشوند. طرحهای باقیمانده از ۲۴ زاویه مختلف رندر میشوند. سپس GPT-4o برای هر طرح، توصیف متنی تولید میکند که همراه با ساختار فیزیکی، برای آموزش مدل نهایی استفاده میشود.

پساز دریافت متن، مدل آن را به طرح لگویی اولیه تبدیل میکند. سپس آن طرح بهصورت رشتهای از توکنها از پایین به بالا مرتب میشود. در این فرایند، مدل در هر گام آجر بعدی را پیشنهاد میدهد و بررسی میکند که آن آجر معتبر در کتابخانه موجود و بدون همپوشانی باشد. در نهایت پساز تکمیل طراحی، آزمون پایداری انجام میشود و اگر طرح نهایی پایدار باشد، ساختار بهعنوان خروجی نهایی تحویل داده میشود.
تیم تحقیقاتی کد منبع و مدلها و دادهها را منتشر کردهاند و هرکسی میتواند از آنها استفاده کند یا پروژه را گسترش دهد. یکی از مسیرهای توسعه احتمالی تبدیل این ابزار به اپلیکیشن نصبی با کتابخانه قطعات سفارشی است.