مدل Gen-4.5 Runway: واقع‌گرایی سینمایی با جزئیات بی‌سابقه

مدل Gen-4.5 Runway می‌تواند ویدئوهایی سینمایی و بسیار واقع‌گرایانه تولید کند و شبیه‌سازی فیزیک اشیاء را با دقت بی‌سابقه‌ای انجام دهد.

به گزارش سرویس هوش مصنوعی تک‌ناک، شرکت Runway، یکی از پیش‌گامان حوزه هوش مصنوعی مولد، با انتشار بیانیه‌ای از جدیدترین مدل تبدیل متن به ویدئو خود با نام Gen-4.5 پرده‌برداری کرد. این شرکت ادعا می‌کند که مدل جدید خروجی‌های سینمایی و بسیار واقع‌گرایانه را با دقتی بی‌سابقه در شبیه‌سازی فیزیک و جزئیات بصری می‌تواند تولید کند؛ پیشرفتی که تشخیص محتوای ساخته‌شده با هوش مصنوعی از ویدئوهای واقعی را دشوارتر می‌کند.

بر‌اساس بیانیه Runway، مدل Gen-4.5 نه‌تنها دستورهای متنی را با پایبندی بهتری دنبال می‌کند؛ بلکه می‌تواند صحنه‌هایی با جزئیات پیچیده را بدون افت کیفیت ویدئو تولید کند. نکته درخورتوجه، تمرکز این مدل بر فیزیک واقع‌گرایانه است. Runway توضیح می‌دهد که حرکت اشیای تولیدشده با این هوش مصنوعی وزن و شتاب و نیروی طبیعی دارد و جریان مایعات نیز با دینامیک مناسبی شبیه‌سازی می‌شود. این شرکت ادعا می‌کند که تصاویر واقع‌گرایانه تولیدشده با Gen-4.5 به‌دلیل دقت و جزئیات طبیعی، از فیلم‌های دنیای واقعی تشخیص‌دادنی نیستند.

آدم برفی با کلاه بالا و شال گردن در حال راه رفتن در یک خیابان شهر.

این پیشرفت‌ها درحالی حاصل می‌شود که رقابت در این حوزه به‌شدت درحال افزایش است. شرکت OpenAI نیز با مدل Sora 2 که در ماه سپتامبر معرفی شد، بهبودهای فیزیکی را به‌عنوان یکی از ویژگی‌های اصلی خود مطرح کرده بود. اکنون به نظر می‌رسد Runway با Gen-4.5 پاسخی مستقیم به این پیشرفت‌ها داده است.

به نقل از ورج، با وجود این پیشرفت‌ها، Runway اذعان می‌کند که این مدل هنوز با محدودیت‌هایی روبه‌روست. مشکلاتی درزمینه «ماندگاری شیء» (Object Permanence) و «استدلال علی و معلولی» ممکن است رخ دهد؛ بدین‌معنا که گاهی معلول پیش از علت نمایش داده می‌شود؛ مانند بازشدن یک در پیش‌از آنکه فرد دستگیره را لمس کند.

این شرکت اعلام کرده است که مدل Gen-4.5 به‌تدریج برای همه کاربران منتشر خواهد شد و همان سرعت و کارایی نسخه پیشین را حفظ خواهد کرد. علاوه‌بر واقع‌گرایی، Runway گفته است که Gen-4.5 در مدیریت سبک‌های بصری مختلف نیز عملکرد بهتری از خود نشان می‌دهد و تصاویر واقع‌گرایانه و سبک‌سازی‌شده (Stylized) و سینمایی را می‌تواند با ثبات بیشتری تولید کند و ابزاری قدرتمندتر در اختیار فیلم‌سازان و هنرمندان قرار دهد.