رقابت داغ هوش مصنوعی در تولید ویدیو: "Kling 2.1" در برابر "Veo 3" گوگل

در حالی‌ که فناوری تولید ویدیو با هوش مصنوعی در مسیر جهشی شگفت‌انگیز قرار دارد، شرکت چینی Kuaishou با معرفی مدل جدید Kling 2.1 تنها چند روز پس از رونمایی Veo 3 از سوی گوگل، رقابت را به سطح تازه‌ای رسانده است.

به گزارش تک‌ناک، این دو مدل پیشرفته‌ می‌توانند آینده تولید ویدیو با هوش مصنوعی را متحول کنند. مدل جدید Kling قادر است ویدیوهایی با کیفیت سینمایی تولید کند؛ تصاویری که تا چند ماه پیش به تجهیزات گران‌قیمت و گروهی از فیلم‌برداران حرفه‌ای نیاز داشت.

01
از 07
پیشرفت چشمگیر در تولید ویدیو با هوش مصنوعی

مدل جدید Kling 2.1 با سرعت تولید بالاتر، دقت بیشتر در اجرای فرمان‌ها، واقع‌گرایی بهتر و حذف بسیاری از نواقص گرافیکی، گامی بلند به سوی تولید ویدیوهایی واقعی‌تر برداشته است. نسخه Master این مدل با بهره‌گیری از فناوری‌های پیشرفته‌ سه‌بعدی از جمله «توجه فضازمانی سه‌بعدی» و «کدگذار و رمزگشای ویدیویی اختصاصی سه‌بعدی (3D VAE)» به خروجی‌هایی در حد سینما دست یافته است.

02
از 07
Kling انتخاب محبوب برای تولید محتوای سیاسی

مدل Kling که یک سال پیش توسط Kuaishou عرضه شد، به‌ویژه به‌دلیل توانایی تولید ویدیوهای باکیفیت تا دو دقیقه و کاربرد گسترده‌ آن در تولید محتوای طنز سیاسی درباره شخصیت‌هایی مانند ترامپ و ایلان ماسک، به شهرت رسید.

03
از 07
کاربران اولیه مدل Kling

نسخه‌ Master این مدل بازخوردهای مثبتی در رسانه‌های اجتماعی دریافت کرده است. کاربران از کیفیت سینمایی، اجرای روان و خلاقیت بالا در حالت «متن به ویدیو» شگفت‌زده شده‌اند.

04
از 07
آینده تولید ویدیو با هوش مصنوعی در دستان دو غول

نسخه‌ قبلی Kling (مدل ۲.۰) در ارزیابی‌ها، عملکردی بهتر از اکثر رقبا داشت و تنها از نسخه‌های Veo 2 و Veo 3 گوگل عقب بود. نسخه‌ ۲.۱ با بهبودهای گسترده، انتظار می‌رود که فاصله خود را از رقبا بیشتر کند. البته هنوز در جدول رسمی رتبه‌بندی مدل‌ها جای نگرفته است، اما داده‌های کامل آزمایشی به‌ زودی منتشر خواهند شد.

05
از 07
قیمت‌گذاری و نسخه‌ها

مدل Kling 2.1 در سه سطح عرضه می‌شود:

نسخه استاندارد (720p): هر ۵ ثانیه ۲۰ اعتبار
نسخه حرفه‌ای (1080p): ۳۵ اعتبار
نسخه Master (1080p): با ۱۰۰ اعتبار، معادل ۳ دلار برای هر ۱۰ ثانیه ویدیو

نسخه‌ حرفه‌ای با وجود هزینه‌ کمتر، کیفیتی نزدیک به نسخه Master ارائه می‌دهد و برای کاربران حرفه‌ای به‌صرفه‌ترین گزینه است.

06
از 07
برتری‌ها و ضعف‌های نسبی در مقایسه با Veo 3

در آزمایش‌ها، هر دو مدل نقاط قوت و ضعف خود را نشان دادند:

تولید متن در تصویر:
در صحنه‌ای با رباتی که واژه‌ “EMERGE” روی شکم آن نوشته شده است، هر دو مدل عملکرد خوبی داشتند، اما Veo 3 در حفظ دقت متن بهتر عمل کرد، حتی زمانی‌ که ربات شخصیت اصلی نبود.
احساسات انسانی و واقع‌گرایی:
در صحنه‌ای احساسی که زن، رباتی مرده را از رودخانه بیرون می‌کشد، Kling 2.1 در نمایش حرکات طبیعی و حالات چهره برتری داشت. اما نبود صدا باعث شد تاثیر احساسی کمتری نسبت به Veo 3 ایجاد کند، که قابلیت تولید صوت را دارد.
تبدیل تصویر به ویدیو:
در یک صحنه‌ پیچیده با گذر زمان و تحول شهری، Kling 2.1 با درک بهتر اجزای صحنه عملکرد مطلوب‌تری داشت. Veo 3 با وجود تمرکز بیشتر بر سوژه اصلی (تاکسی)، در اجرای کامل جزئیات شکست خورد.
ویدیوهای انیمه و دو‌بعدی:
هر دو مدل در تولید ویدیوهای سبک انیمه یا آثار دو‌بعدی ضعیف عمل کردند. راهکار پیشنهادی، استفاده از یک تصویر تولیدشده توسط مدل‌های تصویری و سپس اعمال آن در حالت «تصویر به ویدیو» است.
صحنه‌های چندسوژه‌ای:
در صحنه‌ای با پنج توله‌گرگ، Kling 2.1 تنها سه گرگ تولید کرد، اما انسجام بالایی داشت. در مقابل، Veo 3 اگرچه ابتدا موفق نبود، اما در پایان توانست پنج گرگ را با وضوح جداگانه به تصویر بکشد.
حرکت‌های پویا و تعقیب‌و‌گریز:
Kling 2.1 در اجرای حرکات سریع، نورپردازی و جزئیات صحنه‌های اکشن بهتر عمل کرد. Veo 3 نیز با افزودن موسیقی و جلوه‌های سینمایی، تجربه‌ای واقع‌گرایانه ارائه داد. با وجود این، در تطابق با متن اولیه، Kling دقیق‌تر بود.

مدل تولید ویدیو با هوش مصنوعی "Kling 2.1" در برابر "Veo 3" گوگل

07
از 07
انتخاب نهایی بین مدل‌های تولید ویدیو با هوش مصنوعی

نمی‌توان برنده‌ای قطعی تعیین کرد. اگر صدا عامل مهمی است، Veo 3 انتخاب بهتری می‌باشد. اما اگر تبدیل تصویر به ویدیو با کیفیت بالا مدنظر است، Kling 2.1 برتری دارد.

در مجموع، هر دو مدل نماینده‌ نسل جدید ویدیوهای تولیدشده با هوش مصنوعی‌ هستند. اگر بودجه محدود باشد، حتی نسخه استاندارد Kling 2.1 نیز نتیجه‌ای فراتر از انتظار ارائه می‌دهد.

بر اساس آزمایش‌های انجام‌شده، Veo 3 و Kling 2.1 Master به‌ طور مشترک در رتبه اول تولید ویدیو با هوش مصنوعی قرار می‌گیرند. جایگاه سوم نیز متعلق به مدل متن‌باز Wan 2.1 است، که با وجود رایگان بودن، عملکرد قابل توجهی دارد.