در حالی که فناوری تولید ویدیو با هوش مصنوعی در مسیر جهشی شگفتانگیز قرار دارد، شرکت چینی Kuaishou با معرفی مدل جدید Kling 2.1 تنها چند روز پس از رونمایی Veo 3 از سوی گوگل، رقابت را به سطح تازهای رسانده است.
به گزارش تکناک، این دو مدل پیشرفته میتوانند آینده تولید ویدیو با هوش مصنوعی را متحول کنند. مدل جدید Kling قادر است ویدیوهایی با کیفیت سینمایی تولید کند؛ تصاویری که تا چند ماه پیش به تجهیزات گرانقیمت و گروهی از فیلمبرداران حرفهای نیاز داشت.
فهرست مطالب
پیشرفت چشمگیر در تولید ویدیو با هوش مصنوعی
مدل جدید Kling 2.1 با سرعت تولید بالاتر، دقت بیشتر در اجرای فرمانها، واقعگرایی بهتر و حذف بسیاری از نواقص گرافیکی، گامی بلند به سوی تولید ویدیوهایی واقعیتر برداشته است. نسخه Master این مدل با بهرهگیری از فناوریهای پیشرفته سهبعدی از جمله «توجه فضازمانی سهبعدی» و «کدگذار و رمزگشای ویدیویی اختصاصی سهبعدی (3D VAE)» به خروجیهایی در حد سینما دست یافته است.

Kling انتخاب محبوب برای تولید محتوای سیاسی
مدل Kling که یک سال پیش توسط Kuaishou عرضه شد، بهویژه بهدلیل توانایی تولید ویدیوهای باکیفیت تا دو دقیقه و کاربرد گسترده آن در تولید محتوای طنز سیاسی درباره شخصیتهایی مانند ترامپ و ایلان ماسک، به شهرت رسید.
کاربران اولیه مدل Kling
نسخه Master این مدل بازخوردهای مثبتی در رسانههای اجتماعی دریافت کرده است. کاربران از کیفیت سینمایی، اجرای روان و خلاقیت بالا در حالت «متن به ویدیو» شگفتزده شدهاند.
آینده تولید ویدیو با هوش مصنوعی در دستان دو غول
نسخه قبلی Kling (مدل ۲.۰) در ارزیابیها، عملکردی بهتر از اکثر رقبا داشت و تنها از نسخههای Veo 2 و Veo 3 گوگل عقب بود. نسخه ۲.۱ با بهبودهای گسترده، انتظار میرود که فاصله خود را از رقبا بیشتر کند. البته هنوز در جدول رسمی رتبهبندی مدلها جای نگرفته است، اما دادههای کامل آزمایشی به زودی منتشر خواهند شد.
قیمتگذاری و نسخهها
مدل Kling 2.1 در سه سطح عرضه میشود:
- نسخه استاندارد (720p): هر ۵ ثانیه ۲۰ اعتبار
- نسخه حرفهای (1080p): ۳۵ اعتبار
- نسخه Master (1080p): با ۱۰۰ اعتبار، معادل ۳ دلار برای هر ۱۰ ثانیه ویدیو
نسخه حرفهای با وجود هزینه کمتر، کیفیتی نزدیک به نسخه Master ارائه میدهد و برای کاربران حرفهای بهصرفهترین گزینه است.
برتریها و ضعفهای نسبی در مقایسه با Veo 3
در آزمایشها، هر دو مدل نقاط قوت و ضعف خود را نشان دادند:
- تولید متن در تصویر:
در صحنهای با رباتی که واژه “EMERGE” روی شکم آن نوشته شده است، هر دو مدل عملکرد خوبی داشتند، اما Veo 3 در حفظ دقت متن بهتر عمل کرد، حتی زمانی که ربات شخصیت اصلی نبود. - احساسات انسانی و واقعگرایی:
در صحنهای احساسی که زن، رباتی مرده را از رودخانه بیرون میکشد، Kling 2.1 در نمایش حرکات طبیعی و حالات چهره برتری داشت. اما نبود صدا باعث شد تاثیر احساسی کمتری نسبت به Veo 3 ایجاد کند، که قابلیت تولید صوت را دارد. - تبدیل تصویر به ویدیو:
در یک صحنه پیچیده با گذر زمان و تحول شهری، Kling 2.1 با درک بهتر اجزای صحنه عملکرد مطلوبتری داشت. Veo 3 با وجود تمرکز بیشتر بر سوژه اصلی (تاکسی)، در اجرای کامل جزئیات شکست خورد. - ویدیوهای انیمه و دوبعدی:
هر دو مدل در تولید ویدیوهای سبک انیمه یا آثار دوبعدی ضعیف عمل کردند. راهکار پیشنهادی، استفاده از یک تصویر تولیدشده توسط مدلهای تصویری و سپس اعمال آن در حالت «تصویر به ویدیو» است. - صحنههای چندسوژهای:
در صحنهای با پنج تولهگرگ، Kling 2.1 تنها سه گرگ تولید کرد، اما انسجام بالایی داشت. در مقابل، Veo 3 اگرچه ابتدا موفق نبود، اما در پایان توانست پنج گرگ را با وضوح جداگانه به تصویر بکشد. - حرکتهای پویا و تعقیبوگریز:
Kling 2.1 در اجرای حرکات سریع، نورپردازی و جزئیات صحنههای اکشن بهتر عمل کرد. Veo 3 نیز با افزودن موسیقی و جلوههای سینمایی، تجربهای واقعگرایانه ارائه داد. با وجود این، در تطابق با متن اولیه، Kling دقیقتر بود.

انتخاب نهایی بین مدلهای تولید ویدیو با هوش مصنوعی
نمیتوان برندهای قطعی تعیین کرد. اگر صدا عامل مهمی است، Veo 3 انتخاب بهتری میباشد. اما اگر تبدیل تصویر به ویدیو با کیفیت بالا مدنظر است، Kling 2.1 برتری دارد.
در مجموع، هر دو مدل نماینده نسل جدید ویدیوهای تولیدشده با هوش مصنوعی هستند. اگر بودجه محدود باشد، حتی نسخه استاندارد Kling 2.1 نیز نتیجهای فراتر از انتظار ارائه میدهد.
بر اساس آزمایشهای انجامشده، Veo 3 و Kling 2.1 Master به طور مشترک در رتبه اول تولید ویدیو با هوش مصنوعی قرار میگیرند. جایگاه سوم نیز متعلق به مدل متنباز Wan 2.1 است، که با وجود رایگان بودن، عملکرد قابل توجهی دارد.