شرکت چینی Kuaishou نسخه جدید ابزار هوش مصنوعی Kling 2.6 را با قابلیت کنترل صوتی پیشرفته و ارتقای دقت حرکتی برای تولید ویدیوهای واقعگرایانه و رقابت با غولهای فناوری جهان معرفی کرد.
به گزارش سرویس فناوری تکناک، ویژگی جدید کنترل صوتی بر پایه تولید همزمان صدا و تصویر ساخته شده است، که Kling 2.6 به تازگی آن را معرفی کرده بود. این مدل مانند Veo 3 متعلق به گوگل یا Sora 2 میتواند جلوههای صوتی متناسب با محتوای ویدیو، از جمله صدا و موسیقی را تولید کند.
طبق اعلام Kling AI، این قابلیت از انواع مختلف صداهای انسانی شامل صحبت کردن، دیالوگ، روایت، آواز و رپ پشتیبانی میکند. همچنین نویزهای محیطی و صداهای صحنههای ترکیبی را مدیریت مینماید. این مدل هم توضیحات متنی خالص و هم ترکیبی از متن و تصاویر را به عنوان ورودی میپذیرد. Kling AI کاربردهای متعددی را برای آن متصور است، که از جمله آنها میتوان به دموهای محصول، ولاگهای سبک زندگی، پخش اخبار، گزارشهای ورزشی، مستندها، مصاحبهها، فیلمهای کوتاه درام و اجراهای موسیقی شامل آواز و حتی گروههای کر چندصدایی اشاره کرد.
بر اساس گزارش the-decoder، ویژگی جدید کنترل صوتی در ابزار هوش مصنوعی Kling 2.6 به کاربران اجازه میدهد صداهای خود را برای آموزش یک مدل بارگذاری کنند. همچنین آنها میتوانند یک فایل صوتی را به طور مستقیم آپلود نمایند. سپس صدای آموزشدیده یا بارگذاریشده میتواند در تولیدات متن به ویدیو اعمال شود. این کار تداوم شخصیت را بهبود میبخشد؛ اکنون شخصیتها میتوانند در ویدیوهای تولیدشده با صدایی مشخص و قابل شناسایی صحبت کنند، که ایجاد شخصیتهای ثابت در چندین کلیپ ویدیویی را ممکن میسازد.
دومین ویژگی بزرگ، ارتقای کنترل حرکت است. سیستم اکنون حرکات کل بدن را با جزئیات بیشتری ثبت میکند. حتی اقدامات سریع و پیچیده مانند هنرهای رزمی یا رقص باید با دقت بیشتری پردازش شوند. شرکت Kuaishou به ویژه بر بهبود در دو زمینهای تأکید کرده است که ویدیوهای هوش مصنوعی معمولاً در آنها با مشکل مواجه هستند، حرکات دست اکنون باید دقیق و بدون تاری ظاهر شوند، در حالی که حالات چهره و هماهنگی لبها باید طبیعی باقی بمانند.

ابزار هوش مصنوعی Kling 2.6 علاوه بر پلتفرم اختصاصی خود، از طریق ارائهدهندگان ثالث مانند Fal.ai، Artlist و Media.io نیز در دسترس است. قیمتگذاری از طریق این ارائهدهندگان حدود 0.07 تا 0.14 دلار به ازای هر ثانیه ویدیو است، که نرخهای بسیار رقابتی محسوب میشوند. شرکت Kuaishou با این ویژگیهای جدید در بازاری شلوغ با بازیگران غربی مانند Google، OpenAI و Runway، همچنین رقبای چینی از جمله Hailuo، Seedance و Vidu رقابت میکند. این شرکت مالک Kwai است که دسترسی به حجم عظیمی از دادههای صوتی و تصویری را فراهم میکند.

















