شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودیهای متنی است.
به گزارش تکناک، HunyuanVideo با بهرهگیری از آخرین دستاوردهای هوش مصنوعی، میتواند ویدئوهایی با جزئیات بالا و انیمیشنهای روان ایجاد کند. انتشار این مدل گامی مهم در مسیر دموکراتیزه کردن فناوری تولید ویدیو مبتنی بر هوش مصنوعی محسوب میشود.
فهرست مطالب
رقابت در حوزه تولید ویدیو با هوش مصنوعی
به نقل از نئووین، اوایل سال جاری، OpenAI با معرفی مدل Sora نوید تحولاتی در حوزه تولید ویدیو را داد. این مدل توانایی ایجاد صحنههای واقعی و خلاقانه بر اساس دستورات متنی را داشت. با این حال، عرضه عمومی آن به تعویق افتاد. در همین زمان، شرکتهایی نظیر Runway و Luma مدلهای خاص خود را روانه بازار کردند و وارد این رقابت شدند.
اما امروز Tencent با معرفی HunyuanVideo گامی فراتر گذاشت و این فناوری را به صورت متنباز در دسترس همگان قرار داد. این مدل، اولین نمونه مهم در زمینه تولید ویدیوی متنباز است که کدهای استنتاج و وزنهای مدل آن به طور عمومی منتشر شده است.
ویژگیهای کلیدی HunyuanVideo
این مدل دارای بیش از ۱۳ میلیارد پارامتر است که آن را به بزرگترین مدل متنباز در حوزه تولید ویدیو تبدیل کرده است. HunyuanVideo نهتنها ویدیوهایی با کیفیت بصری بالا تولید میکند، بلکه از تنوع حرکتی، تطابق دقیق متن با ویدیو و پایداری در فرآیند تولید برخوردار است. این مدل از یک چارچوب پیشرفته بهره میبرد که تنظیم دادهها، آموزش مشترک مدلهای تصویر و ویدیو و زیرساختهای کارآمد را در یک سیستم واحد یکپارچه میکند.
طراحی نوآورانه و عملکرد بینظیر
Tencent برای بهبود کیفیت ویدیو از طراحی Transformer و مکانیزم Full Attention استفاده کرده است. این طراحی با بهرهگیری از مدل هیبریدی “جریان دوگانه به جریان تک” برای تولید ویدیو، به مدل اجازه میدهد توکنهای متن و ویدیو را ابتدا بهصورت جداگانه پردازش و سپس برای ترکیب اطلاعات بصری و معنایی ادغام کند. این رویکرد، تعاملات پیچیده بین دادههای تصویری و متنی را بهخوبی شبیهسازی میکند و عملکرد کلی مدل را بهبود میبخشد.
نتایج ارزیابی حرفهای
مدل HunyuanVideo از طریق ارزیابیهای انسانی حرفهای مورد آزمایش قرار گرفته است. نتایج نشان میدهد که این مدل از تمامی مدلهای پیشرفته بسته پیشرو، نظیر Runway Gen-3 و Luma 1.6، عملکرد بهتری داشته و کیفیت ویدیوهای تولیدی آن بالاتر است.
تأثیر بر صنعت هوش مصنوعی
انتشار متنباز HunyuanVideo فرصتی استثنایی برای محققان و توسعهدهندگان در سراسر جهان فراهم میکند تا از این فناوری استفاده کرده و آن را ارتقا دهند. Tencent با این اقدام، نهتنها انقلابی در اکوسیستم تولید ویدیوی هوش مصنوعی ایجاد کرده، بلکه دسترسی عموم به این فناوری پیشرفته را نیز فراهم ساخته است.
برای اطلاعات بیشتر درباره مدل HunyuanVideo و دسترسی به کدها و وزنهای آن، به منابع رسمی Tencent مراجعه کنید.
دیدگاهها 1