محققان با بهرهگیری از تکنیکهای یادگیری عمیق، موفق شدند سامانه OmniHuman را توسعه دهند که میتواند از تصویر ثابت ویدئو متحرک و واقعگرایانه تولید کند.
به گزارش تکناک، پژوهشگران شرکت چینی بایتدنس سامانهای مبتنیبر هوش مصنوعی توسعه دادهاند که میتواند از تصویر ثابت ویدئو واقعی از افراد در حال صحبت و آوازخواندن و حرکات طبیعی ایجاد کند. این پیشرفت میتواند حوزه سرگرمی دیجیتال و ارتباطات را متحول کند.
سامانه جدید چینیها OmniHuman نام دارد که میتواند ویدئوهایی تمامقد از افراد تولید کند که در آن حرکتها و اشارههای بدن با گفتار آنها هماهنگ است. این قابلیت OmniHuman را از مدلهای پیشین هوش مصنوعی متمایز میسازد که تنها میتوانستند چهره یا بالاتنه را متحرک کنند.
پژوهشگران بایتدنس در مقالهای منتشرشده در نشریه arXiv عنوان کردهاند که با وجود پیشرفتهای چشمگیر در حوزه انیمیشنسازی، روشهای فعلی در مقیاسپذیری به سطح مدلهای بزرگ تولید ویدئو با محدودیتهایی روبهرو هستند که کارایی آنها را در کاربردهای عملی کاهش میدهد.
برای رفع این مشکل تیم تحقیقاتی OmniHuman را با بیش از ۱۸,۷۰۰ ساعت داده ویدئویی انسانی آموزش داده است. این فرایند از رویکردی نوین بهره میبرد که ورودیهای متعددی نظیر متن و صدا و حرکات بدن را همزمان ترکیب میکند. این راهبرد آموزشی چندبخشی امکان یادگیری از مجموعه دادههایی بسیار گستردهتر و متنوعتر را در مقایسه با روشهای پیشین فراهم میآورد.
تحولی در تولید ویدئوهای مبتنیبر هوش مصنوعی
Venturebeat مینویسد که اعضای تیم تحقیقاتی توضیح دادهاند که ادغام چندین سیگنال شرطی مانند متن و صدا و وضعیت بدن در فرایند آموزش، نقش مهمی در کاهش اتلاف دادهها ایفا میکند و موجب بهینهسازی عملکرد مدل میشود. این فناوری نقطه عطفی در حوزه تولید محتوای بصری مبتنیبر هوش مصنوعی محسوب میشود و میتواند ویدئوهایی از افراد در حال سخنرانی یا نواختن ساز خلق کند. نتایج آزمایشها نشان داده است که سامانه OmniHuman در شاخصهای متعدد کیفیت، عملکردی برتر از مدلهای موجود ارائه میدهد.
این دستاورد در شرایطی به دست آمده است که رقابت برای پیشرفت در حوزه تولید ویدئو با هوش مصنوعی شدت گرفته است. شرکتهایی همچون گوگل و متا و مایکروسافت نیز در حال توسعه فناوریهای مشابهی هستند. در این میان، بایتدنس با این نوآوری میتواند مزیتی راهبردی برای خود در این عرصه در حال رشد ایجاد کند.
کارشناسان معتقدند که این فناوری توان بالقوه فراوانی برای تحول در زمینههای تولید محتوای سرگرمی و آموزشی و ارتباطات دیجیتال دارد. بااینحال، برخی نگرانیها درباره سوءاستفاده احتمالی از این سیستم در تولید محتوای ساختگی و فریبنده مطرح شده است.