همگامسازی لب با هوش مصنوعی در یوتیوب حرکات دهان گوینده را با صدای دوبله هماهنگ و تجربه تماشای ویدئوهای چندزبانه را متحول میکند.
به گزارش تکناک، گوگل در ادامه تلاشهای خود برای شکستن مرزهای زبانی در دنیای دیجیتال، قصد دارد یوتیوب را به قابلیتی انقلابی مجهز کند: همگامسازی لب (Lip-Sync) تولیدشده با هوش مصنوعی برای ویدئوهای دوبلهشده. این فناوری با هدف واقعیتر و جذابتر کردن محتوای ترجمهشده طراحی شده است و میتواند تجربه تماشای ویدئو به زبانهای دیگر را برای همیشه متحول کند.
بودیکا کوتاهاچی، مدیر محصول دوبله خودکار یوتیوب، در گفتوگو با رسانهها جزئیات این فناوری را تشریح کرد. قابلیت همگامسازی لب با هوش مصنوعی در یوتیوب از هوش مصنوعی سفارشی و قدرتمند بهره میبرد که ساختار سهبعدی چهره، ازجمله لبها و دندانها و حالات چهره را میتواند درک کند. سپس با ایجاد تغییرات دقیق در سطح پیکسل، حرکت دهان گوینده اصلی را بهگونهای اصلاح میکند که کاملاً با صدای دوبلهشده جدید هماهنگ به نظر برسد.
با توجه به موفقیتهای اخیر گوگل در مدلهای هوش مصنوعی مانند Veo، انتظار میرود قابلیت جدید یوتیوب با واقعگرایی بسیار زیادی پیادهسازی شود. در مرحله اولیه، این قابلیت فقط از ویدئوهایی با وضوح 1080p پشتیبانی خواهد کرد و زبانهای زیر پوشش به انگلیسی، فرانسوی، آلمانی، پرتغالی و اسپانیایی محدود خواهد بود. بااینحال، یوتیوب قصد دارد در آینده این سرویس را به بیش از ۲۰ زبان دیگر گسترش دهد.
هنوز تاریخ دقیقی برای انتشار عمومی ویژگی همگامسازی لب با هوش مصنوعی در یوتیوب اعلام نشده است؛ اما انتظار میرود این پلتفرم پرطرفدار قابلیت یادشده را ابتدا بهصورت آزمایشی و با گروه کوچکی از تولیدکنندگان محتوا آغاز کند. همچنین، پیشبینی میشود که تولیدکنندگان محتوا بتوانند که این ویژگی را برای کانال یا ویدئوهای خاص خود غیرفعال کنند.
به نقل از اندروید اتوریتی، یکی از نکات مهم احتمال وجود هزینه اضافی برای استفاده از این سرویس است. هرچند مبلغ دقیق آن مشخص نیست، گمانهزنیها حاکی از آن است که این هزینه احتمالاً مستقیماً از کاربران دریافت خواهد شد.
طبیعتاً فناوری مذکور نگرانیهایی را درباره سوءاستفاده احتمالی و ساخت دیپفیک بههمراه دارد. یوتیوب برای مقابله با این مشکل، قصد دارد هشدار شفافسازی به ویدئوها اضافه و از واترمارک نامرئی دیجیتال مشابه فناوری SynthID، برای شناسایی محتوای تغییریافته با هوش مصنوعی استفاده کند.
یوتیوب در این مسیر تنها نیست؛ زیرا شرکت متا نیز سال گذشته برنامه آزمایشی مشابهی را برای دوبله و همگامسازی لب ویدئوهای ریلز در اینستاگرام راهاندازی کرد که اخیراً به چهار زبان گسترش یافته است. این رقابت نشان میدهد که آینده محتوای ویدئویی، جهانی چندزبانه و بسیار وابسته به هوش مصنوعی خواهد بود.