آزمایشگاه تحقیقات هوش مصنوعی گوگل، دیپمایند، اعلام کرد که در حال توسعهی فناوری هوش مصنوعی برای ساختن موسیقی متن و صداگذاری ویدئوها است.
بهگزارش تکناک، دیپمایند در وبلاگ رسمی خود از توسعهی فناوری جدیدی به نام V2A (مخفف Video-to-Audio) خبر داده و آن را قطعهای ضروری از پازل محتوای تولیدشده با هوش مصنوعی دانسته است. درحالیکه شرکتهای زیادی، ازجمله DeepMind، مدلهای هوش مصنوعی تولید ویدئو ساختهاند، این مدلها نمیتوانند افکتهای صوتی همگام با ویدئوهایی بسازند که تولید میکنند.
دیپمایند مینویسد:
مدلهای تولید ویدئو با سرعتی باورنکردنی در حال پیشرفت هستند؛ اما بسیاری از سیستمهای فعلی فقط میتوانند خروجی بدون صدا تولید کنند. فناوری V2A میتواند رویکردی امیدوارکننده برای جانبخشیدن به فیلمهای تولید شده باشد.
بهنقل از تککرانچ، فناوری V2A با ترکیب توضیحی از موسیقی متن و ویدئو، برای ساخت موسیقی و افکتهای صوتی و حتی دیالوگهایی که با شخصیتها و لحن ویدئو مطابقت دارد، کار میکند. این دیالوگها از نشانگر فناوری SynthID متعلق به DeepMind برای مقابله با جعلهای زیرکانه بهره میبرند. دیپمایند میگوید مدل هوش مصنوعی V2A با ترکیبی از صداها و رونوشتهای دیالوگ و کلیپهای ویدئویی آموزش داده شده است.
ابزارهای تولید صدا با هوش مصنوعی ابزارهای جدیدی نیستند. استارتآپ Stability AI هفتهی گذشته ابزاری معرفی کرد و ElevenLabs هم در ماه می یکی از آنها را بهنمایش گذاشت.
مدلهای ایجاد افکتهای صوتی ویدئو نیز فناوری جدیدی محسوب نمیشوند؛ چراکه پروژهای از مایکروسافت میتواند ویدئوهای سخنگو و خواننده را از تصویر ثابت تولید کند. دراینمیان، پلتفرمهایی مانند Pika و GenreX مدلهایی را آموزش دادهاند که ویدئو را دریافت کنند و بهترین حدس را دربارهی موسیقی یا افکتهای مناسب برای یک صحنه بزنند.
بااینهمه، دیپمایند ادعا میکند که فناوری V2A در این زمینه منحصربهفرد است؛ زیرا میتواند پیکسلهای خام ویدئو را درک و صداهای تولیدشده را بهطور خودکار با ویدئو همگامسازی کند؛ درحالیکه بهصورت اختیاری میتواند بدون توضیحات اضافی کار کند.
دیپمایند مینویسد:
برای اطمینان از اینکه فناوری V2A میتواند تأثیر مثبتی بر جامعهی خلاق بگذارد، در حال جمعآوری دیدگاهها و بینشهای متنوع از سازندگان و فیلمسازان پیشرو هستیم و از این بازخورد ارزشمند برای جهتدهی به تحقیق و توسعهی مداوم خود استفاده میکنیم. قبل از اینکه به فکر دردسترس قراردادن V2A برای عموم کاربران باشیم، این فناوری آزمایشهای دقیق امنیتی را پشتسر خواهد گذاشت.
دیپمایند فناوری V2A خود را بهعنوان ابزاری مفید برای آرشیوداران و افرادی معرفی میکند که با فیلمهای تاریخی سروکار دارند. بااینهمه، هوش مصنوعی مولد میتواند بهنوبهی خود صنعت فیلم و تلویزیون را تهدید کند. برای اطمینان از اینکه ابزارهای تولید محتوای مبتنیبر هوش مصنوعی مشاغل را از بین نمیبرند یا حتی کل حرفهها را نابود نمیکنند، به حمایتهای شغلی بسیار قوی نیاز خواهد بود.