• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » دسته‌بندی نشده » پایان سکوت ویدئوها؛ مدل هوش مصنوعی VSSFlow اپل صدا و گفتار را با هم خلق می‌کند!

پایان سکوت ویدئوها؛ مدل هوش مصنوعی VSSFlow اپل صدا و گفتار را با هم خلق می‌کند!

اسما کلهر نوشته شده توسط اسما کلهر
دوشنبه 20 بهمن 1404 - 23:00
در دسته‌بندی نشده
نمودار تحلیل فریم‌های ویدئویی و طیف‌نگار صوتی برای تولید صدای گربه، دوبله و جلوه‌های صوتی توسط مدل هوش مصنوعی.
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

محققان اپل با معرفی مدل هوش مصنوعی VSSFlow، مرزهای تولید محتوا را جابه‌جا کردند؛ سیستمی که برخلاف مدل‌های قبلی، هم‌زمان جلوه‌های صوتی و دیالوگ می‌سازد.

به گزارش سرویس هوش مصنوعی تک‌ناک، تیمی متشکل از محققان اپل و دانشگاه رنمین چین، از مدل هوش مصنوعی نوینی با نام VSSFlow پرده‌برداری کرده‌اند که قابلیت چشمگیری در تولید هم‌زمان جلوه‌های صوتی و گفتار از ویدئوهای صامت دارد. این سیستم یکپارچه و واحد با نتایجی پیشرفته، مشکلات دیرینه در حوزه تولید محتوای صوتی از ویدئو را حل می‌کند و پارادایم جدیدی را در هوش مصنوعی مولد بنیان می‌نهد.

در‌حال‌حاضر، مدل‌های هوش مصنوعی فعال در این زمینه معمولاً با محدودیت‌های تخصصی روبه‌رو هستند. اکثر مدل‌های تبدیل ویدئو به صدا (Video-to-Sound یا V2S) که برای تولید صدا از ویدئوهای صامت آموزش دیده‌اند، در تولید گفتار عملکرد ضعیفی از خود نشان می‌دهند. به همین ترتیب، مدل‌های تبدیل متن به گفتار (Text-to-Speech یا TTS) که هدف متفاوتی دارند، در تولید صداهای غیرگفتاری ناتوان هستند.

تلاش‌های پیشین برای یکپارچه‌سازی این دو وظیفه، اغلب بر این فرض استوار بود که آموزش مشترک می‌تواند به کاهش عملکرد منجر شود. این تصور غلط طراحی سیستم‌هایی را به‌دنبال داشت که آموزش گفتار و صدا را در مراحل جداگانه انجام می‌دادند و بدین‌ترتیب، پیچیدگی فرایند را به‌شدت افزایش می‌دادند.

نمودار فنی معماری مدل هوش مصنوعی VSSFlow که فرآیند تبدیل فریم‌های ویدئو به خروجی صوتی را نشان می‌دهد.

به‌طور خلاصه، VSSFlow از چندین مفهوم پیشرفته در هوش مصنوعی مولد بهره می‌برد:

  • تبدیل رونویسی‌ها به توالی‌های آوایی (فونم) از توکن‌ها: این امر به مدل اجازه می‌دهد تا گفتار را با دقت فراوانی تولید کند.
  • یادگیری بازسازی صدا از نویز با استفاده از تطبیق جریان (Flow-Matching): درباره این شیوه پیش‌تر نیز در حوزه هوش مصنوعی بحث شده است و به مدل آموزش می‌دهد که به‌طور مؤثری از نویز تصادفی شروع کند و به سیگنال صوتی مدنظر دست یابد.

تمام این مفاهیم در معماری ۱۰ لایه‌ای گنجانده شده‌اند که سیگنال‌های ویدئویی و رونویسی متنی را به‌طور مستقیم در فرایند تولید صدا ادغام می‌کند. این ادغام امکان مدیریت هم‌زمان جلوه‌های صوتی و گفتار را در سیستمی واحد فراهم می‌آورد. جالب‌تر اینکه محققان خاطرنشان کرده‌اند که آموزش مشترک روی گفتار و صدا، درواقع عملکرد را در هر دو وظیفه بهبود بخشیده است و نه‌تنها باعث رقابت بین این دو یا کاهش عملکرد کلی هر یک از وظایف نمی‌شود.

برای آموزش مدل هوش مصنوعی VSSFlow، محققان از ترکیبی از داده‌ها شامل ویدئوهای صامت با صداهای محیطی (V2S) و ویدئوهای گفتاری صامت همراه با رونویسی (VisualTTS) و داده‌های تبدیل متن به گفتار (TTS) استفاده کردند. این رویکرد به مدل اجازه داد تا هم جلوه‌های صوتی و هم گفت‌وگوی گفتاری را هم‌زمان در فرایند آموزش سرتاسری (End-to-End) یاد بگیرد.

جداول داده‌های آماری برای مقایسه عملکرد مدل VSSFlow با سایر متدها در بنچمارک‌های صوتی و تصویری.

در ابتدا، VSSFlow به‌تنهایی نمی‌توانست به‌طور خودکار صدای پس‌زمینه و گفت‌وگوی گفتاری را هم‌زمان در خروجی واحد تولید کند. برای غلبه بر این محدودیت، محققان مدل از‌پیش‌آموزش‌دیده خود را روی مجموعه‌ای بزرگ از نمونه‌های مصنوعی که در آن‌ها گفتار و صداهای محیطی باهم ترکیب شده بودند، بهینه‌سازی (fine-tuned) کردند تا مدل چگونگی همزمانی این دو را بیاموزد.

به نقل از 9to5mac، برای به کارگیری VSSFlow، مدل از نویز تصادفی آغاز می‌کند و از نشانه‌های بصری نمونه‌برداری‌شده از ویدئو با نرخ ۱۰ فریم‌برثانیه برای شکل‌دهی به صداهای محیطی بهره می‌برد. هم‌زمان رونویسی آنچه گفته می‌شود، راهنمایی دقیقی برای تولید گفتار فراهم می‌آورد.

در آزمایش‌های مقایسه‌ای با مدل‌های خاص منظوره که فقط برای جلوه‌های صوتی یا فقط برای گفتار طراحی شده بودند، مدل هوش مصنوعی VSSFlow در هر دو وظیفه نتایج کاملاً رقابتی ارائه داد و با وجود استفاده از سیستم واحد و یکپارچه، در چندین معیار مهم پیشتاز بود. محققان دموهای متعددی از نتایج تولید صدا و گفتار و تولید مشترک از ویدئوهای Veo3 و مقایسه‌هایی بین VSSFlow و چندین مدل جایگزین را منتشر کرده‌اند.

در اقدامی مهم برای جامعه هوش مصنوعی، محققان کد VSSFlow را در گیت‌هاب متن‌باز (open-source) کرده‌اند و درحال کار روی متن‌بازکردن وزن‌های مدل و ارائه دمو استنتاج (Inference) برای کاربران هستند.

اسما کلهر

اسما کلهر

دانش آموخته مترجمی زبان انگلیسی ،نویسنده حوزه تکنولوژی

مطالب مرتبط

شبکه شش‌ضلعی ماده فعال متشکل از میله‌ها و موتورهای کوچک با قابلیت حرکت و تغییر خواص کشسانی
دسته‌بندی نشده

ساخت مواد «فعال» با قابلیت حرکت خودکار

نوشته شده توسط نرگس چالوک
29 اردیبهشت 1405
هدایای چین به آمریکا
دسته‌بندی نشده

هدایا و گوشی‌های مقامات آمریکایی بعد از سفر چین دور ریخته شد

نوشته شده توسط مانی
26 اردیبهشت 1405
دسته‌بندی نشده

از عصر جت‌های اولیه تا رادارگریزی کامل؛ روایت تکامل نسل‌ها

نوشته شده توسط فاطمه امامی
3 اسفند 1404
نمای جلویی و پشت گوشی سامسونگ Galaxy F70e 5G با رنگ سبز نعنایی.
پیشنهاد سردبیر

سامسونگ گلکسی F70e را با پردازنده دیمنسیتی ۶۳۰۰ و باتری ۶,۰۰۰ میلی‌آمپرساعتی رونمایی کرد

نوشته شده توسط امیرحسین یونس
20 بهمن 1404 - به‌روزشده در 21 بهمن 1404
رابط کاربری بخش "Google Photos memories" روی یک تلویزیون سامسونگ که آلبوم‌های مختلفی مانند تعطیلات تابستانی و تولد را نمایش می‌دهد.
دسته‌بندی نشده

همکاری استراتژیک سامسونگ و گوگل؛ آلبوم‌های خاطرات به تلویزیون‌های بزرگ می‌آیند

نوشته شده توسط امیرحسین یونس
8 دی 1404 - به‌روزشده در 9 دی 1404
خبر بعدی
تصویر گرافیکی از لوگوی ChatGPT و برند OpenAI با قلم سفید روی پس‌زمینه گرادیانی آبی و نارنجی روشن، نمادی از خدمت تبلیغات جدید در ChatGPT و توسعه محصولات هوش مصنوعی ارتباطی.

کاربران رایگان چت جی‌پی‌تی از امروز تبلیغ خواهند دید

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

چرا این برنامه باستانی هنوز از ویندوز ۱۱ حذف نشده است؟

چرا این برنامه باستانی هنوز از ویندوز ۱۱ حذف نشده است؟

26 اردیبهشت 1405
چین از نخستین رایانه کوانتومی دوهسته‌ای جهان رونمایی کرد

چین از نخستین رایانه کوانتومی دوهسته‌ای جهان رونمایی کرد

21 اردیبهشت 1405 - به‌روزشده در 22 اردیبهشت 1405

داغ‌ترین‌های روز

پردازنده اینتل به فرکانس ۹.۲ گیگاهرتز رسید و رکورد اورکلاک را شکست

پردازنده اینتل به فرکانس ۹.۲ گیگاهرتز رسید و رکورد اورکلاک را شکست

27 اردیبهشت 1405
ویندوز ۱۱ بالاخره به قابلیت تغییر اندازه و جابه‌جایی تسک‌بار مجهز شد

ویندوز ۱۱ بالاخره به قابلیت تغییر اندازه و جابه‌جایی تسک‌بار مجهز شد

26 اردیبهشت 1405 - به‌روزشده در 27 اردیبهشت 1405
برنامه Google Earth با قابلیت‌ های متنوع و جذاب خود، امکانات وسیعی را برای مشاهده اماکن و نقشه‌ های قدیمی برای کاربران به ارمغان می‌آورد.

سفر به گذشته با Google Earth

17 فروردین 1403 - به‌روزشده در 27 مهر 1404
ایسوس نخستین رم ROG را با قیمت ۸۸۰ دلار معرفی کرد

ایسوس نخستین رم ROG را با قیمت ۸۸۰ دلار معرفی کرد

27 اردیبهشت 1405

نروژ مرفه‌ترین کشور جهان در سال ۲۰۲۶ شد

27 اردیبهشت 1405 - به‌روزشده در 28 اردیبهشت 1405
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

پس‌کی جایگزین رمز عبور و تایید هویت پیامکی در ویندوز ۱۱ می‌ شود

پس‌کی جایگزین رمز عبور و تایید هویت پیامکی در ویندوز ۱۱ می‌ شود

29 اردیبهشت 1405

ربات انسان‌نمای چینی روی دیوار فلزی راه می‌رود و جوشکاری می‌کند

29 اردیبهشت 1405
زمان برگزاری رویداد WWDC 2026 اپل با نمادی مرموز اعلام شد

زمان برگزاری رویداد WWDC 2026 اپل با نمادی مرموز اعلام شد

29 اردیبهشت 1405
بهره‌وری پردازنده‌های انویدیا

هزینه دو برابری Blackwell؛ راز تقاضای بالای انویدیا چیست؟

29 اردیبهشت 1405

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir