• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » دسته‌بندی نشده » پایان سکوت ویدئوها؛ مدل هوش مصنوعی VSSFlow اپل صدا و گفتار را با هم خلق می‌کند!

پایان سکوت ویدئوها؛ مدل هوش مصنوعی VSSFlow اپل صدا و گفتار را با هم خلق می‌کند!

اسما کلهر نوشته شده توسط اسما کلهر
دوشنبه 20 بهمن 1404 - 23:00
در دسته‌بندی نشده
نمودار تحلیل فریم‌های ویدئویی و طیف‌نگار صوتی برای تولید صدای گربه، دوبله و جلوه‌های صوتی توسط مدل هوش مصنوعی.
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

محققان اپل با معرفی مدل هوش مصنوعی VSSFlow، مرزهای تولید محتوا را جابه‌جا کردند؛ سیستمی که برخلاف مدل‌های قبلی، هم‌زمان جلوه‌های صوتی و دیالوگ می‌سازد.

به گزارش سرویس هوش مصنوعی تک‌ناک، تیمی متشکل از محققان اپل و دانشگاه رنمین چین، از مدل هوش مصنوعی نوینی با نام VSSFlow پرده‌برداری کرده‌اند که قابلیت چشمگیری در تولید هم‌زمان جلوه‌های صوتی و گفتار از ویدئوهای صامت دارد. این سیستم یکپارچه و واحد با نتایجی پیشرفته، مشکلات دیرینه در حوزه تولید محتوای صوتی از ویدئو را حل می‌کند و پارادایم جدیدی را در هوش مصنوعی مولد بنیان می‌نهد.

در‌حال‌حاضر، مدل‌های هوش مصنوعی فعال در این زمینه معمولاً با محدودیت‌های تخصصی روبه‌رو هستند. اکثر مدل‌های تبدیل ویدئو به صدا (Video-to-Sound یا V2S) که برای تولید صدا از ویدئوهای صامت آموزش دیده‌اند، در تولید گفتار عملکرد ضعیفی از خود نشان می‌دهند. به همین ترتیب، مدل‌های تبدیل متن به گفتار (Text-to-Speech یا TTS) که هدف متفاوتی دارند، در تولید صداهای غیرگفتاری ناتوان هستند.

تلاش‌های پیشین برای یکپارچه‌سازی این دو وظیفه، اغلب بر این فرض استوار بود که آموزش مشترک می‌تواند به کاهش عملکرد منجر شود. این تصور غلط طراحی سیستم‌هایی را به‌دنبال داشت که آموزش گفتار و صدا را در مراحل جداگانه انجام می‌دادند و بدین‌ترتیب، پیچیدگی فرایند را به‌شدت افزایش می‌دادند.

نمودار فنی معماری مدل هوش مصنوعی VSSFlow که فرآیند تبدیل فریم‌های ویدئو به خروجی صوتی را نشان می‌دهد.

به‌طور خلاصه، VSSFlow از چندین مفهوم پیشرفته در هوش مصنوعی مولد بهره می‌برد:

  • تبدیل رونویسی‌ها به توالی‌های آوایی (فونم) از توکن‌ها: این امر به مدل اجازه می‌دهد تا گفتار را با دقت فراوانی تولید کند.
  • یادگیری بازسازی صدا از نویز با استفاده از تطبیق جریان (Flow-Matching): درباره این شیوه پیش‌تر نیز در حوزه هوش مصنوعی بحث شده است و به مدل آموزش می‌دهد که به‌طور مؤثری از نویز تصادفی شروع کند و به سیگنال صوتی مدنظر دست یابد.

تمام این مفاهیم در معماری ۱۰ لایه‌ای گنجانده شده‌اند که سیگنال‌های ویدئویی و رونویسی متنی را به‌طور مستقیم در فرایند تولید صدا ادغام می‌کند. این ادغام امکان مدیریت هم‌زمان جلوه‌های صوتی و گفتار را در سیستمی واحد فراهم می‌آورد. جالب‌تر اینکه محققان خاطرنشان کرده‌اند که آموزش مشترک روی گفتار و صدا، درواقع عملکرد را در هر دو وظیفه بهبود بخشیده است و نه‌تنها باعث رقابت بین این دو یا کاهش عملکرد کلی هر یک از وظایف نمی‌شود.

برای آموزش مدل هوش مصنوعی VSSFlow، محققان از ترکیبی از داده‌ها شامل ویدئوهای صامت با صداهای محیطی (V2S) و ویدئوهای گفتاری صامت همراه با رونویسی (VisualTTS) و داده‌های تبدیل متن به گفتار (TTS) استفاده کردند. این رویکرد به مدل اجازه داد تا هم جلوه‌های صوتی و هم گفت‌وگوی گفتاری را هم‌زمان در فرایند آموزش سرتاسری (End-to-End) یاد بگیرد.

جداول داده‌های آماری برای مقایسه عملکرد مدل VSSFlow با سایر متدها در بنچمارک‌های صوتی و تصویری.

در ابتدا، VSSFlow به‌تنهایی نمی‌توانست به‌طور خودکار صدای پس‌زمینه و گفت‌وگوی گفتاری را هم‌زمان در خروجی واحد تولید کند. برای غلبه بر این محدودیت، محققان مدل از‌پیش‌آموزش‌دیده خود را روی مجموعه‌ای بزرگ از نمونه‌های مصنوعی که در آن‌ها گفتار و صداهای محیطی باهم ترکیب شده بودند، بهینه‌سازی (fine-tuned) کردند تا مدل چگونگی همزمانی این دو را بیاموزد.

به نقل از 9to5mac، برای به کارگیری VSSFlow، مدل از نویز تصادفی آغاز می‌کند و از نشانه‌های بصری نمونه‌برداری‌شده از ویدئو با نرخ ۱۰ فریم‌برثانیه برای شکل‌دهی به صداهای محیطی بهره می‌برد. هم‌زمان رونویسی آنچه گفته می‌شود، راهنمایی دقیقی برای تولید گفتار فراهم می‌آورد.

در آزمایش‌های مقایسه‌ای با مدل‌های خاص منظوره که فقط برای جلوه‌های صوتی یا فقط برای گفتار طراحی شده بودند، مدل هوش مصنوعی VSSFlow در هر دو وظیفه نتایج کاملاً رقابتی ارائه داد و با وجود استفاده از سیستم واحد و یکپارچه، در چندین معیار مهم پیشتاز بود. محققان دموهای متعددی از نتایج تولید صدا و گفتار و تولید مشترک از ویدئوهای Veo3 و مقایسه‌هایی بین VSSFlow و چندین مدل جایگزین را منتشر کرده‌اند.

در اقدامی مهم برای جامعه هوش مصنوعی، محققان کد VSSFlow را در گیت‌هاب متن‌باز (open-source) کرده‌اند و درحال کار روی متن‌بازکردن وزن‌های مدل و ارائه دمو استنتاج (Inference) برای کاربران هستند.

اسما کلهر

اسما کلهر

دانش آموخته مترجمی زبان انگلیسی ،نویسنده حوزه تکنولوژی

مطالب مرتبط

نمای جلویی و پشت گوشی سامسونگ Galaxy F70e 5G با رنگ سبز نعنایی.
پیشنهاد سردبیر

سامسونگ گلکسی F70e را با پردازنده دیمنسیتی ۶۳۰۰ و باتری ۶,۰۰۰ میلی‌آمپرساعتی رونمایی کرد

نوشته شده توسط امیرحسین یونس
20 بهمن 1404
لوگوی آبی‌رنگ مِتا (Meta) به همراه تایپوگرافی آن روی یک پس‌زمینه با بافت عمودی.
دسته‌بندی نشده

متا با اپلیکیشن مستقل «وایبز» بازار تولید ویدئوهای هوش مصنوعی را داغ می کند

نوشته شده توسط اسما کلهر
16 بهمن 1404
رندر مفهومی از آیفون تاشو (Foldable iPhone) در حالت نیمه‌باز که نمایشگر داخلی بزرگ و انعطاف‌پذیر را نشان می‌دهد. صفحه‌نمایش دارای جلوه‌های رنگین و ایرایدسنت با ترکیب رنگ‌های آبی، بنفش و صورتی است. طراحی دستگاه شامل فریم باریک، لولا در مرکز و فرم شبیه کتاب است.
دسته‌بندی نشده

رکورد باتری آیفون با مدل تاشو شکسته می‌شود

نوشته شده توسط تارخ ترهنده
13 بهمن 1404
رابط کاربری بخش "Google Photos memories" روی یک تلویزیون سامسونگ که آلبوم‌های مختلفی مانند تعطیلات تابستانی و تولد را نمایش می‌دهد.
دسته‌بندی نشده

همکاری استراتژیک سامسونگ و گوگل؛ آلبوم‌های خاطرات به تلویزیون‌های بزرگ می‌آیند

نوشته شده توسط امیرحسین یونس
8 دی 1404 - به‌روزشده در 9 دی 1404
آدمک سیاه سه‌بعدی که سر خود را میان دستانش گرفته و سه علامت سوال بزرگ صورتی، آبی و طلایی در کنار اوست.
دسته‌بندی نشده

هوش مصنوعی اپل در چین تحت آزمون سانسور شدید؛ پاسخ‌ندادن به ۲,۰۰۰ پرسش حساس

نوشته شده توسط امیرحسین یونس
3 دی 1404
خبر بعدی
تصویر گرافیکی از لوگوی ChatGPT و برند OpenAI با قلم سفید روی پس‌زمینه گرادیانی آبی و نارنجی روشن، نمادی از خدمت تبلیغات جدید در ChatGPT و توسعه محصولات هوش مصنوعی ارتباطی.

کاربران رایگان چت جی‌پی‌تی از امروز تبلیغ خواهند دید

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

نمای نزدیک از پنل پشتی گوشی شیائومی ۱۸ پرو شامل ماژول دوربین سه‌گانه با برند لایکا و یک صفحه نمایش کوچک ثانویه.

شیائومی ۱۸ پرو با دو دوربین ۲۰۰ مگاپیکسلی در یک بدنه جمع‌وجور ۶.۳ اینچی عرضه می شود

20 بهمن 1404
اشتباه تایپی صرافی کره‌ای ۴۴ میلیارد دلار بیت‌کوین را به باد داد

اشتباه تایپی صرافی کره‌ای ۴۴ میلیارد دلار بیت‌کوین را به باد داد

19 بهمن 1404

داغ‌ترین‌های روز

یک لپ‌تاپ ویندوزی در مقابل تپه‌ای از چاپگرهای قدیمی و مستهلک که نشان‌دهنده پایان پشتیبانی از درایورهای قدیمی است.

ویندوز ۱۱ در سال ۲۰۲۶ به پشتیبانی از درایورهای قدیمی چاپگر پایان می‌دهد؛ آماده‌باش برای کاربران!

18 بهمن 1404
این دو موشک ایرانی سامانه های پدافندی را به چالش می کشند + اینفوگرافیک

این دو موشک ایرانی سامانه های پدافندی را به چالش می کشند + اینفوگرافیک

19 بهمن 1404
بهترین گوشی های دکمه ای

بهترین گوشی های دکمه ای بازار از نوکیا، جی ال ایکس و آلکاتل

19 بهمن 1404 - به‌روزشده در 20 بهمن 1404
بررسی Galaxy A07 5G

بررسی Galaxy A07 5G ؛ گوشی اقتصادی جذاب سامسونگ با پشتیبانی از 5G

19 بهمن 1404
طرح گرافیکی از بخش بالایی و کناری گوشی آیفون با متن بزرگ "iPhone 17e" در پس‌زمینه سبز و زرد.

اقتصادی‌ترین گوشی اپل در راه است؛ هر آنچه از آیفون 17e می‌دانیم

18 بهمن 1404 - به‌روزشده در 19 بهمن 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

نمای نزدیک از پنل پشتی گوشی شیائومی ۱۸ پرو شامل ماژول دوربین سه‌گانه با برند لایکا و یک صفحه نمایش کوچک ثانویه.

شیائومی ۱۸ پرو با دو دوربین ۲۰۰ مگاپیکسلی در یک بدنه جمع‌وجور ۶.۳ اینچی عرضه می شود

20 بهمن 1404
نمای داخلی یک کیس کامپیوتر گیمینگ با نورپردازی آبی و فن خنک‌کننده در حال چرخش.

مایکروسافت ۳۲ گیگابایت رم را به عنوان نقطه بهینه برای گیمرهای جدی معرفی می‌کند

20 بهمن 1404
نمای نزدیک از صفحه یک گوشی هوشمند که لوگوی رنگی و متن سفید Microsoft Copilot را نمایش می‌دهد.

مایکروسافت برای تبلیغ “کوپایلت” به اینفلوئنسرها مبالغ هنگفت می‌پردازد

20 بهمن 1404
یک تبلت روی میز که صفحه اپلیکیشن Signal Private Messenger را در محیط مایکروسافت استور نشان می‌دهد.

پیام‌رسان خصوصی سیگنال به فروشگاه مایکروسافت در ویندوز ۱۱ و ۱۰ پیوست

20 بهمن 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir