No Result

مشاهده تمامی نتایج

No Result

مشاهده تمامی نتایج

تک ناک » فناوری » اخبار هوش مصنوعی » گوگل از مدل های جدید هوش مصنوعی تولید تصویر و ویدیو رونمایی کرد + ویدیو

گوگل از مدل های جدید هوش مصنوعی تولید تصویر و ویدیو رونمایی کرد + ویدیو

نوشته شده توسط نرگس چالوک

چهارشنبه 10 تیر 1405 - 10:00

در اخبار هوش مصنوعی, پیشنهاد سردبیر, فناوری

گوگل از مدل های جدید هوش مصنوعی تولید تصویر و ویدیو رونمایی کرد

شرکت گوگل دو مدل جدید هوش مصنوعی با نام‌های Nano Banana 2 Lite و Gemini Omni Flash با هدف افزایش سرعت تولید محتوای چندرسانه‌ای، کاهش هزینه و بهبود فرایند توسعه معرفی کرد.

به گزارش سرویس هوش مصنوعی تک‌ناک، گوگل این مدل‌ها را هم‌زمان در Google AI Studio، Gemini API، Gemini Enterprise Agent Platform، همچنین محصولات مصرفی خود از جمله Gemini، AI Mode در جست‌وجوی گوگل و Google Flow عرضه کرده است.

مدل Nano Banana 2 Lite سریع‌ترین و مقرون‌به‌صرفه‌ترین عضو خانواده Nano Banana محسوب می‌شود. گوگل این مدل را برای پروژه‌هایی طراحی کرده است که به تولید انبوه تصویر، تأخیر بسیار کم و هزینه پایین نیاز دارند. این مدل اکنون به‌ عنوان جایگزین پیشنهادی Nano Banana یا همان Gemini 2.5 Flash Image معرفی شده است و توسعه‌دهندگان می‌توانند بدون تغییرات پیچیده به آن مهاجرت کنند.

شرکت گوگل اعلام کرد که هوش مصنوعی Nano Banana 2 Lite با شناسه Gemini 3.1 Flash Lite Image قادر است تصاویر را تنها در حدود چهار ثانیه تولید کند. این سرعت، آن را به گزینه‌ای مناسب برای نمونه‌سازی سریع، طراحی اولیه و گردش‌کارهای تعاملی تبدیل می‌کند.

مقایسه سرعت و کیفیت تولید تصویر میان مدل‌های Nano Banana 2 Lite و Nano Banana 2 با استفاده از یک دستور متنی یکسان

هزینه استفاده از این مدل نیز بسیار پایین است. گوگل قیمت آن را ۰٫۰۳۴ دلار برای هر هزار تصویر اعلام کرده است. به همین دلیل، توسعه‌دهندگانی که پروژه‌های بزرگ یا بودجه محدود دارند، می‌توانند با هزینه کمتر حجم بالایی از تصاویر را تولید کنند.

با وجود تمرکز بر سرعت، گوگل اعلام کرد که Nano Banana 2 Lite همچنان دقت مناسبی در اجرای دستورهای متنی، حفظ یکپارچگی شخصیت‌ها و تولید متن خوانا در داخل تصاویر ارائه می‌دهد.

این شرکت هم‌زمان ساختار جدید خانواده Nano Banana را نیز معرفی کرد. در این خانواده، Nano Banana 2 Lite برای پردازش‌های سریع و حجم کاری بالا طراحی شده است. Nano Banana 2 با نام Gemini 3.1 Flash Image نقش مدل عمومی را ایفا می‌کند و میان کیفیت، سرعت و هزینه تعادل برقرار می‌سازد. Nano Banana Pro یا Gemini 3 Pro Image نیز برای کاربردهای حرفه‌ای و پروژه‌هایی توسعه یافته است که دقت و استدلال اهمیت بیشتری نسبت به سرعت دارند. در مقابل، Nano Banana مبتنی بر Gemini 2.5 Flash Image اکنون به‌ عنوان مدل قدیمی شناخته می‌شود و گوگل ارتقا به نسخه Nano Banana 2 Lite را توصیه می‌کند.

مقایسه رسمی گوگل نشان می‌دهد Nano Banana 2 Lite با حفظ کیفیت مناسب، سریع‌ترین مدل خانواده Nano Banana و یکی از مقرون‌به‌صرفه‌ترین گزینه‌ها برای تولید تصویر است. — مقایسه رسمی گوگل نشان می‌دهد که Nano Banana 2 Lite با حفظ کیفیت مناسب، سریع‌ترین مدل خانواده Nano Banana و یکی از مقرون‌به‌صرفه‌ترین گزینه‌ها برای تولید تصویر است.

در کنار این مدل تصویری، گوگل مدل هوش مصنوعی Gemini Omni Flash را نیز برای نخستین بار در اختیار توسعه‌دهندگان قرار داده است. این مدل برای تولید و ویرایش ویدیو و ویرایش مکالمه‌محور طراحی شده و اکنون از طریق Google AI Studio، Gemini API و Gemini Enterprise Agent Platform در دسترس قرار دارد. کاربران عادی نیز می‌توانند از آن در برنامه Gemini و سرویس Google Flow استفاده کنند.

شرکت گوگل بیان کرد که ترکیب Nano Banana 2 Lite و Gemini Omni Flash امکان ایجاد زنجیره کامل تولید محتوای چندرسانه‌ای را فراهم می‌کند. توسعه‌دهندگان می‌توانند ابتدا تصاویر را با سرعت بالا تولید کنند و سپس همان محتوا را برای ساخت یا ویرایش ویدیو به کار بگیرند. این فرایند، سرعت توسعه پروژه‌های مبتنی بر هوش مصنوعی را افزایش می‌دهد و امکان تکرار سریع ایده‌های خلاقانه را فراهم می‌کند.

جدول مقایسه مدل‌های Nano Banana 2 Lite، Nano Banana 2 و Nano Banana Pro از نظر تأخیر، هزینه، کیفیت بصری و توانایی استدلال

علاوه بر پلتفرم‌های توسعه، مدل هوش مصنوعی Nano Banana 2 Lite به‌ تدریج در محصولات مختلف گوگل از جمله AI Mode در جست‌وجوی گوگل، Gemini، NotebookLM، Google Photos، Stitch، Google Flow و Google Ads نیز در دسترس کاربران قرار می‌گیرد.

شرکت گوگل نسخه پیش‌نمایش Gemini Omni Flash را برای توسعه‌دهندگان منتشر کرد. این مدل که نخستین‌بار در رویداد Google I/O معرفی شد، قابلیت تولید و ویرایش ویدیو را با استفاده از متن، تصویر و ویدیو به‌ صورت هم‌زمان در اختیار کاربران قرار می‌دهد. توسعه‌دهندگان اکنون می‌توانند از این مدل در Gemini API و Google AI Studio استفاده کنند.

مدل Gemini Omni Flash با شناسه gemini-omni-flash-preview بر پایه توانایی‌های چندوجهی Gemini توسعه یافته است و می‌تواند با درک هم‌زمان ورودی‌های مختلف، ویدیوهای باکیفیت تولید کند یا آنها را از طریق دستورهای متنی ویرایش نماید. گوگل هزینه استفاده از این مدل را ۰٫۱۰ دلار برای هر ثانیه ویدیوی خروجی اعلام کرده است. این قیمت با مدل Veo 3.1 Fast برابر است.

این ویدیو توانایی Gemini Omni را در تولید جلوه‌های ویژه و ویرایش ویدیو نشان می‌دهد. نسخه اصلی فیلم‌برداری نیز در گوشه تصویر نمایش داده می‌شود تا تفاوت میان ویدیوی خام و خروجی نهایی تولیدشده با هوش مصنوعی مشخص باشد.

یکی از مهم‌ترین قابلیت‌های Gemini Omni Flash، ویرایش مکالمه‌محور ویدیو است. کاربران می‌توانند تنها با استفاده از زبان طبیعی، تغییرات مورد نظر خود را روی ویدیو اعمال کنند. همچنین این مدل از ورودی‌های چندوجهی پشتیبانی می‌کند و می‌تواند متن، تصویر و ویدیو را به‌ صورت هم‌زمان پردازش کند تا صحنه‌ها از نظر سبک و جزئیات، هماهنگی خود را حفظ کنند.

گوگل اعلام کرد که این مدل هوش مصنوعی از دانش عمومی Gemini در حوزه‌هایی مانند تاریخ، زیست‌شناسی و منطق روایت نیز بهره می‌گیرد تا ویدیوهایی طبیعی‌تر و منسجم‌تر تولید کند. همچنین Gemini Omni Flash می‌تواند متن و عناصر گرافیکی را با حرکات و رویدادهای داخل ویدیو هماهنگ کند.

با وجود این، نسخه فعلی این مدل چند محدودیت نیز دارد. در حال حاضر، حداکثر مدت ویدیوهای تولیدشده ۱۰ ثانیه است و گوگل وعده داده است که در آینده از ویدیوهای طولانی‌تر نیز پشتیبانی خواهد کرد.

براساس نتایج منتشرشده، Gemini Omni Flash در معیارهای کیفیت ویرایش و اجرای دقیق دستورهای کاربر از رقبای اصلی خود امتیاز بالاتری کسب کرده است.

در نسخه کنونی، امکان بارگذاری فایل‌های صوتی مرجع و قابلیت گسترش صحنه‌ها از طریق Gemini API وجود ندارد. همچنین اگرچه رابط برنامه‌نویسی از ویدیوهای مرجع تا سه ثانیه پشتیبانی می‌کند، مدل هنوز نمی‌تواند این ویدیوها را به‌ درستی پردازش کند. همچنین گوگل اعلام کرده است که حفظ یکپارچگی شخصیت‌ها هنگام تغییر صحنه یا حرکت دوربین هنوز به بهبود نیاز دارد.

گوگل تأکید کرد که بیشترین کارایی زمانی حاصل می‌شود که Gemini Omni Flash در کنار Nano Banana 2 Lite استفاده شود. در این روش، ابتدا تصویر با سرعت بالا توسط Nano Banana 2 Lite تولید می‌شود و سپس همان تصویر به‌ عنوان مرجع به Gemini Omni Flash ارسال می‌شود تا به یک ویدیوی متحرک تبدیل شود.

همچنین این شرکت از Interactions API برای این گردش‌کار پشتیبانی می‌کند. این رابط برنامه‌نویسی، تاریخچه مکالمه و زمینه پروژه را حفظ می‌کند و به کاربران اجازه می‌دهد تا حداکثر سه مرحله ویرایش متوالی را روی یک پروژه انجام دهند.

شرکت گوگل برای نمایش توانایی‌های این دو مدل هوش مصنوعی، سه برنامه آزمایشی نیز منتشر کرده است. برنامه Anywhere با استفاده از Nano Banana 2 Lite تصویر کاربر را در مکان‌های مشهور جهان قرار می‌دهد و سپس Gemini Omni Flash همان تصویر را به یک ویدیوی متحرک تبدیل می‌کند.

برنامه Space Lift نیز برای طراحی داخلی توسعه یافته است. کاربران با بارگذاری عکس یک اتاق می‌توانند طرح‌های مختلف دکوراسیون را دریافت کنند و سپس با کمک Gemini Omni Flash پیش‌نمایش ویدیویی و سینمایی از فضای بازطراحی‌شده را مشاهده کنند.

نمونه سوم با نام Omni Product Studio تصاویر ثابت محصولات را که توسط Nano Banana 2 Lite تولید شده‌اند، به ویدیوهای تبلیغاتی مناسب فروشگاه‌های اینترنتی تبدیل می‌کند. این برنامه نشان می‌دهد که چگونه می‌توان با ترکیب قابلیت‌های چندوجهی، فرایند تولید محتوای تصویری و ویدیویی را به‌ صورت یکپارچه انجام داد.

برچسب‌ها: p6

نرگس چالوک

به‌عنوان مترجم وب‌سایت خبری در حوزه فناوری فعالیت می‌کنم و تجربه‌ی خوبی در زمینه‌ی سئو، تولید و انتشار محتوا، نگارش و ویرایش مقالات و گزارش‌های خبری دارم.علاوه بر این، مدرس زبان انگلیسی هستم و سال‌هاست به کودکان و بزرگسالان در محیط‌های حضوری و آنلاین آموزش می‌دهم. همیشه تلاش کرده‌ام شیوه‌های آموزشی متنوع و مؤثر را به‌کار بگیرم و با صبر و انگیزه، یادگیری زبان را برای زبان‌آموزان آسان‌تر کنم.

مطالب مرتبط

گوگل ابزار تولید ویدیوهای تیک‌تاکی را به NotebookLM آورد

اخبار هوش مصنوعی

گوگل ابزار تولید ویدیوهای تیک‌تاکی را به NotebookLM آورد

نوشته شده توسط تارخ ترهنده

وان‌پلاس از گوشی اقتصادی N6 با شارژدهی 3 روزه رونمایی کرد

پیشنهاد سردبیر

وان‌پلاس از گوشی اقتصادی N6 با شارژدهی 3 روزه رونمایی کرد + تصویر

نوشته شده توسط ساینا چمنی

آمازون واحد یک میلیارد دلاری FDE را راه‌اندازی کرد

اخبار هوش مصنوعی

آمازون واحد یک میلیارد دلاری FDE را راه‌اندازی کرد

نوشته شده توسط مانی

عامل هوش مصنوعی OpenClaw به موبایل آمد

اخبار هوش مصنوعی

عامل هوش مصنوعی OpenClaw به موبایل آمد

نوشته شده توسط تارخ ترهنده

مدل جدید Claude Sonnet 5 در کدنویسی رقیب ارزان‌تر و قوی‌تر ChatGPT شد

اخبار هوش مصنوعی

مدل جدید Claude Sonnet 5 در کدنویسی رقیب ارزان‌تر و قوی‌تر ChatGPT شد

نوشته شده توسط تارخ ترهنده

خبر بعدی

آمازون واحد یک میلیارد دلاری FDE را راه‌اندازی کرد

آمازون واحد یک میلیارد دلاری FDE را راه‌اندازی کرد

دیدگاهتان را بنویسید لغو پاسخ

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

گوشی‌های تاشوی سامسونگ

طراحی و قاب‌های رسمی گوشی‌های تاشوی سامسونگ لو رفت + تصویر

10 تیر 1405

نخستین رایانه گیمینگ مجهز به سیستم‌عامل SteamOS وارد بازار می‌ شود

نخستین رایانه گیمینگ مجهز به سیستم‌عامل SteamOS وارد بازار می‌ شود

10 تیر 1405

گوگل ابزار تولید ویدیوهای تیک‌تاکی را به NotebookLM آورد

گوگل ابزار تولید ویدیوهای تیک‌تاکی را به NotebookLM آورد

10 تیر 1405

سرقت تجهیزات دیتاسنترها افزایش یافت؛ سرقت ۱.۳ میلیون دلاری ناکام ماند

سرقت تجهیزات دیتاسنترها افزایش یافت؛ سرقت ۱.۳ میلیون دلاری ناکام ماند

10 تیر 1405

دسترسی سریع

© Copyright 2025 Technoc.ir

No Result

مشاهده تمامی نتایج

© Copyright 2025 Technoc.ir