پشتیبانی از بارگذاری ویدئو در جمنای؛ گام بلند گوگل برای درک محتوای چندرسانه‌ای

در نسخه جدید بتای اپلیکیشن گوگل، شواهدی از پشتیبانی احتمالی هوش مصنوعی جمنای از بارگذاری و تحلیل ویدئو مشاهده شده است.

به گزارش تک‌ناک، گوگل به‌زودی قابلیت بارگذاری فایل‌های ویدئویی را به پلتفرم هوش مصنوعی جمنای اضافه می‌کند. طبق بررسی نسخه جدید فایل APK اپلیکیشن گوگل، شواهدی مبنی‌بر آماده‌سازی زیرساخت‌های این ویژگی به دست آمده است. این قابلیت به کاربران کمک می‌کند تا ویدئوهای دلخواهشان را در جمنای بارگذاری و از آن‌ها به‌عنوان ورودی برای تحلی و، استخراج اطلاعات یا حتی تولید پاسخ‌های متنی استفاده کنند. هرچند هنوز زمان دقیق انتشار این قابلیت اعلام نشده، انتظار می‌رود به‌زودی شاهد معرفی رسمی آن باشیم.

از آغاز موج گسترده پیشرفت در حوزه هوش مصنوعی، مدل‌های زبانی به‌طور پیوسته در حال ارتقا بوده‌اند و توانایی درک انواع مختلفی از ورودی‌ها ازجمله تصویر و صدا و اخیراً ویدئو را به دست آورده‌اند. در روزهای ابتدایی، چت‌بات‌ها صرفاً می‌توانستند متون را پردازش کنند؛ اما اکنون تمرکز توسعه‌دهندگان بر گسترش دامنه درک این مدل‌ها و افزودن قابلیت‌هایی همچون تحلیل و تولید محتوای ویدئویی است. شرکت‌های بزرگی مانند OpenAI و متا و گوگل با توسعه ابزارهایی که توانایی درک محتوای ویدئویی دارند، در حال تغییر چهره فناوری هستند.

به نقل از اندروید هدلاینز، در این میان گوگل، یکی از پیش‌گامان عرصه هوش مصنوعی، مدت‌هاست که ابزارهای متنوعی مانند تولید متن و تصویر و حتی صدا را به‌‌رایگان در اختیار کاربران قرار داده است. اکنون، به‌ نظر می‌رسد این شرکت آماده است تا قدم بعدی را نیز بردارد و امکان بارگذاری و تحلیل ویدئو را به جمنای بیفزاید.

قابلیت بارگذاری فایل‌های ویدیویی در پلتفرم هوش مصنوعی جمنای

طبق اطلاعات اندروید اتوریتی، در نسخه ۱۶/۱۳/۳۸ بتای اپلیکیشن گوگل کدهایی یافت شده است که به‌وضوح به قابلیت بارگذاری ویدئو در جمنای اشاره می‌کند. این نسخه از اپلیکیشن پشتیبانی از فرمت‌های ویدئویی رایج نظیر MP4 ،‌MOV ،‌AVI ،‌FLV ،‌MPEG ،‌MPG ،‌3GP و WebM را در خود جای داده است. این فهرست به‌خوبی نشان می‌دهد که کاربران در تحلیل اکثر ویدئوهای خود با محدودیتی مواجه نخواهند شد.

در‌حال‌حاضر، کاربران جمنای می‌توانند فایل‌های رسانه‌ای و اسناد مختلفی را در این پلتفرم بارگذاری کنند؛ اما نبود پشتیبانی از ویدئو یکی از ضعف‌های اصلی آن بود. اضافه‌شدن این قابلیت می‌تواند گستره کارایی جمنای را افزایش چشمگیری دهد؛ از تحلیل محتوای آموزشی و ارائه‌های تصویری گرفته تا بررسی ویدئوهای تبلیغاتی و فیلم‌ها و کلیپ‌های شبکه‌های اجتماعی.

نکته جالب اینکه گوگل احتمالاً امکان بارگذاری هم‌زمان چند ویدئو را نیز فراهم خواهد کرد. با‌این‌حال طبق رشته‌کدهای موجود در برنامه، محدودیت‌هایی براساس مجموع مدت‌زمان ویدئوها اعمال می‌شود. دو پیام مهم در کد وجود دارد: یکی به محدودیت یک‌دقیقه‌ای برای کاربران عادی و دیگری به محدودیت یک‌ساعته برای کاربران نسخه پیشرفته یا Gemini Advanced اشاره می‌کند. این موضوع نشان می‌دهد که گوگل احتمالاً از مدل‌های اشتراک‌محور برای ارائه قابلیت‌های پیشرفته‌تر استفاده خواهد کرد.

با اینکه هنوز تاریخ مشخصی برای عرضه این ویژگی تعیین نشده، با توجه به اهمیت و کاربرد گسترده آن، بعید است گوگل از پیاده‌سازی آن صرف‌نظر کند. ناگفته نماند که رویداد گوگل I/O در پیش است و این احتمال وجود دارد که شرکت در حاشیه این رویداد، به‌طور رسمی از قابلیت جدید پرده‌برداری کند.

درمجموع، پشتیبانی از بارگذاری و تحلیل ویدئو در جمنای نه‌تنها قدمی بزرگ برای توسعه قابلیت‌های چندرسانه‌ای در هوش مصنوعی به‌ شمار می‌رود؛ بلکه می‌تواند مسیر استفاده خلاقانه و حرفه‌ای از مدل‌های زبانی را برای کاربران بازتر از همیشه کند. به بیان بهتر، این تحول فاصله بین ابزارهای سنتی تحلیل داده و فناوری‌های نوین هوش مصنوعی را هرچه‌بیشتر کاهش خواهد داد.