در نسخه جدید بتای اپلیکیشن گوگل، شواهدی از پشتیبانی احتمالی هوش مصنوعی جمنای از بارگذاری و تحلیل ویدئو مشاهده شده است.
به گزارش تکناک، گوگل بهزودی قابلیت بارگذاری فایلهای ویدئویی را به پلتفرم هوش مصنوعی جمنای اضافه میکند. طبق بررسی نسخه جدید فایل APK اپلیکیشن گوگل، شواهدی مبنیبر آمادهسازی زیرساختهای این ویژگی به دست آمده است. این قابلیت به کاربران کمک میکند تا ویدئوهای دلخواهشان را در جمنای بارگذاری و از آنها بهعنوان ورودی برای تحلی و، استخراج اطلاعات یا حتی تولید پاسخهای متنی استفاده کنند. هرچند هنوز زمان دقیق انتشار این قابلیت اعلام نشده، انتظار میرود بهزودی شاهد معرفی رسمی آن باشیم.
از آغاز موج گسترده پیشرفت در حوزه هوش مصنوعی، مدلهای زبانی بهطور پیوسته در حال ارتقا بودهاند و توانایی درک انواع مختلفی از ورودیها ازجمله تصویر و صدا و اخیراً ویدئو را به دست آوردهاند. در روزهای ابتدایی، چتباتها صرفاً میتوانستند متون را پردازش کنند؛ اما اکنون تمرکز توسعهدهندگان بر گسترش دامنه درک این مدلها و افزودن قابلیتهایی همچون تحلیل و تولید محتوای ویدئویی است. شرکتهای بزرگی مانند OpenAI و متا و گوگل با توسعه ابزارهایی که توانایی درک محتوای ویدئویی دارند، در حال تغییر چهره فناوری هستند.
به نقل از اندروید هدلاینز، در این میان گوگل، یکی از پیشگامان عرصه هوش مصنوعی، مدتهاست که ابزارهای متنوعی مانند تولید متن و تصویر و حتی صدا را بهرایگان در اختیار کاربران قرار داده است. اکنون، به نظر میرسد این شرکت آماده است تا قدم بعدی را نیز بردارد و امکان بارگذاری و تحلیل ویدئو را به جمنای بیفزاید.

طبق اطلاعات اندروید اتوریتی، در نسخه ۱۶/۱۳/۳۸ بتای اپلیکیشن گوگل کدهایی یافت شده است که بهوضوح به قابلیت بارگذاری ویدئو در جمنای اشاره میکند. این نسخه از اپلیکیشن پشتیبانی از فرمتهای ویدئویی رایج نظیر MP4 ،MOV ،AVI ،FLV ،MPEG ،MPG ،3GP و WebM را در خود جای داده است. این فهرست بهخوبی نشان میدهد که کاربران در تحلیل اکثر ویدئوهای خود با محدودیتی مواجه نخواهند شد.
درحالحاضر، کاربران جمنای میتوانند فایلهای رسانهای و اسناد مختلفی را در این پلتفرم بارگذاری کنند؛ اما نبود پشتیبانی از ویدئو یکی از ضعفهای اصلی آن بود. اضافهشدن این قابلیت میتواند گستره کارایی جمنای را افزایش چشمگیری دهد؛ از تحلیل محتوای آموزشی و ارائههای تصویری گرفته تا بررسی ویدئوهای تبلیغاتی و فیلمها و کلیپهای شبکههای اجتماعی.
نکته جالب اینکه گوگل احتمالاً امکان بارگذاری همزمان چند ویدئو را نیز فراهم خواهد کرد. بااینحال طبق رشتهکدهای موجود در برنامه، محدودیتهایی براساس مجموع مدتزمان ویدئوها اعمال میشود. دو پیام مهم در کد وجود دارد: یکی به محدودیت یکدقیقهای برای کاربران عادی و دیگری به محدودیت یکساعته برای کاربران نسخه پیشرفته یا Gemini Advanced اشاره میکند. این موضوع نشان میدهد که گوگل احتمالاً از مدلهای اشتراکمحور برای ارائه قابلیتهای پیشرفتهتر استفاده خواهد کرد.
با اینکه هنوز تاریخ مشخصی برای عرضه این ویژگی تعیین نشده، با توجه به اهمیت و کاربرد گسترده آن، بعید است گوگل از پیادهسازی آن صرفنظر کند. ناگفته نماند که رویداد گوگل I/O در پیش است و این احتمال وجود دارد که شرکت در حاشیه این رویداد، بهطور رسمی از قابلیت جدید پردهبرداری کند.
درمجموع، پشتیبانی از بارگذاری و تحلیل ویدئو در جمنای نهتنها قدمی بزرگ برای توسعه قابلیتهای چندرسانهای در هوش مصنوعی به شمار میرود؛ بلکه میتواند مسیر استفاده خلاقانه و حرفهای از مدلهای زبانی را برای کاربران بازتر از همیشه کند. به بیان بهتر، این تحول فاصله بین ابزارهای سنتی تحلیل داده و فناوریهای نوین هوش مصنوعی را هرچهبیشتر کاهش خواهد داد.