به نظر میرسد گوگل در مورد تواناییهای پیشرفتهترین مدل هوش مصنوعی خود Gemini که به تازگی عرضه شده است، اغراق کرده است.
به گزارش تکناک و بر اساس یک گزارش از بلومبرگ، شبهاتی در مورد دقت اطلاعات ارائه شده توسط گوگل در یک ویدیوی اخیر وجود دارد. در این ویدیو، که با عنوان “چه ارتباطی” منتشر شده، تواناییهای Gemini به نمایش گذاشته شده است.
این ویدیو تأکید زیادی بر تواناییهای چندوجهی Gemini دارد، از جمله ترکیب قابلیتهای پیشرفته شناسایی تصویر و پردازش زبان طبیعی.
ویدیوی مورد بحث، که شش دقیقه طول دارد، به نمایش تواناییهای Gemini در شناسایی سریع تصاویر و پاسخدهی به آنها میپردازد. به عنوان مثال، نحوه تشخیص تصاویر پیچیده و پیشبینی رویدادهای آینده توسط این سیستم به تصویر کشیده شده است.
با این حال، ستوننویس بلومبرگ، پارمی اولسون، ادعا میکند که تواناییهای نشان داده شده در ویدیو ممکن است اغراقآمیز باشند و واقعیت عملکرد Geminiرا به درستی منعکس نکنند.
گزارش بلومبرگ تأکید میکند که در حالی که انسانها قادر به انجام بسیاری از کارهای نشان داده شده در ویدیو هستند، اما هوش مصنوعی Gemini ادعا میکند که میتواند این کارها را با سرعت و دقت بالایی انجام دهد. این امر بحثهایی را در مورد حدود و محدودیتهای فعلی تکنولوژی هوش مصنوعی و نحوه ارائه آن به عموم مردم به وجود آورده است.
این گزارش نشان میدهد که گوگل در توضیحات ویدئویی که در یوتیوب منتشر کرده، اذعان داشته که برای نمایش هوش مصنوعی Gemini ، برخی از جنبههای نمایش تغییر کردهاند. این امر شامل کاهش تاخیرها و کوتاه کردن خروجیهای جمینی برای اختصار میشود. چنین تغییراتی ممکن است تأثیر قابل توجهی بر ادراک مخاطب از تواناییهای واقعی سیستم داشته باشد.
پارمی اولسون در مقاله بلومبرگ بر این نکته تأکید میکند که ویدئوی نمایشی گوگل در واقعیت از فریمهای ثابت تصویری استفاده کرده و سپس متن فرمانهایی را نوشته که Gemini به آنها پاسخ داده است. این رویکرد با آنچه در ویدئو به نظر میرسد – یک گفتگوی صوتی روان و زنده با هوش مصنوعی – متفاوت است.
اولسون اشاره میکند که این شیوه ارائه ممکن است تصویری متفاوت از واقعیت قابلیتهای هوش مصنوعی جمینی ارائه دهد. این موضوع بحثهایی را درباره اعتبار و شفافیت ارائههای فناوری ایجاد میکند، به خصوص زمانی که شرکتها محصولات و قابلیتهای خود را برای عموم مردم نمایش میدهند.
همچنین، گزارش اشاره میکند شرکتها اغلب ویدیوهای تبلیغاتی خود را ویرایش میکنند تا از وقوع اشکالات فنی احتمالی در طول نمایشهای زنده پیشگیری کنند. این شیوه، به ویژه در صورتی که هدف کاهش خطاهای فنی باشد، کاملاً متداول است.
با این حال، در مواردی که گوگل نمایشهای ویدئویی خود را ارائه داده است، اغلب این پرسش مطرح میشود که آیا آنها واقعاً نشاندهنده تواناییهای فناوری مورد نظر هستند یا خیر. مثال بارز این موضوع، نمایش دوپلکس گوگل است – دستیار صوتی هوش مصنوعی که برای رزرو وقت در آرایشگاهها و رستورانها طراحی شده بود. در این مورد، نبود صدای محیطی واقعی و رفتار غیرمعمول کارکنان سوالاتی را در مورد اعتبار نمایش ایجاد کرد. همچنین، مواردی مانند ویدئوهای ویرایش شده بایدو در مورد ربات ارنی، که منجر به سقوط سهام شرکت شد، نمونههایی از چگونگی تأثیر این نمایشها بر اعتماد عمومی هستند.
تحلیل اولسون در مورد اینکه گوگل با نمایش جمینی تلاش میکند توجهات را از این واقعیت منحرف کند که Gemini هنوز از نظر عملکرد پشت سر GPT اوپنایآی قرار دارد، یک دیدگاه جالب است. این ادعا بیانگر تلاش گوگل برای حفظ رقابتپذیری در عرصه هوش مصنوعی است، مخصوصاً در مقابل پیشرفتهای چشمگیری که توسط اوپنایآی با مدلهای GPT ارائه شده است.
از طرف دیگر، گوگل این نظر را رد میکند و به توضیحات اوریول وینیالس، معاون تحقیقات و سرپرست یادگیری عمیق در دیپمایند گوگل و سرپرست مشترک پروژه Gemini ، اشاره میکند. وینیالس تأکید میکند که القائات کاربر و خروجیهای نمایش داده شده در ویدئو واقعی هستند، اگرچه برای اختصار ویرایش شدهاند. او میگوید که هدف از ساخت این ویدئو الهام بخشیدن به توسعهدهندگان بوده است.
با این حال، این توضیحات همچنان بحثها در مورد اعتبار و شفافیت در نمایش فناوریهای پیشرفته را تقویت میکند. در حالی که نمایشهای ویدئویی ویرایش شده ممکن است برای اجتناب از مشکلات فنی در نمایشهای زنده مفید باشند، اما ممکن است به ایجاد تصویری غیرواقعی از قابلیتهای فناوری منجر شوند.
اولسون پیشنهاد میکند که روش بهتر برای گوگل در مواجهه با چالشهای رقابتی این است که به جای تمرکز بر نمایشهای ویرایش شده، به توسعهدهندگان و خبرنگاران اجازه دهند تا با محصول واقعی تجربه کنند. این رویکرد میتواند اعتماد به نفس بیشتری در قابلیتهای واقعی جمینی ایجاد کند و به گوگل امکان دهد تا به طور مؤثرتری با رقبای خود رقابت کند. اجازه دادن به استفاده عمومی از جمینی در یک بتای عمومی میتواند نه تنها به توسعهدهندگان الهام ببخشد بلکه به مردم اجازه میدهد تا قدرت واقعی این فناوری را درک کنند.