گوگل به جای ساخت دستیار صوتی تلفن همراه، به دنبال دستیاری برای دنیای واقعی است.
به گزارش تکناک، تا به امروز، پرکاربردترین دستیارهای صوتی به شما امکان برقراری ارتباط با تلفن همراه از طریق دستورات صوتی را دادهاند. بدون شک، استفاده از دستگاه تلفن همراه بدون نیاز به دست بسیار کاربردی است.
برای گوگل، اوج سرمایهگذاری در این زمینه، دستیار صوتی جدید گوگل در سال ۲۰۱۹ بود که برای اولین بار روی پیکسل ۴ معرفی شد. هدف گوگل این بود که «به شما امکان دهد فورا تلفن خود را با صدا به کار بیاندازید، در چندین برنامه به طور همزمان کار کنید و کارهای پیچیده را انجام دهید، همه اینها تقریباً بدون تأخیر».
این شرکت با پردازش صوتی روی دستگاه که باعث کارکرد این دستیار میشد، جسورانه اعلام کرد که «ضربه زدن برای کار با تلفن همراه تقریباً کند به نظر میرسد».
متأسفانه، این تجربه (که هنوز هم امروز روی گوشیهای پیکسل وجود دارد) از کاربران میخواست که به عبارات خاصی پایبند باشند و به آنها اجازه نمیداد به طور طبیعی صحبت کنند و به طور خودکار هدف را تشخیص دهند. در همین حال، اقدامات احتمالی بسیار محدود بودند و با بسیاری از برنامهها کار نمیکردند.
سیری در iOS 18 با هوش مصنوعی اپل، بار دیگر با مدلهای زبان بزرگ (LLM) که احتمالاً کلید دستیار صوتیای هستند که میتواند از هر برنامهای روی تلفن شما استفاده کند، به این موضوع میپردازد.
گوگل در حال تحقیق در مورد همین موضوع بوده و ممکن است همچنان بتواند چنین دستیاری بسازد. با این حال، پس از کنفرانس I/O 2024، دیگر فکر نمیکنیم این اولویت گوگل باشد.
در عوض، گوگل در نهایت میخواهد یک دستیار هوش مصنوعی بسازد که به شما در دنیای واقعی کمک کند. این ایده بر این اساس است که بیشتر سوالات و مشکلات شما همچنان بدون معادل دیجیتالی در دنیای واقعی اتفاق میافتد.
هسته اصلی این موضوع، امکان نشانهگیری تلفن همراه (یا عینک هوشمند در آینده) به چیزی و درخواست اطلاعات یا کمک بیشتر است..
این همان چیزی است که گوگل با Project Astra به نمایش گذاشت، که به تجربه تعاملی Gemini Live خواهد رسید که به شما امکان میدهد گفتگوی طبیعی دو طرفه داشته باشید. انتظار میرود راهاندازی زنده با جِمینی در سال جاری انجام شود، و بخش صوتی آن زودتر از قابلیتهای دوربین عرضه شود.
در همین حال، بخش زیادی از اطلاعات شما به صورت عکس و ویدیو ذخیره میشود. قابلیت «از عکسها بپرس» که با نیروی جِمینی کار میکند، کتابخانه شما را به مجموعهای از دانش دنیای واقعی شما تبدیل میکند که گوگل میتواند از آن برای کمک به شما استفاده کند.
عکسبرداری از اطلاعات در دنیای واقعی و سازماندهی آن توسط گوگل، واقعاً صرفهجویی در زمان و کمککننده است. یکی از نمونههای مورد علاقه من از این مورد در I/O، موردی است که چندان چشمگیر نیست. موارد الحاقی جِمینی برای Google Calendar، Keep و Tasks در راه است:
“شما میتوانید کارهایی مانند عکس گرفتن از برنامه درسی فرزندتان و درخواست از جِمینی برای ایجاد یک ورودی تقویم برای هر تکلیف، یا عکس گرفتن از یک دستور غذای جدید و اضافه کردن آن به Keep خود به عنوان لیست خرید انجام دهید.”
به طور قطع چیزی که بتواند به شما در پیمایش جهان کمک کند، به نظر میرسد بسیار جذابتر و چشمگیرتر از یک دستیار صوتی باشد که میتواند در تلفن شما جابهجا شود، چیزی که گوگل به خوبی روی آن کار میکند. کاربران اندروید ممکن است یک دستیار تلفن همراه بازسازیشده را ترجیح دهند و هنوز مشخص نیست که چیزی شبیه به Astra چقدر مفید است، اما نمیتوانید گوگل را متهم کنید که برای رسیدن به بهترینها تلاش نمیکند.
هدف اعلامشدهی Project Astra ساخت یک «عامل هوش مصنوعی جهانی است که واقعاً در زندگی روزمره مفید باشد». ورودی دوربین که نمای زندهای از جهان را ارائه میدهد، واقعاً مشکلی را حل میکند که از زمان پیدایش گوگل وجود داشته است: برخی از سؤالات و زمینههای دنیای واقعی آنها را نمیتوان به راحتی برای یک پرسش متنی به کلمات درآورد.