با لب‌خوانی در ویژن پرو اپل، حتی در سکوت فرمان بدهید!

لب‌خوانی در ویژن پرو اپل به‌زودی جایگزین فرمان‌های صوتی می‌شود؛ راهکاری انقلابی برای کنترل بی‌صدا و شخصی‌سازی‌شده در هدست‌های آینده.

به گزارش تک‌ناک، اپل در حال توسعه فناوری جدیدی برای نسل جدید هدست ویژن پرو است که می‌تواند بدون نیاز به صدا، تنها ازطریق لب‌خوانی فرمان‌های کاربر را دریافت کند. این فناوری نوین می‌تواند تجربه کاربری را در شرایط خاص مانند محیط‌های شلوغ یا موقعیت‌هایی که سکوت لازم است، ارتقای چشمگیری دهد.

این قابلیت در واقع گسترشی از ویژگی فعلی موجود در ایرپاد پرو است که به کاربران کمک می‌کند تا با تکان‌دادن سر خود تماس تلفنی را رد کنند یا با حرکت تأییدی سر آن را بپذیرند. هدف اپل از این نوآوری ایجاد راه‌های ارتباطی جایگزین در موقعیت‌هایی است که کاربر نمی‌تواند صحبت کند یا دستانش برای تعامل با دستگاه آزاد نیست.

اپل‌اینسایدر می‌نویسد در درخواست ثبت اختراعی که اخیراً با عنوان «دستگاه الکترونیکی با ساختار دیکته» منتشر شده، اپل امکان استفاده از لب‌خوانی برای دریافت دیکته بدون صدای کاربر را بررسی کرده است. در بخشی از این سند آمده است:

دیکته صوتی ممکن است به‌ویژه در محیط‌های عمومی یا مکان‌هایی که در آن سکوت و حریم خصوصی یا احتیاط لازم است، ناخوشایند یا محدودکننده باشد.

اپل به مسئله نویزهای محیطی نیز اشاره و اعلام کرده است که صدای پس‌زمینه می‌تواند باعث اختلال در تشخیص صحیح فرمان‌های صوتی به‌واسطه هدست شود. بنابراین، نیاز به سیستم جدیدی احساس می‌شود که بتواند بدون وابستگی به صدا، فرامین کاربر را تشخیص دهد.

در این طرح پیشنهادی، مجموعه‌ای از حسگرها برای ثبت حرکات دهان و لرزش‌های صورت و حتی جهت نگاه کاربر در نظر گرفته شده‌اند. برای مثال، حسگر بصری نصب‌شده روی فریم نمایشگر که به‌سمت پایین تنظیم شده است، حرکات دهان را می‌تواند تشخیص دهد. همچنین، ممکن است حسگرهای دیگری برای تشخیص لرزش یا تغییر شکل صورت و دوربین داخلی برای دنبال‌کردن جهت نگاه چشم نیز به کار گرفته شود.

در کنار این‌ها، اپل امکان استفاده از دوربین خارجی برای تشخیص اشاره‌های دست را در نظر گرفته است. این اشاره‌ها می‌توانند نقش سیگنال آغاز یا پایان دیکته را ایفا کنند؛ به‌گونه‌ای که هر چیزی که بین این دو ژست با دهان ادا شود، به‌عنوان دیکته ثبت گردد. در این سند، توضیحی درباره استفاده هم‌زمان از صدا برای دیکته داده نشده است. این موضوع باعث نگرانی‌هایی می‌شود؛ ازجمله اینکه بدون سیگنال مشخص، هدست ممکن است در تمام مدت مشغول دریافت دیکته باشد؛ حتی اگر کاربر صرفاً در حال زمزمه‌کردن زیر لب باشد.

با‌این‌حال، اپل از استفاده از صدا به‌عنوان ابزاری برای آموزش الگوریتم تشخیص گفتار نیز سخن گفته است. این فرایند می‌تواند شامل کلیپ‌های صوتی با حجم‌های مختلف، از صدای معمولی (۴۰ تا ۷۰ دسی‌بل) تا نجوا (۲۰ تا ۵۰ دسی‌بل) باشد. داده‌های تصویری نیز با زوایای مختلف از دهان کاربر مانند نمای نیم‌رخ یا زاویه پایین فک، می‌توانند در فرایند آموزش به کار روند. این اختراع به نام تنها یک مخترع، پل ایکس. وانگ (Paul X. Wang)، ثبت شده که سابقه‌ای طولانی در ارائه اختراعات مرتبط با محصولات اپل ازجمله کنترلر بازی برای ویژن پرو اپل دارد.

اگر این نوآوری به مرحله اجرا برسد، می‌تواند نقطه عطفی در تعامل انسان با دستگاه‌های پوشیدنی باشد؛ به‌ویژه در دنیایی که کاربران به‌دنبال روش‌های بی‌صدا و شخصی و مؤثر برای ارتباط با فناوری هستند.