شرکت OpenAI اعلام کرد که شروع به افزودن ویژگیهای جدید صوتی ، همراه با امکان بارگذاری تصاویر که میتوانند تحلیل شوند به ربات چت هوش مصنوعی خود یعنی ChatGPT کرده است.
به گزارش تکناک، شرکت OpenAI در یک پست وبلاگ، اعلام کرد که کاربران ChatGPT به زودی قادر خواهند بود با این ربات چت از طریق میکروفون صحبت کنند.
هنگامی که این ویژگی در برنامه iOS و Android اضافه شود ، کاربران میتوانند به منوی تنظیمات بروند و سپس گزینه ویژگیهای جدید را انتخاب کنند. سپس میتوانند برای شروع مکالمات صوتی در برنامه، ضربه بزنند. در نهایت، میتوانند بر روی نماد هدفون ضربه بزنند و از بین پنج گزینه صوتی یکی را انتخاب کنند.
در حالی که دستیارهای هوش مصنوعی مانند بینگ چت از پیش در تلفنهای هوشمند موجود هستند، شرکت OpenAI با نشاندادن قابلیتهای صوتی جدید ChatGPT و زمان پاسخگویی سریع، تمایز سیستم خود را به رخ می کشد. هر عاملی که میانه زمان تفسیر اعلامیههای گفتاری و دریافت پاسخی با صدای طبیعی را کاهش دهد، قطعاً برای کاربرانی که ترجیح میدهند روی صفحهنمایشهای کوچک ننویسند جذاب تر خواهد بود.
OpenAI می گوید: ویژگی صوتی جدید از یک مدل تبدیل متن به گفتار جدید استفاده می کند، که میتواند فقط با متن و چند ثانیه از نمونه گفتار، صدایی شبیه به انسان ایجاد کند. ما با صداپیشگان حرفهای همکاری کردیم تا صداهای متنوعی را ایجاد کنیم. ما همچنین از Whisper، سیستم تشخیص گفتار متن باز خودمان، استفاده میکنیم تا کلمات گفته شده توسط شما را به متن تبدیل کند.
نکته جالبی از این رونمایی نشان میدهد که چگونه مدل Whisper میتواند صدای شبه انسان را از متن و چند ثانیه نمونه گفتار تولید کند، که میتواند به عنوان مفهومی برای کاربران جهت دیجیتالی کردن صداهای سفارشی برای دستیاران هوش مصنوعی هیجانانگیزتر باشد.
امکان بارگذراری تصاویر در برنامههای موبایل ChatGPT به زودی امکان پذیر خواهد بود. بعد از بارگذاری تصاویر ChatGPT میتواند تصویر را بررسی کند و تعدادی وظایف مختلف مانند تجزیه و تحلیل یک نمودار برای انجام یک Task، رفع مشکل زمانی که یک دستگاه کار نمیکند و بیشتر را انجام دهد.
OpenAI در این مورد می گوید: درک تصویر توسط مدلهای چندحالته GPT-3.5 و GPT-4 قدرت گرفته است. این مدلها تواناییهای استدلال زبانی خود را به دستههای گستردهای از تصاویر، مانند عکسها، تصاویر صفحه نمایش، و اسنادی که هم متن و هم تصویر دارند، اعمال میکنند.
قسمت هیجانانگیز این بهروزرسانی، توانمندی نوین ChatGPT در استخراج جزئیات از هر تصویر ارائه شده توسط شما است.
با فعال کردن دوربین موبایل خود برای گرفتن یک عکس سریع، شما میتوانید ناحیههای مشخصی از تصویر را برای جستجو انتخاب کنید.
شرکت OpenAI در یک ویدئو نشان میدهد یک کاربر چگونه برای کم کردن ارتفاع صندلی دوچرخه، کمک میخواهد. البته، اپلیکیشن با طرح سوالات مربوط به ابزارهای لازم، پاسخهای جامعی ارائه میدهد. طبعاً، ایدههایی مانند سوء تفاهمهای هویتی و سرگرمیهای ذهنی فوراً به ذهن میآیند و OpenAI نیز چالشهای آتی را تایید میکند
OpenAI قبلاً تجربه کار با «Be My Eyes» را داشته است، یک اپلیکیشن موبایل که به وسیلهٔ هوش مصنوعی افراد نابینا یا دارای مشکلات بینایی را به داوطلبانی متصل میکند که میتوانند توضیح دهند دوربین گوشی آنها چه چیزی را نشان میدهد.
بین این اپلیکیشن و شبکه عصبی ChatGPT، تشخیص دقیق اشیا و صحنهها به مرور زمان، به لطف این دادهها، پیشرفت میکند.
با این وجود، محدود کردن هوش مصنوعی از ارائه نظرات در مورد ظاهر افراد، جزء تعادل برقرار کردن بین اصول اخلاقی و محدودیتهای فناوری است..
ویژگیهای جدید در طول چند هفته آینده به برنامه های OpenAIاضافه خواهند شد و ابتدا برای کاربران ChatGPT Plus و Enterprise در دسترس قرار خواهند گرفت. دسترسی این ویژگیها در آینده نزدیک به توسعهدهندگان و سایر کاربران ChatGPT گسترش خواهند یافت.