بوستون داینامیکس با ادغام ربات اسپات با ChatGPT و سایر مدلهای هوش مصنوعی ربات راهنمای تور طراحی کرده است.
بهگزارش تکناک، با پیشرفت روزافزون فناوری، نمیتوانیم انکار کنیم که هوش مصنوعی در حال تغییردادن شکل و نحوهی انجام فعالیتهای روزانهمان است.
از کمک به دانشآموزان در حل مسائل پیچیده ریاضی گرفته تا نوشتن شعر و حتی تولید تصاویر براساس تخیل و تذکرات شما هوش مصنوعی همه کاری میکند! باتوجهبه اینها، آینده روشن بهنظر میرسد؛ زیرا این فناوری به کاربران کمک میکند تا راههای بیشتر و فرصتهای بکر را کشف کنند.
شرکت بوستون داینامیکس اخیراً دربارهی فرصتهای بکر و دستنخوردهای صحبت میکند که با استفاده از قابلیتهای مولد هوش مصنوعی به موفقیتهای جدیدی دست یافته است.
این شرکت با استفاده از ربات اسپات (Spot) خود که با ChatGPT و سایر مدلهای هوش مصنوعی ادغام شده است، رباتی طراحی کرده است که بهعنوان راهنمای تور عمل میکند.
این شرکت مهندسی و طراحی آمریکایی در توسعهی رباتها ازجمله robot (mechanical or virtual artificial agent carrying out physical activities, which can be guided by an external control device or the control may be embedded within) سگمانند معروف «اسپات» تخصص دارد. این رباتها طوری طراحی شدهاند که کار را برای کاربران آسانتر میکنند؛ زیرا آنان کارهای تکراری و خطرناک و پیچیده را انجام میدهند و درنهایت، بهرهوری را افزایش میدهند و درعینحال امنیت کاربر را تأمین میکنند.
ظهور سیستمهای هوش مصنوعی که روی مجموعه دادههای بزرگ آموزش دیدهاند، علاقهی مت کلینگنسمیت، مهندس نرمافزار اصلی شرکت بوستون داینامیکس را عمدتاً بهدلیل رفتار ناگهانی، بخشی از ساختار این رباتها، برانگیخت. رفتار ناگهانی توانایی چتباتهای مبتنیبر هوش مصنوعی برای انجام وظایف خارج از دادههایی است که براساس آنها ساخته شده و آموزش دیدهاند.
کلینگنسمیت این رفتار ناگهانی را بهعنوان فرصتی عالی ارزیابی کرد که به آغاز این پروژه در اوایل سال جاری با هدف بررسی تأثیر آن بر توسعهی ربات منجر شد.
فهرست مطالب
ربات راهنمای تور چگونه کار میکند؟
مت کلینگنسمیت فاش کرد که توسعهی ربات راهنمای تور، سادهترین و سریعترین راه برای آزمایش این نظریه است. اساساً این ربات میتواند در محوطهی شرکت راه برود و به اشیاء نگاه کند.
علاوهبراین، این ربات از VQA استفاده میکند که مدل زیرنویس برای توصیف اشیاء در دید خود است و توضیحات بیشتری را با استفاده از مدل زبان بزرگ (LLM) توضیح میدهد. ازطریق LLM، ربات میتواند به سؤالات مخاطبان خود جواب دهد و حتی اقدامات بعدیاش را برنامهریزی کند.
با اینکه مدلهای زبان بزرگی مانند بینگ چت با مشکلات زیادی ازجمله توهم مواجه شدهاند، این مسئله نگرانی بزرگی برای تیم توسعهدهندهی ربات راهنمای تور بوستون داینامیکس نبود.
درعوض، تیم بیشتر بر جنبههای سرگرمی و تعاملی ربات متمرکز بود. علاوهبراین، توانایی ربات برای راهرفتن قبلاً در SDK خودمختاری Spot مشخص شده بود. بوستون داینامیکس از Spot SDK برای پشتیبانی از توسعهی رفتارهای ناوبری مستقل برای ربات Spot استفاده میکند.
برای اهداف ارتباطی، تیم پایهای مقاوم دربرابر لرزش برای بلندگوی Respeaker V2 همراه با میکروفون حلقهای و صفحهنمایش LED روی ربات راهنمای تور چاپ سهبعدی کرد. بدینترتیب، ربات میتواند به مخاطبان خود گوش دهد و به سؤالاتشان جواب دهد.
تیم توسعهدهندهی robot راهنمای تور براساس این فرض، ChatGPT API OpenAI را با مدل GPT-3.5 ادغام کرد؛ اما درنهایت پس از عرضه، برای بهبود بیشتر مهارتهای ارتباطی ربات به GPT-4 منتقل شد.
برای اطمینان از اینکه ربات راهنمای تور از کنترل خارج نمیشود یا پاسخهای نامناسب نمیدهد، تیم از شیوههای مهندسی سریع استفاده کرد. این تیم فاش کرد که LLM ادغامشده در ربات به Spot autonomy SDK دسترسی دارد که نقشه دقیقی از تور همراه با توضیحات یکخطی از هر مکان است و قابلیت پاسخگویی و سؤالکردن نیز دارد.
تبدیل متن به گفتار
اگرچه این ربات به ChatGPT برای ارتباط بسیار متکی است، بهوضوح مبتنیبر متن است. بههمیندلیل، شرکت سازندهی ربات راهنمای تور سرویسی ابری به نام ElevenLabs را توسعه داده است تا بهعنوان ابزار تبدیل متن به گفتار عمل کند. همچنین، این تیم دوربین دستگیرهی ربات و دوربین جلوِ بدنه را در BLIP-2 گنجانده است. بدینترتیب، تفسیر آنچه میبیند و ارائهی زمینه برای آن آسانتر خواهد شد.
مکالمات شبیه واقعیت
تیم سازندهی ربات راهنمای تور می خواست حین تعامل با ربات در طول تور، تجربهای شبیه به زندگی را برای مخاطبان ارائه دهد. بدینترتیب، تیم از زبان بدن پیشفرض استفاده کرد تا این تجربه را زنده کند. بهلطف انتشار Spot 3.3، ربات میتواند بازوی خود را بهسمت نزدیکترین فرد هدایت کند و درعینحال، مفهومی خاص را توضیح دهد.
روند توسعهی ربات راهنمای تور خیلی تماشایی بود؛ زیرا تیم با اتفاقات جالبی روبهرو شد. بهعنوان مثال، هنگامیکه از ربات پرسیده شد «مارک رایبرت کیست؟»، ربات پاسخ داد که نمیداند و توصیه کرد برای کمک بیشتر به Help Desk در قسمت فناوری اطلاعات بروید.
در کمال تعجب تیم توسعهدهنده گفتند که آنها این مسئله را به ربات یاد نداده بودند و بهنظر میرسد احتمالاً ربات باید مکان Help Desk در قسمت فناوری اطلاعات را با عمل درخواست کمک مرتبط کرده باشد.
مت کلینگنسمیت اعتراف میکند که اگرچه ربات راهنمای تور جذاب است، در برخی مواقع هذیان شدید گفته و مطالب غیرواقعی سرهم کرده است. فراموش نکنید که تأثیر مخرب بر عملکرد ربات، درصورت ناتوانی در برقراری اتصال اینترنت پایدار رخ میدهد.
تیم توسعهدهنده ربات راهنمای تور قصد دارد این مسیر را بیشتر بررسی کند؛ بهویژه پس از کشف اینکه امکان ادغام نتایج چندین سیستم هوش مصنوعی عمومی باهم وجود دارد.