فناوری جدیدی که توسط دانشگاه MIT و Meta توسعه یافته است، به خودروهای خودران اجازه میدهد تا موانع پنهان در اطراف خود را تشخیص دهند.
به گزارش تکناک، این تکنیک که از لیدار چندبارۀ پرتاب و یادگیری ماشینی استفاده میکند، از سایهها برای شبیهسازی صحنههای سهبُعدی، از جمله اشیاء مسدودشده از دید، کمک میگیرد. این فناوری نه تنها ایمنی خودروهای خودران را افزایش میدهد، بلکه میتواند در بهبود کارایی هدستهای AR/VR و سرعت رباتهای انبار نیز مفید باشد.
تصور کنید با یک وسیلۀ نقلیۀ خودران در یک تونل رانندگی میکنید، امّا بدون اطلاع شما، یک تصادف جلو را متوقف کرده است. بهطور معمول برای اینکه بدانید باید ترمزگیری را شروع کنید و به خودروی جلویی توجه داشته باشید. امّا اگر وسیلۀ نقلیۀ شما بتواند اطراف خودروی جلویی را ببیند و حتی زودتر ترمز کند، چه؟
بهتازگی محققان MIT و Meta یک تکنیک بینایی کامپیوتری را توسعه دادهاند که میتواند روزی وسیلۀ نقلیه خودران را قادر به انجام این کار کند.
آنها روشی را معرفی کردهاند که با استفاده از تصاویر در یک موقعیت دوربین، تصاویر سهبُعدی و دقیق فیزیکی از کل صحنه، از جمله مناطق مسدودشده از دید را ایجاد میکند. تکنیک آنها از سایهها برای تعیین آنچه در بخشهای مسدودشدۀ صحنه نهفته است، بهره میگیرد.
آنها رویکرد خود را PlatoNeRF نامیدند. این نامگذاری بر اساس یکی از تمثیلهای افلاطون است که در آن زندانیان زنجیر شده در غار، واقعیت دنیای خارج را بر اساس سایههایی که بر دیوار غار انداخته میشود، تشخیص میدهند.
با ترکیب فناوری لیدار (تشخیص نور و محدوده) با یادگیری ماشینی، PlatoNeRF میتواند بازسازیهای دقیقتری از هندسۀ سهبُعدی نسبت به برخی از تکنیکهای هوش مصنوعی موجود ایجاد کند. علاوه بر این، PlatoNeRF در بازسازی آرام صحنههایی که در آن سایهها به سختی قابل مشاهده هستند، مانند صحنههایی با نور محیطی بالا یا پسزمینۀ تاریک، بهتر است.
فهرست مطالب
تقویت AR/VR و رباتیک با PlatoNeRF
علاوه بر بهبود ایمنی وسایل نقلیۀ خودران، PlatoNeRF میتواند هدستهای AR/VR را کارآمدتر کند و کاربر را قادر میسازد تا محیط اتاق را بدون نیاز به قدم زدن در اطراف اندازهگیری نماید. همچنین این فناوری میتواند به رباتهای انبار در یافتن سریعتر اقلام در محیطهای به هم ریخته کمک کند.
بازسازی سهبُعدی پیشرفته با لیدار
بازسازی یک صحنۀ سهبُعدی کامل از دیدگاه یک دوربین، مشکلی پیچیده است.
برخی از رویکردهای یادگیری ماشینی از مدلهای هوش مصنوعی مولد استفاده میکنند تا حدس بزنند چه مواردی در نواحی مسدودشده وجود دارد، امّا این مدلها ممکن است تشخیص نادرست داشته باشند. تکنیکهای دیگر در تلاش هستند تا با استفاده از سایهها در یک تصویر رنگی، اشکال اجسام پنهان را استنتاج کنند، اما این روشها زمانی که سایهها به سختی دیده میشوند، مشکل دارند.
محققان MIT برای PlatoNeRF، این رویکردها را با استفاده از روش سنجش جدیدی به نام لیدار تک فوتونی ایجاد کردند. لیدارها با انتشار پالسهای نور و اندازهگیری مدت زمانی که طول میکشد تا آن نور به حسگر بازگردد، یک صحنۀ سهبُعدی را ترسیم میکنند. از آنجایی که لیدارهای تک فوتونی میتوانند فوتونهای منفرد را تشخیص دهند، دادههایی با وضوح بالاتر ارائه میدهند.
محققان از یک لیدار تک فوتونی برای روشن کردن یک نقطۀ هدف در صحنه استفاده میکنند. مقداری نور از آن نقطه منعکس میشود و مستقیم به سنسور باز میگردد. با وجود این، بیشتر نور قبل از بازگشت به سنسور پراکنده شده و از اجسام دیگر منعکس میشود. PlatoNeRF بر این جهشهای دوم نور متکی است.
PlatoNeRF با محاسبۀ مدت زمانی که طول میکشد تا نور دو بار جهش کند و سپس به حسگر لیدار بازگردد، اطلاعات بیشتری در مورد صحنه از جمله عمق، ضبط میکند. همچنین جهش دوم نور حاوی اطلاعاتی در مورد سایهها است.
این سیستم پرتوهای ثانویۀ نور را ردیابی میکند. پرتوهای ثانویۀ نور آنهایی هستند که از نقطۀ هدف به نقاط دیگر صحنه منعکس میشوند. علت این ردیابی تعیین این است که کدام نقاط در سایه قرار دارند (به دلیل عدم وجود نور). بر اساس مکان این سایهها، PlatoNeRF میتواند هندسۀ اشیای پنهان را استنتاج کند.
لیدار بهطور متوالی 16 نقطه را روشن میکند و چندین عکس میگیرد که برای بازسازی کل صحنۀ سهبُعدی استفاده میشود.
کلینگهافر، نویسندۀ اصلی این تحقیق گفت: «با این تکنیک هر بار که نقطهای را در صحنه روشن میکنیم، سایههای جدیدی ایجاد میشوند. از آنجایی که ما همۀ این منابع مختلف روشنایی را داریم، پرتوهای نوری زیادی وجود دارند که به اطراف میتابند، بنابراین در حال حک کردن منطقهای هستیم که مسدود شده است و فراتر از چشم مرئی قرار دارد.»
ترکیب فیلدهای Multibounce Lidar و Neural Radiance
کلید اثربخشی PlatoNeRF ترکیبی از لیدار multibounce با نوع خاصی از مدل یادگیری ماشینی است که به عنوان میدان تابشی عصبی (NeRF) شناخته میشود. یک NeRF، هندسۀ یک صحنه را در وزنهای یک شبکۀ عصبی رمزگذاری میکند، که به مدل توانایی قوی برای درونیابی یا تخمین نماهای جدید از یک صحنه را میدهد.
این توانایی درونیابی باعث بازسازی صحنۀ بسیار دقیقی میشود که با لیدار multibounce ترکیب شده است.
محققان، PlatoNeRF را با دو روش جایگزین رایج مقایسه کردند، که یکی فقط از لیدار استفاده میکند و دیگری تنها از NeRF با تصویر رنگی کمک میگیرد.
آنها متوجه شدند که روش آنها میتواند از هر دو تکنیک بهتر عمل کند، به خصوص زمانی که حسگر لیدار وضوح کمتری داشت. این رویکرد فناوری آنها را برای استقرار در دنیای واقعی عملیتر میکند.
کلینگهافر اعلام کرد: «حدود 15 سال پیش، ما اولین دوربین را برای دیدن در اطراف اختراع کردیم، که با بهرهبرداری از جهشهای متعدد نور، یا پژواک نور کار میکند. این تکنیکها از لیزرها و حسگرهای ویژه استفاده میکردند و از سه جهش نور کمک میگرفتند. از آن زمان، فناوری لیدار به جریان اصلی تبدیل شده است، که سبب تحقیقات ما در مورد دوربینهایی شد که میتوانند حتی در مه ببینند.»