مدلهای هوش مصنوعی جدید OpenAI با نامهای o3 و o4-mini که در بسیاری از زمینهها پیشرفته هستند، بیشتر از مدلهای قدیمیتر این شرکت دچار «توهم» میشوند.
به گزارش تکناک، توهمات یا «اختراع کردن اطلاعات»، یکی از چالشهای بزرگ و پیچیده در هوش مصنوعی به حساب میآیند، که حتی روی بهترین سیستمهای کنونی نیز تأثیر میگذارند. در گذشته، هر مدل جدید، کمی در کاهش این مشکل نسبت به مدلهای قبلی موفقتر بوده است، اما این مسئله برای مدلهای o3 و o4-mini صدق نمیکند.
بر اساس آزمایشهای داخلی OpenAI، مدلهای o3 و o4-mini که به عنوان مدلهای استدلالی شناخته میشوند، نسبت به مدلهای قبلی خود نظیر o1، o1-mini و o3-mini، همچنین مدلهای سنتی «غیر استدلالی» مانند GPT-4o، بیشتر دچار توهم میشوند. این مشکل بهویژه نگرانیهایی را ایجاد کرده است، چرا که OpenAI هنوز نمیداند چرا این مشکل افزایش یافته است.

در گزارش فنی OpenAI برای مدلهای o3 و o4-mini آمده است که «پژوهشهای بیشتری لازم است» تا علت افزایش توهمات در این مدلها شفافسازی شود. این مدلها در برخی حوزهها عملکرد بهتری دارند، از جمله در کارهای مربوط به برنامهنویسی و ریاضیات، اما به دلیل «اظهار ادعاهای بیشتر»، دچار خطاهای بیشتری نیز میشوند.
آزمایشهای داخلی نشان دادند که o3 به 33 درصد از سؤالات در “PersonQA”، یک معیار داخلی OpenAI برای ارزیابی دقت اطلاعات مدل در مورد افراد، پاسخهای نادرست میدهد. این میزان دو برابر میزان توهم در مدلهای قبلی است.
تحقیقات دیگری که توسط Transluce، یک آزمایشگاه تحقیقاتی غیرانتفاعی در حوزه هوش مصنوعی انجام شد، نشان داد که o3 تمایل دارد برخی از اقدامات خود را که در فرایند رسیدن به پاسخها انجام داده است، اختراع کند. به عنوان مثال، این مدل ادعا کرد که کدی را روی یک مکبوک پرو 2021 اجرا کرده است، در حالی که این امکان برای آن وجود ندارد.
این توهمات میتوانند باعث شوند که مدلها، ایدههای جالبی پیدا کنند و در تفکر خود، خلاقانه عمل نمایند، اما در عین حال ممکن است آنها را برای کسبوکارهایی که دقت و صحت اطلاعات برای آنها اهمیت دارد، مناسب نکنند. برای مثال، یک شرکت حقوقی به طور قطع از مدلی که اشتباهات فاحش در قراردادهای مشتریان وارد میکند، خوشحال نخواهد شد.
یکی از روشهای امیدوارکننده برای بهبود دقت مدلها، فراهم کردن قابلیت جستوجوی اینترنتی برای آنها است. شرکت OpenAI در مدل GPT-4o با قابلیت جستوجو، توانسته است دقت 90 درصد را در آزمون SimpleQA به دست آورد. این قابلیت ممکن است بتواند به کاهش توهمها در مدلهای استدلالی نیز کمک کند.
اگر روند توسعه مدلهای استدلالی باعث افزایش توهمات شود، یافتن راهحلی برای این مشکل بیش از پیش ضروری خواهد بود. شرکت OpenAI اعلام کرده که به طور مستمر در حال کار روی بهبود دقت و قابلیت اطمینان مدلهای جدید خود است.
صنعت هوش مصنوعی در سال گذشته توجه بیشتری به مدلهای استدلالی داشته، چرا که تلاشها برای بهبود مدلهای سنتی باعث نتایج کمتری شده است. این در حالی است که استدلال میتواند عملکرد مدلها را در انواع مختلفی از وظایف بهبود بخشد، بدون اینکه نیاز به مقادیر زیادی از داده و پردازش در طول آموزش باشد. اما به نظر میرسد که استدلال میتواند باعث افزایش توهمات شود، که خود چالشی جدید در این زمینه است.