مدل‌های جدید OpenAI بیشتر از قبل دچار توهم می‌شوند

مدل‌های هوش مصنوعی جدید OpenAI با نام‌های o3 و o4-mini که در بسیاری از زمینه‌ها پیشرفته هستند، بیشتر از مدل‌های قدیمی‌تر این شرکت دچار «توهم» می‌شوند.

به گزارش تک‌ناک، توهمات یا «اختراع کردن اطلاعات»، یکی از چالش‌های بزرگ و پیچیده در هوش مصنوعی به حساب می‌آیند، که حتی روی بهترین سیستم‌های کنونی نیز تأثیر می‌گذارند. در گذشته، هر مدل جدید، کمی در کاهش این مشکل نسبت به مدل‌های قبلی موفق‌تر بوده است، اما این مسئله برای مدل‌های o3 و o4-mini صدق نمی‌کند.

بر اساس آزمایش‌های داخلی OpenAI، مدل‌های o3 و o4-mini که به‌ عنوان مدل‌های استدلالی شناخته می‌شوند، نسبت به مدل‌های قبلی خود نظیر o1، o1-mini و o3-mini، همچنین مدل‌های سنتی «غیر استدلالی» مانند GPT-4o، بیشتر دچار توهم می‌شوند. این مشکل به‌ویژه نگرانی‌هایی را ایجاد کرده است، چرا که OpenAI هنوز نمی‌داند چرا این مشکل افزایش یافته است.

در گزارش فنی OpenAI برای مدل‌های o3 و o4-mini آمده است که «پژوهش‌های بیشتری لازم است» تا علت افزایش توهمات در این مدل‌ها شفاف‌سازی شود. این مدل‌ها در برخی حوزه‌ها عملکرد بهتری دارند، از جمله در کارهای مربوط به برنامه‌نویسی و ریاضیات، اما به‌ دلیل «اظهار ادعاهای بیشتر»، دچار خطاهای بیشتری نیز می‌شوند.

آزمایش‌های داخلی نشان دادند که o3 به 33 درصد از سؤالات در “PersonQA”، یک معیار داخلی OpenAI برای ارزیابی دقت اطلاعات مدل در مورد افراد، پاسخ‌های نادرست می‌دهد. این میزان دو برابر میزان توهم در مدل‌های قبلی است.

تحقیقات دیگری که توسط Transluce، یک آزمایشگاه تحقیقاتی غیرانتفاعی در حوزه هوش مصنوعی انجام شد، نشان داد که o3 تمایل دارد برخی از اقدامات خود را که در فرایند رسیدن به پاسخ‌ها انجام داده است، اختراع کند. به‌ عنوان مثال، این مدل ادعا کرد که کدی را روی یک مک‌بوک پرو 2021 اجرا کرده است، در حالی که این امکان برای آن وجود ندارد.

این توهمات می‌توانند باعث شوند که مدل‌ها، ایده‌های جالبی پیدا کنند و در تفکر خود، خلاقانه عمل نمایند، اما در عین حال ممکن است آنها را برای کسب‌وکارهایی که دقت و صحت اطلاعات برای آنها اهمیت دارد، مناسب نکنند. برای مثال، یک شرکت حقوقی به طور قطع از مدلی که اشتباهات فاحش در قراردادهای مشتریان وارد می‌کند، خوشحال نخواهد شد.

یکی از روش‌های امیدوارکننده برای بهبود دقت مدل‌ها، فراهم کردن قابلیت جست‌وجوی اینترنتی برای آنها است. شرکت OpenAI در مدل GPT-4o با قابلیت جست‌وجو، توانسته است دقت 90 درصد را در آزمون SimpleQA به دست آورد. این قابلیت ممکن است بتواند به کاهش توهم‌ها در مدل‌های استدلالی نیز کمک کند.

اگر روند توسعه مدل‌های استدلالی باعث افزایش توهمات شود، یافتن راه‌حلی برای این مشکل بیش از پیش ضروری خواهد بود. شرکت OpenAI اعلام کرده که به‌ طور مستمر در حال کار روی بهبود دقت و قابلیت اطمینان مدل‌های جدید خود است.

صنعت هوش مصنوعی در سال گذشته توجه بیشتری به مدل‌های استدلالی داشته، چرا که تلاش‌ها برای بهبود مدل‌های سنتی باعث نتایج کمتری شده است. این در حالی است که استدلال می‌تواند عملکرد مدل‌ها را در انواع مختلفی از وظایف بهبود بخشد، بدون اینکه نیاز به مقادیر زیادی از داده و پردازش در طول آموزش باشد. اما به نظر می‌رسد که استدلال می‌تواند باعث افزایش توهمات شود، که خود چالشی جدید در این زمینه است.