چرا چت‌بات‌ها گیج می‌شوند؟؛ راز افت عملکرد هوش مصنوعی در مکالمات طولانی

نتایج پژوهش مشترک مایکروسافت و سیلزفورس نشان می‌دهد که افت عملکرد هوش مصنوعی در مکالمات طولانی باعث شده تا دقت مدل‌ها به ۶۵ درصد کاهش یابد.

به گزارش سرویس هوش مصنوعی تک‌ناک، برترین آزمایشگاه‌های پژوهشی هوش مصنوعی در سال‌های اخیر مدل‌های پیشرفته و چت‌بات‌های متعددی را منتشر کرده‌اند تا جایگاه برند خود را در این فضای به‌سرعت درحال تغییر تثبیت کنند با‌این‌حال، کاربران اغلب از این ابزارها شکایت و به پدیده توهم یا ارائه پاسخ‌های کاملا نادرست به پرسش‌ها اشاره می‌کنند.

براساس مقاله‌ای پژوهشی از Microsoft Research و Salesforce که بیش از ۲۰۰ هزار مکالمه از پیشرفته‌ترین مدل‌های زبانی بزرگ هوش مصنوعی ازجمله GPT‑4.1 و Gemini 2.5 Pro و Claude 3.7 Sonnet و o3 و DeepSeek R1 و Llama 4 را تحلیل کرده، مشخص شده است که این ابزارها وقتی وظایف در قالب گفت‌وگوی طبیعی و چندمرحله‌ای مطرح می‌شوند، اغلب در جریان مکالمه گم می‌شوند.

برای درک بهتر موضوع، مدل‌هایی مانند GPT‑4.1 و Gemini 2.5 Pro در مواجهه با پرسشی واحد به نرخ موفقیت حدود ۹۰ درصد دست پیدا می‌کنند. بااین‌حال، همین مدل‌ها در گفت‌وگوهای طولانی‌تر و رفت‌وبرگشتی، افت عملکرد درخورتوجهی را تجربه می‌کنند و میزان موفقیت آن‌ها به حدود ۶۵ درصد کاهش می‌یابد.

هوش مصنوعی مولد در صنعت فناوری عملاً به واژه متداولی تبدیل شده است و تقریباً همه درباره آن صحبت می‌کنند. این فناوری با وجود ادعاهایی مبنی‌بر اینکه حبابی در آستانه ترکیدن است، همچنان در سراسر جهان به‌طور گسترده درحال پذیرش است.

نمای رابط کاربری چت DeepSeek با پیام خوش‌آمدگویی روی صفحه نمایش

در سال ۲۰۲۴، مایکروسافت اعلام کرده بود که ChatGPT برتری خاصی بر کوپایلت ندارد. این شرکت در آن زمان اشاره کرده بود که کاربران از این محصول مطابق انتظار استفاده نمی‌کنند و در عین حال، ضعف در مهارت‌های پرامپت‌نویسی را عامل اصلی این موضوع دانسته بود.

پژوهش جدید نیز در ادامه همین دیدگاه نشان می‌دهد که مدل‌های زبانی بزرگ در گفت‌وگوهای تک‌مرحله‌ای عملکرد بهتری از مکالمات چندمرحله‌ای از خود نشان می‌دهند. با‌این‌حال، محققان تأکید می‌کنند که این اختلاف عملکرد بدان‌معنا نیست که مدل‌ها به‌طور ناگهانی «کم‌هوش‌تر» شده‌اند.

به گفته پژوهشگران، توانایی ذاتی مدل‌ها فقط حدود ۱۵ درصد کاهش یافته، اما میزان نامطمئن‌بودن آن‌ها ۱۱۲ درصد افزایش پیدا کرده است. حال دلیل این اتفاق چیست؟ محققان توضیح می‌دهند که مدل‌های هوش مصنوعی اغلب دچار پدیده‌ای به نام تولید زودهنگام می‌شوند؛ یعنی تلاش می‌کنند حتی پیش‌از آنکه کاربر توضیح خود را کامل کند، پاسخی برای پرسش ارائه دهند.

نکته جالب‌تر این است که مدل معمولاً پاسخ اولیه خود را به‌عنوان مبنای پاسخ‌های بعدی در نظر می‌گیرد؛ حتی اگر آن پاسخ اولیه اشتباه بوده باشد. پژوهشگران به پدیده دیگری نیز اشاره کرده‌اند که آن را «تورم پاسخ» نامیده‌اند.

به نوشته ویندوز سنترال، طبق نتایج این مطالعه پاسخ‌های مدل‌ها در گفت‌وگوهای چندمرحله‌ای بین ۲۰ تا ۳۰۰ درصد طولانی‌تر می‌شوند. محققان نشان داده‌اند که پاسخ‌های طولانی‌تر فرضیه‌ها و توهم‌های بیشتری را وارد مکالمه می‌کنند؛ عناصری که نگران‌کننده‌تر آن است که به‌عنوان زمینه دائمی در ادامه گفت‌وگو استفاده می‌شوند.

در نهایت، حتی مدل‌هایی مانند o3 از OpenAI و DeepSeek R1 که به توکن‌های تفکر اضافی مجهز هستند نیز نتوانسته‌اند خود را از این وضعیت عجیب و پیچیده رها کنند.

برچسب‌ها: p6