نتایج پژوهش مشترک مایکروسافت و سیلزفورس نشان میدهد که افت عملکرد هوش مصنوعی در مکالمات طولانی باعث شده تا دقت مدلها به ۶۵ درصد کاهش یابد.
به گزارش سرویس هوش مصنوعی تکناک، برترین آزمایشگاههای پژوهشی هوش مصنوعی در سالهای اخیر مدلهای پیشرفته و چتباتهای متعددی را منتشر کردهاند تا جایگاه برند خود را در این فضای بهسرعت درحال تغییر تثبیت کنند بااینحال، کاربران اغلب از این ابزارها شکایت و به پدیده توهم یا ارائه پاسخهای کاملا نادرست به پرسشها اشاره میکنند.
براساس مقالهای پژوهشی از Microsoft Research و Salesforce که بیش از ۲۰۰ هزار مکالمه از پیشرفتهترین مدلهای زبانی بزرگ هوش مصنوعی ازجمله GPT‑4.1 و Gemini 2.5 Pro و Claude 3.7 Sonnet و o3 و DeepSeek R1 و Llama 4 را تحلیل کرده، مشخص شده است که این ابزارها وقتی وظایف در قالب گفتوگوی طبیعی و چندمرحلهای مطرح میشوند، اغلب در جریان مکالمه گم میشوند.
برای درک بهتر موضوع، مدلهایی مانند GPT‑4.1 و Gemini 2.5 Pro در مواجهه با پرسشی واحد به نرخ موفقیت حدود ۹۰ درصد دست پیدا میکنند. بااینحال، همین مدلها در گفتوگوهای طولانیتر و رفتوبرگشتی، افت عملکرد درخورتوجهی را تجربه میکنند و میزان موفقیت آنها به حدود ۶۵ درصد کاهش مییابد.
هوش مصنوعی مولد در صنعت فناوری عملاً به واژه متداولی تبدیل شده است و تقریباً همه درباره آن صحبت میکنند. این فناوری با وجود ادعاهایی مبنیبر اینکه حبابی در آستانه ترکیدن است، همچنان در سراسر جهان بهطور گسترده درحال پذیرش است.

در سال ۲۰۲۴، مایکروسافت اعلام کرده بود که ChatGPT برتری خاصی بر کوپایلت ندارد. این شرکت در آن زمان اشاره کرده بود که کاربران از این محصول مطابق انتظار استفاده نمیکنند و در عین حال، ضعف در مهارتهای پرامپتنویسی را عامل اصلی این موضوع دانسته بود.
پژوهش جدید نیز در ادامه همین دیدگاه نشان میدهد که مدلهای زبانی بزرگ در گفتوگوهای تکمرحلهای عملکرد بهتری از مکالمات چندمرحلهای از خود نشان میدهند. بااینحال، محققان تأکید میکنند که این اختلاف عملکرد بدانمعنا نیست که مدلها بهطور ناگهانی «کمهوشتر» شدهاند.
به گفته پژوهشگران، توانایی ذاتی مدلها فقط حدود ۱۵ درصد کاهش یافته، اما میزان نامطمئنبودن آنها ۱۱۲ درصد افزایش پیدا کرده است. حال دلیل این اتفاق چیست؟ محققان توضیح میدهند که مدلهای هوش مصنوعی اغلب دچار پدیدهای به نام تولید زودهنگام میشوند؛ یعنی تلاش میکنند حتی پیشاز آنکه کاربر توضیح خود را کامل کند، پاسخی برای پرسش ارائه دهند.
نکته جالبتر این است که مدل معمولاً پاسخ اولیه خود را بهعنوان مبنای پاسخهای بعدی در نظر میگیرد؛ حتی اگر آن پاسخ اولیه اشتباه بوده باشد. پژوهشگران به پدیده دیگری نیز اشاره کردهاند که آن را «تورم پاسخ» نامیدهاند.
به نوشته ویندوز سنترال، طبق نتایج این مطالعه پاسخهای مدلها در گفتوگوهای چندمرحلهای بین ۲۰ تا ۳۰۰ درصد طولانیتر میشوند. محققان نشان دادهاند که پاسخهای طولانیتر فرضیهها و توهمهای بیشتری را وارد مکالمه میکنند؛ عناصری که نگرانکنندهتر آن است که بهعنوان زمینه دائمی در ادامه گفتوگو استفاده میشوند.
در نهایت، حتی مدلهایی مانند o3 از OpenAI و DeepSeek R1 که به توکنهای تفکر اضافی مجهز هستند نیز نتوانستهاند خود را از این وضعیت عجیب و پیچیده رها کنند.
















