بررسی محققان نشان می دهد کیفیت پاسخ های ChatGPT در یک بازه مشخص در سال جاری میلادی افت محسوس و نگران کننده ای داشته است.
به گزارش تکناک، برای مثال دقت شناسایی اعداد اول در ChatGPT-4 از مارچ تا ژوئن ۲۰۲۳ از ۹۷.۶ درصد به ۲.۴ درصد کاهش یافت.
در ماههای اخیر، شواهد شخصی و زمزمههای کلی درباره کاهش کیفیت پاسخهای ChatGPT افزایش یافته است. تیمی از پژوهشگران از دانشگاه استنفورد و دانشگاه کالیفرنیا در برکلی تصمیم گرفتند بررسی کنند که آیا واقعاً کاهشی در کیفیت رخ داده است و معیارهایی برای اندازهگیری مقیاس تغییرات نامطلوب ارائه دهند. به طور خلاصه، کاهش در کیفیت ChatGPT مطمئناً تصور نمی شد.
سه محقق مشهور، ماتی زاهاریا، لینجیائو چن و جیمز زو، پشت مقاله تحقیقاتی به تازگی منتشر شده با عنوان چگونه رفتار ChatGPT در طول زمان تغییر میکند؟ (PDF) بودند. صبح امروز، پروفسور علوم کامپیوتر در دانشگاه کالیفرنیا، زاهاریا، به توییتر آمد تا یافتههای تحقیقاتی را به اشتراک بگذارد. او با تأکید شگفتانگیزی اعلام کرد که نرخ موفقیت GPT-4 در ‘این عدد اول است؟ به ترتیب مراحل فکر کنید’ از مارس تا ژوئن از ۹۷.۶٪ به ۲.۴٪ کاهش یافته است.
GPT-4 در حدود دو هفته پیش به صورت عمومی در دسترس قرار گرفت و به عنوان پیشرفتهترین و تواناترین مدل OpenAI معرفی شد. این مدل به سرعت در دسترس توسعهدهندگان API قرار گرفت و ادعا کرد که میتواند به عنوان موتوری برای مجموعهای از محصولات هوش مصنوعی نوآورانه استفاده شود. بنابراین، غمانگیز و شگفتآور است که تحقیقات جدید نشان میدهد که در برابر برخی از پرسشهای بسیار ساده، این مدل در کیفیت پاسخدهی، نتیجهای غیر قابل قبول دارد.
ما در بالا به عنوان مثالی از نرخ شکست بیسابقه GPT-4 در پرسشهای اعداد اول اشاره کردهایم. تیم پژوهشی وظیفه طراحی وظایف را بر عهده داشت تا جنبههای کیفی زیرین مدلهای زبان بزرگ (LLMs) GPT-4 و GPT-3.5 ChatGPT را اندازهگیری کند. وظایف به چهار دسته تقسیم شدهاند و مهارتهای متنوعی از هوش مصنوعی را اندازهگیری میکنند در حالی که ارزیابی عملکرد به نسبت ساده هستند.
- حل مسائل ریاضی
- پاسخگویی به سؤالات حساس
- تولید کد
- استدلال تصویری
یک دید کلی از عملکرد Open AI LLMs در نمودار زیر ارائه شده است. پژوهشگران عملکرد نسخههای GPT-4 و GPT-3.5 را در مارس ۲۰۲۳ و ژوئن ۲۰۲۳ ارزیابی کردند.
در این نمودار به وضوح نشان داده شده است که خدمات همان LLM به پرسشها در طول زمان به شکل کاملاً متفاوتی پاسخ میدهند. در این دوره نسبتاً کوتاه، تفاوتهای قابل توجهی مشاهده میشود. هنوز مشخص نیست که این LLMs چگونه بهروزرسانی میشوند و آیا تغییرات برای بهبود برخی جنبههای عملکردشان ممکن است بر دیگر جنبهها تأثیر منفی داشته باشد یا نه. ببینید چقدر نسخه جدیدتر GPT-4 نسبت به نسخه مارس در سه دسته آزمونی بدتر شده است. این نسخه فقط در استدلال تصویری، با مقدار بسیار کمی برنده است.
ممکن است برخی از افراد نسبت به کیفیت متغیر مشاهده شده در همان نسخه LLM ها بیتفاوت باشند. با این حال، پژوهشگران توجه میکنند که به دلیل محبوبیت ChatGPT، هر دو GPT-4 و GPT-3.5 توسط کاربران فردی و تعدادی از شرکتها به طور گسترده بهکار گرفته شدهاند. بنابراین، فراتر از حد امکان نیست که برخی از اطلاعات تولید شده توسط GPT بر زندگی شما تأثیر بگذارد.
پژوهشگران عزم خود را برای ادامهی ارزیابی نسخههای GPT در یک مطالعه بلندمدت اعلام کردهاند. شاید شرکت Open AI باید ارزیابیهای کیفیت منظم خود را برای مشتریان پردرآمد خود نظارت و انتشار دهد. اگر این امر مشخصتر نشود، ممکن است برای سازمانهای تجاری یا دولتی لازم باشد برخی از معیارهای کیفیت اساسی این LLM ها را کنترل کنند که میتواند تأثیرات قابل توجهی بر روی صنعت و تحقیقات داشته باشد.