ChatGPT-4 در امتحانات کارشناسی بهتر از دانشجویان عمل کرد!

یافته‌های جدید نشان می‌دهد هوش مصنوعی ChatGPT-4 می‌تواند جایگزینی برای دانشجویان در امتحانات سطح پایین باشد، امّا هنوز در برابر تفکر انتقادی دانشجویان سال آخر دانشگاه ناتوان است.

به گزارش تک‌ناک، پژوهشگر دانشگاه ریدینگ، پیتر اسکارف، آزمایشی را برای بررسی آسیب‌پذیری سیستم امتحانی آنها در برابر کارهای تولید‌شده توسط هوش مصنوعی انجام داد. تیم اسکارف با استفاده از ChatGPT-4، بیش از ۳۰ پاسخ تولید‌شده توسط هوش مصنوعی را در چندین درس روانشناسی کارشناسی ارسال کرد و دریافتند که ۹۴ درصد از این پاسخ‌ها شناسایی نشدند و نزدیک به ۸۴ درصد نمرات بالاتری نسبت به همتایان انسانی دریافت کردند. یافته‌های این پژوهش در مجلۀ PLOS One منتشر شده است.

به گزارش Ars Technica تیم اسکارف کارهای تولید‌شده توسط هوش مصنوعی را در پنج درس کارشناسی ارسال کردند که کل دورۀ کارشناسی روانشناسی را پوشش می‌دهد. تکالیف یا پاسخ‌های ۲۰۰ کلمه‌ای به سؤالات کوتاه یا مقالات مفصل‌تر ۱۵۰۰ کلمه‌ای بودند. اسکارف ادعا کرد: ارزشیابان امتحانات از این آزمایش اطلاعی نداشتند. به نوعی، شرکت‌کنندگان در مطالعه نمی‌دانستند که در حال شرکت در یک پژوهش هستند، امّا مجوزهای لازم را برای انجام آن دریافت کرده بودیم.

پاسخ‌های کوتاه‌تر به سادگی با کپی-پیست کردن سؤالات امتحان به همراه دستورالعمل نگه‌داشتن پاسخ زیر ۱۶۰ کلمه در ChatGPT-4 آماده شدند. مقالات نیز به همین روش بودند، امّا تعداد کلمات مورد نیاز به ۲۰۰۰ افزایش یافت. تیم اسکارف با تعیین محدودیت‌ها به این شکل، توانستند ChatGPT-4 را وادار به تولید محتوایی نزدیک به طول مورد نیاز کنند. اسکارف در این زمینه گفت: هدف این بود که آن پاسخ‌ها را بدون هیچ ویرایشی ارسال کنیم، به جزء مقالات که در آنها قالب‌بندی حداقلی اعمال کردیم.

در مجموع، اسکارف و همکارانش ۶۳ پاسخ تولید‌شده توسط هوش مصنوعی را وارد سیستم امتحانی کردند. ۹۴ درصد از آنها حتی بدون ویرایش یا تلاش برای پنهان کردن استفاده از هوش مصنوعی، شناسایی نشدند و نزدیک به ۸۴ درصد نمرات بهتری (تقریباً نیم نمره بالاتر) نسبت به گروهی از دانشجویان منتخب تصادفی که همان امتحان را داده بودند، کسب کردند.

اسکارف عنوان کرد: ما با افرادی که آن امتحانات را تصحیح می‌کردند جلسات توجیهی متعددی برگزار کردیم و آنها بسیار متعجب شدند. بخشی از دلیل تعجب این بود که اکثر پاسخ‌های شناسایی شدۀ هوش مصنوعی، چون تکراری یا رباتیک بودن پرچم‌دار نشدند، بلکه به این دلیل پرچم‌دار شدند که بسیار خوب بودند.

از میان پنج درسی که تیم اسکارف، کار هوش مصنوعی را در آنها ارسال کردند، یک درس وجود داشت که در آن نمرات بهتری نسبت به دانشجویان انسانی دریافت نکرد، یعنی آخرین درسی که دانشجویان قبل از ترک دانشگاه می‌گذراندند. اسکارف در این باره توضیح داد: مدل‌های زبان بزرگ می‌توانند تا حد محدودی تفکر انتقادی، تحلیل و ادغام دانش به دست آمده از منابع مختلف را تقلید کنند. از دانشجویان در سال آخر دانشگاه انتظار می‌رود که بینش‌های عمیق‌تری ارائه دهند و از مهارت‌های تحلیلی پیچیده‌تری استفاده کنند. هوش مصنوعی در این زمینه عملکرد خوبی ندارد، به همین دلیل دانشجویان عملکرد بهتری داشتند.

تمام نمرات خوبی که ChatGPT-4 در امتحانات سال اول و دوم به دست آورد، مربوط به امتحاناتی بود که سؤالات آسان‌تری داشتند. امّا هوش مصنوعی به طور مداوم در حال پیشرفت است، بنابراین احتمال دارد در آینده در تکالیف پیشرفته‌تر عملکرد بهتری داشته باشد.

همچنین از آنجایی که هوش مصنوعی به بخشی از زندگی ما تبدیل می‌شود و ما واقعاً ابزاری برای تشخیص تقلب با هوش مصنوعی نداریم، در مقطعی باید آن را در سیستم آموزشی خود ادغام کنیم. اسکارف تصریح کرد: نقش یک دانشگاه مدرن، آماده کردن دانشجویان برای حرفۀ آنها می‌باشد و واقعیت این است که آنها پس از فارغ‌التحصیلی از ابزارهای مختلف هوش مصنوعی استفاده خواهند کرد، بنابراین بهتر است که بدانند چگونه به درستی از این ابزارها استفاده کنند.