یافتههای جدید نشان میدهد هوش مصنوعی ChatGPT-4 میتواند جایگزینی برای دانشجویان در امتحانات سطح پایین باشد، امّا هنوز در برابر تفکر انتقادی دانشجویان سال آخر دانشگاه ناتوان است.
به گزارش تکناک، پژوهشگر دانشگاه ریدینگ، پیتر اسکارف، آزمایشی را برای بررسی آسیبپذیری سیستم امتحانی آنها در برابر کارهای تولیدشده توسط هوش مصنوعی انجام داد. تیم اسکارف با استفاده از ChatGPT-4، بیش از ۳۰ پاسخ تولیدشده توسط هوش مصنوعی را در چندین درس روانشناسی کارشناسی ارسال کرد و دریافتند که ۹۴ درصد از این پاسخها شناسایی نشدند و نزدیک به ۸۴ درصد نمرات بالاتری نسبت به همتایان انسانی دریافت کردند. یافتههای این پژوهش در مجلۀ PLOS One منتشر شده است.
به گزارش Ars Technica تیم اسکارف کارهای تولیدشده توسط هوش مصنوعی را در پنج درس کارشناسی ارسال کردند که کل دورۀ کارشناسی روانشناسی را پوشش میدهد. تکالیف یا پاسخهای ۲۰۰ کلمهای به سؤالات کوتاه یا مقالات مفصلتر ۱۵۰۰ کلمهای بودند. اسکارف ادعا کرد: ارزشیابان امتحانات از این آزمایش اطلاعی نداشتند. به نوعی، شرکتکنندگان در مطالعه نمیدانستند که در حال شرکت در یک پژوهش هستند، امّا مجوزهای لازم را برای انجام آن دریافت کرده بودیم.
پاسخهای کوتاهتر به سادگی با کپی-پیست کردن سؤالات امتحان به همراه دستورالعمل نگهداشتن پاسخ زیر ۱۶۰ کلمه در ChatGPT-4 آماده شدند. مقالات نیز به همین روش بودند، امّا تعداد کلمات مورد نیاز به ۲۰۰۰ افزایش یافت. تیم اسکارف با تعیین محدودیتها به این شکل، توانستند ChatGPT-4 را وادار به تولید محتوایی نزدیک به طول مورد نیاز کنند. اسکارف در این زمینه گفت: هدف این بود که آن پاسخها را بدون هیچ ویرایشی ارسال کنیم، به جزء مقالات که در آنها قالببندی حداقلی اعمال کردیم.
در مجموع، اسکارف و همکارانش ۶۳ پاسخ تولیدشده توسط هوش مصنوعی را وارد سیستم امتحانی کردند. ۹۴ درصد از آنها حتی بدون ویرایش یا تلاش برای پنهان کردن استفاده از هوش مصنوعی، شناسایی نشدند و نزدیک به ۸۴ درصد نمرات بهتری (تقریباً نیم نمره بالاتر) نسبت به گروهی از دانشجویان منتخب تصادفی که همان امتحان را داده بودند، کسب کردند.
اسکارف عنوان کرد: ما با افرادی که آن امتحانات را تصحیح میکردند جلسات توجیهی متعددی برگزار کردیم و آنها بسیار متعجب شدند. بخشی از دلیل تعجب این بود که اکثر پاسخهای شناسایی شدۀ هوش مصنوعی، چون تکراری یا رباتیک بودن پرچمدار نشدند، بلکه به این دلیل پرچمدار شدند که بسیار خوب بودند.
از میان پنج درسی که تیم اسکارف، کار هوش مصنوعی را در آنها ارسال کردند، یک درس وجود داشت که در آن نمرات بهتری نسبت به دانشجویان انسانی دریافت نکرد، یعنی آخرین درسی که دانشجویان قبل از ترک دانشگاه میگذراندند. اسکارف در این باره توضیح داد: مدلهای زبان بزرگ میتوانند تا حد محدودی تفکر انتقادی، تحلیل و ادغام دانش به دست آمده از منابع مختلف را تقلید کنند. از دانشجویان در سال آخر دانشگاه انتظار میرود که بینشهای عمیقتری ارائه دهند و از مهارتهای تحلیلی پیچیدهتری استفاده کنند. هوش مصنوعی در این زمینه عملکرد خوبی ندارد، به همین دلیل دانشجویان عملکرد بهتری داشتند.
تمام نمرات خوبی که ChatGPT-4 در امتحانات سال اول و دوم به دست آورد، مربوط به امتحاناتی بود که سؤالات آسانتری داشتند. امّا هوش مصنوعی به طور مداوم در حال پیشرفت است، بنابراین احتمال دارد در آینده در تکالیف پیشرفتهتر عملکرد بهتری داشته باشد.
همچنین از آنجایی که هوش مصنوعی به بخشی از زندگی ما تبدیل میشود و ما واقعاً ابزاری برای تشخیص تقلب با هوش مصنوعی نداریم، در مقطعی باید آن را در سیستم آموزشی خود ادغام کنیم. اسکارف تصریح کرد: نقش یک دانشگاه مدرن، آماده کردن دانشجویان برای حرفۀ آنها میباشد و واقعیت این است که آنها پس از فارغالتحصیلی از ابزارهای مختلف هوش مصنوعی استفاده خواهند کرد، بنابراین بهتر است که بدانند چگونه به درستی از این ابزارها استفاده کنند.