نتایچ نا امیدکننده ChatGPT در آزمون حسابداری

ماه گذشته، OpenAI آخرین محصول چت ربات هوش مصنوعی خود، GPT-4 را معرفی کرد. این شرکت ادعا می کند که این ربات که از یادگیری ماشینی برای تولید متن به سبک زبان طبیعی استفاده می کند، در امتحانات مختلف عملکرد فوق العاده ای داشته است.

به گزارش تکناک، به طور خاص، این چت ربات نمره 90 از 100 را در آزمون وکالت به دست آورد، در آزمون AP نمره 13 از 15 گرفت و نمره تقریبا کامل در آزمون GRE Verbal دریافت کرد.

استادان دانشگاه بریگام یانگ (BYU) و 186 موسسه دیگر در مورد عملکرد ChatGPT در آزمون حسابداری کنجکاو بودند. از این رو، آنها از مدل اصلی ChatGPT برای آزمون حسابداری استفاده کردند. محققان بیان کرده‌اند که اگرچه ChatGPT هنوز در زمینه حسابداری نیاز به بهبود دارد، اما این پتانسیل را دارد که روش آموزش و یادگیری افراد را برای بهتر شدن متحول کند.

دیوید وود، نویسنده ارشد این مطالعه، استاد حسابداری BYU، می‌گوید: زمانی که این فناوری برای اولین بار عرضه شد، همه نگران بودند که دانشجویان اکنون می‌توانند از آن برای تقلب استفاده کنند. اما امکان تقلب همیشه وجود داشته است. بنابراین، ما سعی می‌کنیم بر روی آنچه می‌توانیم با این فناوری انجام دهیم و قبلا نمی توانستیم تمرکز کنیم و از آن برای بهبود فرآیند تدریس برای اساتید و فرآیند یادگیری برای دانشجویان استفاده کنیم.

ChatGPT از اولین بار در نوامبر 2022 به سریع ترین پلتفرم فناوری در حال رشد تبدیل شده و در کمتر از دو ماه به 100 میلیون کاربر رسیده است. در پاسخ به بحث های شدید در مورد اینکه چگونه مدل هایی مانند ChatGPT باید در آموزش نقش داشته باشند، وود تصمیم گرفت تا حد ممکن اساتید بیشتری را استخدام کند تا ببیند هوش مصنوعی در برابر دانشجویان واقعی حسابداری دانشگاه چگونه عمل می کند.

طرح جذب نویسنده همکار او برای این تحقیق در رسانه های اجتماعی بسیار موثر بود: 327 نویسنده مشترک از 186 موسسه آموزشی در 14 کشور در این تحقیق شرکت کردند و در 25181 سوال آزمون حسابداری حضور داشتند. آنها همچنین دانشجویان BYU (از جمله دختر وود، جسیکا) را به خدمت گرفتند تا 2268 سؤال از بانک آزمون دیگری را به ChatGPT بدهند. سوالات شامل سیستم های اطلاعات حسابداری (AIS)، حسابرسی، حسابداری مالی، حسابداری مدیریتی، و مالیات می شد و از نظر سختی و نوع (درست/نادرست، چند گزینه ای، پاسخ کوتاه و غیره) متفاوت بود.

گرچه عملکرد ChatGPT در آزمون حسابداری چشمگیر بود، اما دانشجویان عملکرد بهتری داشتند. دانشجویان میانگین کلی 76.7 درصد را در مقایسه با امتیاز 47.4 درصد ChatGPT کسب کردند. در 11.3 درصد از سؤالات، ChatGPT امتیاز بالاتری از میانگین دانش آموز کسب کرد و به ویژه در AIS و حسابرسی عملکرد خوبی داشت. اما ربات هوش مصنوعی در ارزیابی‌های مالیاتی، مالی و مدیریتی بدتر عمل کرد، احتمالاً به این دلیل که ChatGPT با فرآیندهای ریاضی مورد نیاز برای نوع دوم مشکل داشت.

هنگامی که نوبت به نوع سوال می رسید، ChatGPT در سوالات درست/غلط (68.7٪) و سوالات چند گزینه ای (59.5٪) عملکرد صحیح داشت، اما در سوالات پاسخ کوتاه پاسخ (بین 28.7٪ تا 39.1٪) صحیح پاسخ داد. به طور کلی، پاسخ به سؤالات با مرتبه بالاتر برای ChatGPT دشوارتر بود. در واقع، گاهی اوقات ChatGPT توضیحات نوشتاری معتبری را برای پاسخ های نادرست ارائه می داد، یا به یک سوال به روش های مختلف پاسخ می دهد.

جسیکا وود، که در حال حاضر دانشجوی سال اول دانشگاه BYU است، گفت: ChatGPT کامل نیست. از آن برای همه چیز نباید استفاده کرد و تلاش برای یادگیری صرفاً با استفاده از ChatGPT یک کار احمقانه است.

محققان همچنین برخی از روندهای جذاب دیگر را از طریق این مطالعه کشف کردند، از جمله:

ChatGPT همیشه زمانی را که در حال انجام محاسبات ریاضی است را تشخیص نمی دهد و خطاهای بی معنی مانند اضافه کردن دو عدد در یک مسئله تفریق یا تقسیم اشتباه اعداد را انجام میدهد.
ChatGPT اغلب برای پاسخ های خود توضیحاتی ارائه می دهد، حتی اگر آنها نادرست باشند. در موارد دیگر، توضیحات ChatGPT دقیق است، اما سپس به انتخاب پاسخ چند گزینه ای اشتباه ادامه می دهد.
ChatGPT گاهی اوقات حقایق را می سازد. به عنوان مثال، هنگام ارائه یک مرجع، یک مرجع واقعی تولید می کند که کاملاً ساختگی است. اثر و گاهی نویسندگان حتی وجود ندارند.

با این حال، نویسندگان کاملاً انتظار دارند که GPT-4 به طور تصاعدی در سؤالات آزمون حسابداری مطرح شده در مطالعه آنها و مسائل ذکر شده در بالا بهبود یابد.

آنچه آنها امیدوارکننده‌تر می‌دانند این است که چگونه ربات چت می‌تواند به بهبود آموزش و یادگیری کمک کند، از جمله توانایی طراحی و آزمایش تکالیف، یا شاید برای پیش‌نویس کردن بخش‌هایی از پروژه استفاده شود.

ملیسا لارسون، یکی از نویسندگان مطالعه و استاد حسابداری BYU، گفت: این آزمون فرصتی است تا در مورد اینکه آیا اطلاعات ارزش افزوده را آموزش می‌دهیم یا نه، فکر کنیم. ما باید ارزیابی کنیم که از اینجا به کجا می رویم. البته، من همچنان دستیار های تدریس خود را دارم، اما این ما را مجبور می کند که از آنها به روش های مختلف استفاده کنیم.