محققان کانادایی اقدام به آزمایش عملکرد ChatGPT در امتحانات رادیولوژی کردند و نتایج خوبی را در این آزمایش از مدل هوش مصنوعی شاهد بودند.
به گزارش تکناک، محققان بیمارستان عمومی تورنتو در کانادا یک پروژه ای بسیار متداول انجام دادند. آنها از ChatGPT برای پاسخگویی به سؤالات یک آزمون استاندارد استفاده کردند و عملکرد آن را بررسی کردند. این چت بات در یک آزمون 150 سوالی شرکت کرد که برای شبیهسازی آزمونهای هیئت های رادیولوژی کانادا و ایالات متحده طراحی شده بود. نتیجه به دست آمده این بود که این چت بات موفقیت 81 درصدی را کسب کرد که به شدت بیشتر از درصد قبولی 70 درصد بود.
از زمان راهاندازی ChatGPT، کاربران از توانایی آن در درک اطلاعات و استفاده از آن برای پاسخ به سؤالات شگفت زده شدهاند. ChatGPT برای پاسخگویی به سوالات آزمون مجوز پزشکی ایالات متحده (USMLE)و همچنین آزمون MBA در مدرسه بازرگانی وارتون مورد آزمایش قرار گرفت و عملکرد متوسطی داشت.
با افزایش استفاده از ChatGPT در بخشهای مختلف، محققان دانشگاه پزشکی تصویربرداری تورنتو به این نتیجه رسیدند که زمان آن رسیده است که تواناییهای این چت بات را در رادیولوژی نیز آزمایش کنند.
ChatGPT به سوالات رادیولوژی پاسخ می دهد
محققان یک آزمون 150 سوالی برای ChatGPT ترتیب دادند، دقیقاً مانند آنچه که هیئتهای رادیولوژی در کانادا و ایالات متحده برای دانشجویان انجام میدهند. از آنجایی که ربات هوش مصنوعی نمی تواند تصاویر را به عنوان ورودی پردازش کند، محققان فقط متنی را در سوال ارائه کردند که به سوالات مرتبه پایین و مرتبه بالاتر گروه بندی شدند.
سؤالات در گروه مرتبه پایین تر، ربات چت را برای یادآوری دانش و درک اولیه موضوع آزمایش می کنند، در حالی که سؤالات در مرتبه بالاتر توانایی هایی نظیر تجزیه و تحلیل و ترکیب اطلاعات لازم دارد.
از آنجایی که دو نسخه از GPT در حال حاضر موجود است، محققان هر دوی آنها را روی یک مجموعه سوال آزمایش کردند تا ببینند آیا یکی از دیگری بهتر است یا خیر.
ChatGPT با نسخه قدیمی تر، یعنی GPT 3.5، تنها توانست 69 درصد صحیح را در مجموعه سؤالات کسب کند. GPT 3.5 در سؤالات مرتبه پایین نمره خوبی کسب می کند. یعنی 84 درصد پاسخ ها صحیح بود. با این حال، GPT با سؤالات مرتبه بالاتر کم و بیش مشکل دارد و فقط 60 درصد را صحیح پاسخ می دهد.
پس از انتشار GPT-4 در مارس 2023، محققان نسخه بهبودیافته ChatGPT را دوباره آزمایش کردند که پس از پاسخ صحیح به 121 سوال از 150 سوال، امتیاز 81 درصد را به دست آورد. همانطور که توسط OpenAI در مورد قابلیت های استدلال برتر GPT-4 ادعا کرده است، مدل زبان بزرگ تازه راه اندازی شده، 81 درصد در سؤالات مرتبه بالاتر امتیاز کسب کرده است.
با این حال، چیزی که محققان را شگفت زده کرد، عملکرد GPT-4 در سؤالات مرتبه پایین تر است، جایی که 12 سؤالی که GPT3.5 به درستی پاسخ داده بود را GPT-4 اشتباه جواب داد. راجش بایانا، رادیولوژیست و سرپرست فناوری در بیمارستان عمومی تورنتو، گفت: ابتدا از پاسخهای دقیق و مطمئن ChatGPT به برخی از سوالات چالشبرانگیز رادیولوژی متعجب شدیم، اما سپس به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست نیز تعجب کردیم.
با توجه به کاهش تمایل به ارائه اطلاعات نادرست در GPT-4، هنوز در کامل حذف آن از بین نرفته است. این موضوع میتواند در عمل پزشکی خطرناک باشد، به ویژه زمانی که توسط افراد تازه وارد استفاده میشود که ممکن است نتوانند پاسخهای نادرست را شناسایی کنند. محققان افزودند.
در حالی که تمایل به ارائه مطمئن اطلاعات نادرست، در GPT-4 کاهش یافته است، با این وجود هنوز به طور کامل حذف نشده است. محققان افزودند که در عمل پزشکی، این می تواند خطرناک باشد، به ویژه هنگامی که توسط افراد تازه کار استفاده شود چراکه ممکن است نتوانند پاسخ های نادرست را تشخیص دهند.
یافته های این تحقیق امروز در مجله Radiology منتشر شد.