تحقیقات نشان میدهد که ChatGPT میتواند با تحلیل گفتوگوها و دادههای بالینی در تشخیص پزشکی به عنوان یک ابزار کمکی مفید عمل کند، اما نباید به طور کامل بر آن تکیه کرد.
به گزارش تکناک، بر اساس یک مطالعه جدید، ChatGPT در تشخیص بیماریها، عملکرد متوسطی دارد و تنها در 49 درصد مواقع قادر به تشخیص درست بیماریها است. محققان میگویند یافتههای آنها نشان میدهد که هوش مصنوعی نباید تنها منبع اطلاعات پزشکی باشد و اهمیت حفظ عنصر انسانی در مراقبتهای درمانی را برجسته میکنند.
راحتی دسترسی به فناوریهای آنلاین باعث شده است که برخی از افراد به پزشک متخصص مراجعه نکنند و به جای آن علائم خود را در گوگل جستوجو نمایند. اگرچه نگرانی در مورد سلامتی موضوع بدی نیست، اما Dr Google آنقدرها هم دقیق نیست.
یک مطالعه استرالیایی در سال 2020 که روی 36 هوش مصنوعی بررسیکننده علائم موجود در گوشی و مبتنی بر وب انجام شد، نشان داد که تشخیص صحیح تنها در 36 درصد موارد رخ داده است.
به طور قطع هوش مصنوعی از سال 2020 بهبود یافته است. ChatGPT OpenAI به سرعت پیشرفت کرده است و اکنون میتواند در آزمون مجوز پزشکی ایالات متحده قبول شود. اما آیا ChatGPT از نظر دقت تشخیصی بهتر از Dr Google است؟ این سؤالی است که محققان دانشگاه وسترن در کانادا در یک مطالعه جدید به دنبال پاسخ آن بودند.
محققان از ChatGPT 3.5 که یک مدل زبان بزرگ (LLM) است و آموزش آن از روی مجموعه داده عظیمی با بیش از 400 میلیارد کلمه از اینترنت با منابعی شامل کتابها، مقالهها و وبسایتها میباشد، استفاده کردند و با پاسخ دادن به چالشهای Medscape Case این چتبات، یک تجزیه و تحلیل جامع از اطلاعات پزشکی این هوش مصنوعی انجام دادند.
چالشهای موردی Medscape موارد پیچیده بالینی هستند، که دانش و مهارتهای تشخیصی یک متخصص پزشکی را به چالش میکشند. متخصصان پزشکی باید با انتخاب از بین چهار پاسخ چند گزینهای، تشخیص درست داده یا طرح درمانی مناسب را برای یک مورد انتخاب کنند. محققان، Medscape’s Case Challenges را انتخاب کردند، چرا که متن باز و آزادانه در دسترس هستند. برای جلوگیری از این احتمال که ChatGPT اطلاعات قبلی از موارد داشته باشد، فقط آنچه که پس از آموزش مدل 3.5 در آگوست 2021 تألیف شده بودند را گنجاندند.
در مجموع 150 مورد Medscape مورد تجزیه و تحلیل قرار گرفت. با چهار پاسخ چند گزینهای در هر مورد، در مجموع 600 پاسخ ممکن دیده میشد، که تنها یک پاسخ صحیح در هر کدام از آنها وجود داشت. گزینههای مورد تجزیه و تحلیل طیف گستردهای از مشکلات پزشکی را پوشش میدادند.
برای اطمینان از سازگاری در ورودی ارائه شده به ChatGPT، هر چالش موردی به یک درخواست استاندارد تبدیل شد، از جمله یک اسکریپت از خروجی که چتبات باید ارائه دهد. تمام موارد توسط حداقل دو ارزیاب مستقل (کارآموزان پزشکی که نسبت به پاسخهای یکدیگر اطلاعاتی نداشتند) ارزیابی شدند. آنها پاسخهای ChatGPT را بر اساس دقت تشخیصی، بار شناختی (یعنی پیچیدگی و وضوح اطلاعات ارائهشده، از کم به بالا) و کیفیت اطلاعات پزشکی (از جمله کامل و مرتبط بودن آن) ارزیابی کردند.
از 150 مورد Medscape تجزیه و تحلیل شده، ChatGPT در 49 درصد موارد پاسخهای صحیح ارائه کرد. هر چند این چتبات دقت کلی 74 درصدی را از خود نشان داد، به این معنی که میتوانست گزینههای چند گزینهای نادرست را شناسایی و رد کند.
محققان در این باره توضیح میدهند که این مقدار بالاتر، به دلیل توانایی ChatGPT برای شناسایی گزینههای منفی واقعی (گزینههای نادرست) است، که به طور قابلتوجهی به دقت کلی این ربات کمک میکند و کاربرد آن در حذف انتخابهای نادرست را افزایش میدهد.
این تفاوت ویژگی بالای ChatGPT را برجسته میکند، که نشاندهنده توانایی آن برای برتری در رد تشخیصهای نادرست است. با وجود این، ChatGPT برای شناسایی قابل اعتماد تشخیص صحیح نیاز به بهبود در دقت و حساسیت دارد.
علاوه بر این، ChatGPT تشخیصهای مثبت کاذب (13 درصد) و منفی کاذب ( 13درصد) ارائه کرد، که پیامدهایی برای استفاده از آن به عنوان یک ابزار تشخیصی دارد. کمی بیش از نیمی (52 درصد) از پاسخهای ارائه شده توسط ChatGPT کامل و مرتبط بودند، البته با 43 درصد پاسخ ناقص که هر چند همچنان ارتباط داشتند.
ChatGPT تمایل داشت تا پاسخهایی با بار شناختی کم (51 درصد) تا متوسط (41 درصد) تولید کند، که درک آنها را برای کاربران آسان میکند. با وجود این، محققان تأکید میکنند که این سهولت درک، همراه با پتانسیل اطلاعات نادرست یا نامربوط، میتواند باعث تصورات غلط و احساس نادرست شود، به خصوص اگر ChatGPT به عنوان یک ابزار آموزش پزشکی استفاده شود.
ChatGPT همچنین برای تمایز بین بیماریها با ارائههای متفاوت، تلاشهایی داشت و این مدل گاهی اوقات اطلاعات نادرست یا غیرقابل قبولی را تولید میکرد، که به عنوان توهمات هوش مصنوعی شناخته میشد و بر خطر اتکای صرف به ChatGPT برای راهنمایی پزشکی و لزوم تخصص انسانی در فرایند تشخیص تأکید میکند.
البته محققان مورد آخر را به عنوان یک محدودیت مطالعه ذکر میکنند، چرا که ChatGPT 3.5 یک مدل هوش مصنوعی است که امکان دارد نماینده مدلهای دیگر نباشد و در آینده دقت آن بهبود یابد.
همچنین موارد Medscape تجزیه و تحلیل شده توسط ChatGPT در درجه اول بر موارد تشخیص افتراقی متمرکز شده است، جایی که متخصصان پزشکی باید بین دو یا چند بیماری با علامت یا علائم مشابه تمایز قائل شوند.
در حالی که تحقیقات آینده باید دقت مدلهای مختلف هوش مصنوعی را با استفاده از طیف وسیعتری از منابع موردی ارزیابی قرار دهد، نتایج مطالعه حاضر با این وجود آموزنده است.
محققان میگویند که ترکیب ارتباط بالا با دقت به نسبت پایین، نشان میدهد که برای مشاوره پزشکی به ChatGPT اعتماد نکنید، چرا که میتواند اطلاعات مهمی را ارائه دهد که گمراهکننده باشد. اگر چه نتایج ما نشان میدهد ChatGPT به طور مداوم اطلاعات یکسانی را به کاربران مختلف ارائه میکند و قابلیت اطمینان قابلتوجهی دارد، اما کاستیهای این ابزار در ارائه اطلاعات پزشکی واقعی قابل توجه است.
این مطالعه در مجله PLOS One منتشر شد.