همدلی هوش مصنوعی ChatGPT از پزشکان واقعی بیشتر است

یک تحلیل شگفت‌انگیز از ۱۵ مطالعه نشان می‌دهد که بیماران، همدلی بیشتری در پاسخ‌های پزشکی تولیدشده توسط هوش مصنوعی مانند ChatGPT نسبت به پاسخ پزشکان واقعی احساس می‌کنند.

به گزارش سرویس فناوری تک‌ناک، بزرگ‌ترین مطالعه شامل ۲,۱۶۴ بیمار بود و الگوهای مشابهی در داده‌های کوچک‌تر مشاهده شد. ChatGPT و چت‌بات‌های مشابه هوش مصنوعی در مقیاس ۱۰ امتیازی سنجش همدلی، تقریبا دو امتیاز بالاتر از متخصصان انسانی مراقبت‌های بهداشتی قرار گرفتند. در مقایسه‌های مستقیم، هوش مصنوعی با احتمال ۷۳ درصد همدلانه‌تر از پزشکان ارزیابی شد.

نویسندگان مطالعه نوشتند: «در محیط‌های متنی، چت‌بات‌های هوش مصنوعی اغلب همدلانه‌تر از کارکنان انسانی تلقی می‌شوند.» این متا‌آنالیز از دانشگاه‌های ناتینگهام و لستر، داده‌های ۱۳ مطالعه از مجموع ۱۵ مطالعه‌ای را یکپارچه کرد که هوش مصنوعی را با پزشکان، پرستاران و سایر کارکنان مراقبت‌های بهداشتی مقایسه کرده بودند. نتایج منتشرشده در British Medical Bulletin، باورهای دیرینه درباره ارتباط انسانی در پزشکی را زیر سوال می‌برد و در تضاد با گزارش ۲۰۱۹ دولت بریتانیا است، که همدلی را «مهارتی انسانی و غیرقابل جایگزینی برای هوش مصنوعی» توصیف کرده بود.

01
از 03
سنجش همدلی هوش مصنوعی و پزشکان

هوش مصنوعی ChatGPT4 در ۹ مطالعه مستقل که شامل مراقبت‌های سرطان، بیماری‌های تیروئید، سلامت روان، اوتیسم و سوالات عمومی پزشکی بود، از پزشکان انسانی پیشی گرفت. در سوالات تیروئید، هوش مصنوعی با ۱.۴۲ انحراف معیار بالاتر از جراحان انسانی در مقیاس همدلی قرار گرفت. در زمینه سلامت روان، این هوش مصنوعی ۰.۹۷ انحراف معیار بالاتر از متخصصان معتبر روان‌پزشکی امتیاز گرفت. بیشترین تفاوت در پاسخ به شکایات بیماران مشاهده شد؛ هنگام رسیدگی به شکایات بین بخش‌های مختلف بیمارستان، ChatGPT4 با ۲.۰۸ انحراف معیار بالاتر از مسئولان روابط بیماران قرار گرفت.

این برتری مستقل از ارزیاب بود؛ زمانی که پزشکان و بیماران پاسخ‌های مشابه درباره لوپوس سیستمیک را مورد بررسی قرار دادند، پزشکان پاسخ‌های AI را همدلانه‌تر ارزیابی کردند. برای سوالات مرتبط با مولتیپل اسکلروز، نمایندگان بیماران، پاسخ‌های AI را بالاتر از پاسخ‌های نورولوژیست‌ها دانستند. مطالعات مبتنی بر انجمن‌های سلامت Reddit و پرتال‌های بیماران نیز همین روند را تایید کردند؛ از تفسیر آزمایش خون تا مدیریت بیماری‌های مزمن و بررسی گزینه‌های درمان سرطان، پاسخ‌های هوش مصنوعی به طور مداوم با عنوان گرم، دلسوز و با توجه به نگرانی‌های بیماران ارزیابی شدند. تخصص پوست تنها حوزه‌ای بود که در آن متخصصان بهتر از هوش مصنوعی عمل کردند. در دو مطالعه مرتبط با پرسش‌های پوستی، متخصصان پوست از ChatGPT-3.5 و Med-PaLM 2 پیشی گرفتند، هرچند دلیل این تفاوت تخصصی برای پژوهشگران نامشخص باقی ماند.

بیشتر بخوانید: پیشرفت قابل توجه پزشک هوش مصنوعی گوگل

همدلی هوش مصنوعی از پزشکان واقعی بیشتر است — آیا در آینده هوش مصنوعی از پزشک انسانی پیشی می‌گیرد؟

حتما بخوانید: نظر بیماران درباره استفاده از هوش مصنوعی در پزشکی چیست؟

تمام مطالعات به تعاملات متنی محدود بودند. حتی در مطالعه‌ای که پاسخ‌های هوش مصنوعی به صوت تبدیل شد، امتیاز همدلی فقط از روی متن نوشتاری استخراج شد. اشارات غیرکلامی پزشک، مانند سر تکان دادن، خم شدن به جلو یا تماس چشمی، گاهی به اندازه کلمات، قدرت انتقال همدلی دارند. تعاملات متنی، بخش کوچکی از مراقبت بیمار را تشکیل می‌دهد، اما با رشد پرتال‌های بیمار و پزشکی از راه دور، اهمیت آن افزایش یافته است. علاوه بر این، اکثر مطالعات به جای بیماران واقعی از ارزیابان جایگزین استفاده کردند؛ متخصصان مراقبت‌های بهداشتی، دانشجویان پزشکی، نمایندگان بیماران و پژوهشگران، همدلی پاسخ‌ها را مورد ارزیابی قرار دادند. بازخورد مستقیم بیماران ممکن است متفاوت باشد، چرا که بیماران و ارائه‌دهندگان مراقبت اغلب همدلی را به شکل متفاوتی می‌سنجند.

بیشتر مطالعات از مقیاس‌های همدلی سفارشی و تاییدنشده استفاده کردند و ارزیابان پاسخ‌ها را در مقیاس ۱ تا ۵ یا ۱ تا ۱۰ از «بدون‌همدلی» تا «خیلی همدلانه» نمره‌دهی کردند. تنها یک مطالعه از مقیاس CARE، ابزار ۱۰ موردی معتبر برای سنجش همدلی درمانی در مشاوره بالینی، استفاده کرد. این تحقیقات نتوانستند مشخص کنند که آیا برتری همدلی ادراک‌شده هوش مصنوعی باعث بهبود واقعی سلامت می‌شود یا خیر. هرچند ارتباط همدلانه با کاهش درد و اضطراب، افزایش پایبندی به درمان و رضایت بیشتر بیماران مرتبط است، این مطالعات تنها ادراک همدلی را اندازه‌گیری کردند و تاثیر بالینی واقعی بررسی نشد.

02
از 03
۲۰ درصد پزشکان بریتانیا از ChatGPT استفاده می‌کنند!

با شتاب گرفتن پذیرش هوش مصنوعی در حوزه سلامت، تحقیقات نشان می‌دهد که یک پنجم پزشکان عمومی در بریتانیا اکنون از ابزارهای تولید محتوا مبتنی بر هوش مصنوعی برای فعالیت‌هایی مانند نگارش مکاتبات بیماران استفاده می‌کنند. بیش از ۱۱۷ هزار بیمار در ۳۱ سرویس سلامت روان NHS با Wysa، درمانگر دیجیتال مبتنی بر هوش مصنوعی، تعامل داشته‌اند. نویسندگان مطالعه، مدل همکاری میان پزشک و هوش مصنوعی را پیشنهاد می‌کنند؛ پزشکان پاسخ اولیه را آماده می‌کنند و هوش مصنوعی با بهبود لحن و زبان همدلانه، کیفیت ارتباط را افزایش می‌دهد، در حالی که صحت علمی توسط پزشکان تضمین می‌شود. این رویکرد می‌تواند بار کاری پزشکان را کاهش دهد و رضایت بیماران را بهبود بخشد.

با وجود این، همدلی در ارائه پاسخ‌های هوش مصنوعی تنها زمانی ارزشمند است که توصیه‌های پزشکی دقیق و قابل اعتماد باشند. نگرانی‌ها درباره دقت هوش مصنوعی همچنان پابرجا است و هرگونه خطای علمی یا ارائه اطلاعات ناقص می‌تواند برتری ادراک‌شده در همدلی را از بین ببرد.

همدلی هوش مصنوعی از پزشکان واقعی بیشتر ارزیابی شد — یک پزشک بریتانیایی درحال بررسی سوابق بیمار

03
از 03
این تحقیق چگونه انجام شد؟

محققان با جست‌وجوی هفت پایگاه داده تا نوامبر ۲۰۲۴، ۱۵ مطالعه واجد شرایط از سال‌های ۲۰۲۳ تا ۲۰۲۴ را شناسایی کردند. اکثر این مطالعات از مقیاس‌های تک‌سوالی و تاییدنشده استفاده کردند، که ارزیابان می‌بایست همدلی را از ۱ تا ۵ یا ۱ تا ۱۰ نمره‌دهی می‌کردند. تنها یک مطالعه از مقیاس معتبر CARE، طراحی‌شده برای سنجش همدلی درمانی بهره برد. ۱۴ مطالعه به بررسی انواع ChatGPT (نسخه‌های ۳.۵ و ۴) پرداختند و سایر پژوهش‌ها Claude، Gemini Pro، Le Chat، ERNIE Bot و Med-PaLM 2 را ارزیابی کردند. سوالات بیماران از ایمیل‌ها، سوابق پزشکی خصوصی، فروم‌های ردیت، چت‌های زنده و تعاملات حضوری گردآوری شد. بزرگ‌ترین مجموعه داده شامل ۲,۱۶۴ پرسش زنده بیماران سرپایی در یک بیمارستان چین بود.

از میان این مطالعات، ۹ مطالعه ریسک متوسط و ۶ مطالعه ریسک جدی جانبداری داشتند. مشکلات رایج شامل پرسش‌های انتخاب‌شده بیماران که می‌توانست نتایج را تحریف کند، تکیه بر جوامع Reddit با دسترسی محدود کاربران به مراقبت رسمی و طراحی هوش مصنوعی تحت نظارت انسان بود.

مشاوره‌های تلفنی ۲۶ درصد از ویزیت‌های پزشکان عمومی در بریتانیا را تشکیل می‌دهند. سیستم‌های صوتی نوظهور AI، مانند حالت صوتی پیشرفته ChatGPT، ادعا می‌کنند که می‌توانند با لحن همدلانه پاسخ و نشانه‌های غیرکلامی را تشخیص دهند، اما هنوز هیچ مطالعه‌ای این قابلیت‌ها را در تعامل‌های گفتاری با پزشکان ارزیابی نکرده است. تیم تحقیق تاکید کرد که آزمایش‌های مقایسه‌ای صوتی هنوز ضروری است؛ اگر برتری همدلی هوش مصنوعی به تعاملات صوتی هم منتقل شود، می‌تواند نحوه دریافت مراقبت توسط میلیون‌ها بیمار را متحول کند.