تحقیقی جدید نشان میدهد که هوش مصنوعی در مواجهه با گفتوگوهای پیچیده پزشکی و تشخیص بیماری هنوز با مشکلات قابل توجهی روبهرو است.
به گزارش تکناک، هوش مصنوعی در زمینه مراقبتهای درمانی به سرعت در حال پیشرفت است و تصاویر پزشکی را تحلیل میکند و پیشنهاد درمانها را ارائه میدهد. اما در برخی بخشها با چالشهایی مواجه است. تحقیقی جدید که توسط محققان دانشکده پزشکی هاروارد و دانشگاه استنفورد انجام شده، این مشکلات را بررسی کرده است.
این مطالعه که در مجله Nature Medicine منتشر شده است، چارچوبی نوین به نام CRAFT-MD معرفی میکند تا عملکرد مدلهای هوش مصنوعی در شبیهسازی تعاملات پزشک-بیمار را ارزیابی کند.
در شرایطی که بیماران به طور فزایندهای از ابزارهایی چون ChatGPT برای تفسیر علائم و نتایج آزمایشها استفاده میکنند، درک توانمندیهای واقعی این سیستمها در مواجهه با سناریوهای پیچیده ضروری است.
پراناو راجپورکار، نویسنده ارشد این مطالعه گفت: «اگرچه مدلهای هوش مصنوعی در آزمونهای پزشکی عملکرد عالی دارند، اما در مواجهه با چالشهای گفتوگویی در یک ملاقات پزشکی، دچار مشکل میشوند. این مشکلات شامل طرح سؤالات درست در زمان مناسب، مدیریت اطلاعات پراکنده و استدلال درباره علائم بیماران است، مسائلی که به مراتب پیچیدهتر از پاسخ به سؤالات چند گزینهای هستند.»
یک تیم تحقیقاتی به رهبری راجپورکار و رکسانا دانشجو از دانشگاه استنفورد، چهار مدل پیشرفته هوش مصنوعی را در 2000 سناریوی پزشکی در 12 تخصص مختلف ارزیابی کردند. در حالی که ارزیابیهای سنتی اغلب به سؤالات چند گزینهای متکی هستند، شرایط واقعی در دنیای پزشکی پیچیدهتر و بینظمتر است.
در این آزمایشها، مدل GPT-4 هنگام خواندن خلاصههای آمادهشده از دقت بالای 82 درصد برخوردار بود، اما هنگام جمعآوری اطلاعات از طریق گفتوگو، این دقت به 63 درصد کاهش یافت. در سناریوهای بدون گزینههای چندگانه، دقت مدل به 49 درصد رسید و در مصاحبههای شبیهسازیشده با بیماران این مقدار به 26 درصد کاهش پیدا کرد.
همچنین این مطالعه نشان داد که مدلهای هوش مصنوعی در ترکیب اطلاعات از چندین تبادل گفتوگو دچار مشکل هستند. آنها اغلب از جزئیات حیاتی در تاریخچه پزشکی بیمار غافل میشوند، سؤالات پیگیری مناسب نمیپرسند و قادر به ترکیب اطلاعات مختلف مانند: دادههای تصویری و علائم گزارششده از سوی بیمار نیستند.
علاوه بر این، CRAFT-MD به این مزیت دست یافته است که میتواند به طور مؤثر 10,000 مکالمه را در عرض 48 تا 72 ساعت پردازش کند، در حالی که ارزیابیهای انسانی به هزاران ساعت زمان نیاز دارند. این موضوع به محققان کمک میکند تا مدلهای هوش مصنوعی را سریعتر و دقیقتر ارزیابی کنند.
پیشنهادات این تحقیق شامل ایجاد مدلهایی است که قادر به مدیریت مکالمات بدون ساختار باشند و بتوانند انواع مختلف دادهها (متن، تصاویر و اندازهگیریهای بالینی) را به خوبی ترکیب کنند.
همچنین تفسیر نشانههای غیرکلامی در ارتباطات بیمار و پزشک نیز اهمیت دارد. محققان تأکید دارند که ارزیابیهای مبتنی بر هوش مصنوعی باید با ارزیابیهای تخصصی از سوی انسانها ترکیب شود تا از کیفیت بالای سیستمها اطمینان حاصل شود.
این مطالعه نشان میدهد که اگرچه هوش مصنوعی در حوزه مراقبتهای درمانی پتانسیلهای زیادی دارد، اما برای اینکه بتواند به طور قابل اعتماد در تعاملات پیچیده پزشک-بیمار وارد شود، هنوز به پیشرفتهای چشمگیری نیاز دارد.
در حال حاضر، این ابزارها ممکن است بهترین نقش را در حوزه مکملی برای تخصص پزشکی انسان ایفا کنند، اما هنوز جایگزینی برای آن نیستند.