ضعف شدید هوش مصنوعی در پزشکی

محققان دانشکده پزشکی Icahn در بیمارستان مونت سینا کشف کرده‌اند که پیشرفته‌ترین سیستم‌های هوش مصنوعی به‌ویژه مدل‌های زبان بزرگ (LLM) ، در کدگذاری پزشکی ضعیف هستند.

به گزارش تکناک، مطالعه آنها که اخیراً در مجله NEJM AI منتشر شده است، بر ضرورت اصلاح و اعتبار سنجی این فناوری‌ها قبل از در نظر گرفتن اجرای بالینی تأکید می‌کند.

این مطالعه فهرستی از بیش از 27000 کد تشخیص و روش منحصر به فرد را از 12 ماه درمان معمول در سیستم بهداشت مونت سینا استخراج کرد، در حالی که داده‌های قابل شناسایی بیمار را حذف کرد. با استفاده از توضیحات مربوط به هر کد، محققان مدل هایی از OpenAI، گوگل و متا را به خروجی دقیق‌ترین کدهای پزشکی تشویق کردند. کدهای تولید شده با کدهای اصلی مقایسه شدند و خطاها برای هر الگوی مورد تجزیه و تحلیل قرار گرفتند.

01
از 03
تجزیه و تحلیل عملکرد مدل

محققان گزارش کردند که همه مدل‌های زبان بزرگ مورد مطالعه از جمله GPT-4، GPT-3.5، Gemini-pro، و Llama-2-70b، دقت محدودی (زیر 50 درصد) را در بازتولید کدهای پزشکی اصلی نشان دادند که نشان دهنده شکاف در مفید بودن آنها برای کدگذاری پزشکی است. GPT-4 بهترین عملکرد را با بالاترین نرخ تطابق دقیق برای ICD-9-CM (45.9 درصد)، ICD-10-CM (33.9 درصد) و کدهای CPT (49.8 درصد) نشان داد.

GPT-4 بیشترین نسبت کدهای نادرست را تولید کرد که همچنان معنای صحیح را منتقل می‌کردند. به عنوان مثال، زمانی که توصیف ICD-9-CM یا پروستات ندولار بدون انسداد ادراری داده شد، GPT-4 یک کد برای «پروستات گره‌دار» تولید کرد که درک نسبتاً ظریف خود را از اصطلاحات پزشکی نشان می‌دهد. با این حال، حتی با در نظر گرفتن این کدهای فنی صحیح، تعداد غیرقابل قبولی از خطاها باقی ماند.

مدل بعدی با بهترین عملکرد که GPT-3.5 بود، بیشترین میزان مبهم بودن را داشت. همچنین این مدل بالاترین نسبت کدهای نادرست تولید شده را داشت که در مقایسه با کدهای دقیق، دقیق اما عمومی‌تر بودند. در این مورد، زمانی که با توضیح کد ICD-9-CM «اثر نامطلوب بیهوشی» ارائه شد، GPT-3.5 کدی برای «سایر عوارض جانبی مشخص شده، که در جای دیگری طبقه‌بندی نشده» تولید کرد.

02
از 03
اهمیت ارزیابی دقیق هوش مصنوعی

دکتر علی سروش، نویسنده مسئول این مطالعه می‌گوید: یافته‌های ما بر نیاز حیاتی برای ارزیابی دقیق و اصلاح قبل از استقرار فناوری‌های هوش مصنوعی در مناطق عملیاتی حساس مانند کدگذاری پزشکی تأکید می‌کند. اگرچه هوش مصنوعی پتانسیل بالایی دارد، باید با احتیاط با آن برخورد کرد تا از قابلیت اطمینان و کارایی آن در مراقبت‌های بهداشتی اطمینان حاصل شود.

محققان می‌گویند که یکی از کاربردهای این مدل‌ها در پزشکی، خودکار کردن تخصیص کدهای پزشکی برای بازپرداخت و اهداف تحقیقاتی بر اساس متن بالینی است.

سروش افزود: مطالعات قبلی نشان می‌دهد که مدل‌های زبان بزرگ جدیدتر با وظایف عددی دست و پنجه نرم می‌کنند. اما تاکنون میزان دقت آنها در تخصیص کدهای پزشکی از متن بالینی به‌طور کامل در مدل‌های مختلف مورد بررسی قرار نگرفته بود. بنابراین هدف ما ارزیابی این بود که آیا این مدل‌ها می‌توانند به‌طور مؤثر وظیفه اساسی تطبیق یک کد پزشکی با توضیحات متن رسمی مربوطه را انجام دهند یا خیر.

محققان می‌گویند که ادغام LLM با دانش تخصصی می‌تواند استخراج کد پزشکی را خودکار کند و به‌طور بالقوه دقت را افزایش داده و هزینه‌های اداری در سیستم‌های درمانی را کاهش دهد.

03
از 03
نتیجه‌گیری و مراحل بعدی

دکتر گیریش نادکارنی، یکی از نویسندگان ارشد این مطالعه می‌گوید: این مطالعه توانایی‌ها و موانع فعلی سر راه هوش مصنوعی در مراقبت‌های درمانی را نشان می‌دهد و بر نیاز به بررسی دقیق و اصلاح بیشتر قبل از پذیرش گسترده آنها تأکید می‌کند.

محققان هشدار می‌دهند که این مطالعه ممکن است به‌طور کامل سناریوهای دنیای واقعی که عملکرد LLM می‌تواند در آنها بدتر باشد را نشان ندهد.

در مرحله بعد، محققان قصد دارند ابزارهای LLM مناسب را برای استخراج دقیق داده‌های پزشکی و تخصیص کد صورتحساب، با هدف بهبود کیفیت و کارایی در عملیات مراقبت های بهداشتی، توسعه دهند.