محققان دانشکده پزشکی Icahn در بیمارستان مونت سینا کشف کردهاند که پیشرفتهترین سیستمهای هوش مصنوعی بهویژه مدلهای زبان بزرگ (LLM) ، در کدگذاری پزشکی ضعیف هستند.
به گزارش تکناک، مطالعه آنها که اخیراً در مجله NEJM AI منتشر شده است، بر ضرورت اصلاح و اعتبار سنجی این فناوریها قبل از در نظر گرفتن اجرای بالینی تأکید میکند.
این مطالعه فهرستی از بیش از 27000 کد تشخیص و روش منحصر به فرد را از 12 ماه درمان معمول در سیستم بهداشت مونت سینا استخراج کرد، در حالی که دادههای قابل شناسایی بیمار را حذف کرد. با استفاده از توضیحات مربوط به هر کد، محققان مدل هایی از OpenAI، گوگل و متا را به خروجی دقیقترین کدهای پزشکی تشویق کردند. کدهای تولید شده با کدهای اصلی مقایسه شدند و خطاها برای هر الگوی مورد تجزیه و تحلیل قرار گرفتند.
فهرست مطالب
تجزیه و تحلیل عملکرد مدل
محققان گزارش کردند که همه مدلهای زبان بزرگ مورد مطالعه از جمله GPT-4، GPT-3.5، Gemini-pro، و Llama-2-70b، دقت محدودی (زیر 50 درصد) را در بازتولید کدهای پزشکی اصلی نشان دادند که نشان دهنده شکاف در مفید بودن آنها برای کدگذاری پزشکی است. GPT-4 بهترین عملکرد را با بالاترین نرخ تطابق دقیق برای ICD-9-CM (45.9 درصد)، ICD-10-CM (33.9 درصد) و کدهای CPT (49.8 درصد) نشان داد.
GPT-4 بیشترین نسبت کدهای نادرست را تولید کرد که همچنان معنای صحیح را منتقل میکردند. به عنوان مثال، زمانی که توصیف ICD-9-CM یا پروستات ندولار بدون انسداد ادراری داده شد، GPT-4 یک کد برای «پروستات گرهدار» تولید کرد که درک نسبتاً ظریف خود را از اصطلاحات پزشکی نشان میدهد. با این حال، حتی با در نظر گرفتن این کدهای فنی صحیح، تعداد غیرقابل قبولی از خطاها باقی ماند.
مدل بعدی با بهترین عملکرد که GPT-3.5 بود، بیشترین میزان مبهم بودن را داشت. همچنین این مدل بالاترین نسبت کدهای نادرست تولید شده را داشت که در مقایسه با کدهای دقیق، دقیق اما عمومیتر بودند. در این مورد، زمانی که با توضیح کد ICD-9-CM «اثر نامطلوب بیهوشی» ارائه شد، GPT-3.5 کدی برای «سایر عوارض جانبی مشخص شده، که در جای دیگری طبقهبندی نشده» تولید کرد.
اهمیت ارزیابی دقیق هوش مصنوعی
دکتر علی سروش، نویسنده مسئول این مطالعه میگوید: یافتههای ما بر نیاز حیاتی برای ارزیابی دقیق و اصلاح قبل از استقرار فناوریهای هوش مصنوعی در مناطق عملیاتی حساس مانند کدگذاری پزشکی تأکید میکند. اگرچه هوش مصنوعی پتانسیل بالایی دارد، باید با احتیاط با آن برخورد کرد تا از قابلیت اطمینان و کارایی آن در مراقبتهای بهداشتی اطمینان حاصل شود.
محققان میگویند که یکی از کاربردهای این مدلها در پزشکی، خودکار کردن تخصیص کدهای پزشکی برای بازپرداخت و اهداف تحقیقاتی بر اساس متن بالینی است.
سروش افزود: مطالعات قبلی نشان میدهد که مدلهای زبان بزرگ جدیدتر با وظایف عددی دست و پنجه نرم میکنند. اما تاکنون میزان دقت آنها در تخصیص کدهای پزشکی از متن بالینی بهطور کامل در مدلهای مختلف مورد بررسی قرار نگرفته بود. بنابراین هدف ما ارزیابی این بود که آیا این مدلها میتوانند بهطور مؤثر وظیفه اساسی تطبیق یک کد پزشکی با توضیحات متن رسمی مربوطه را انجام دهند یا خیر.
محققان میگویند که ادغام LLM با دانش تخصصی میتواند استخراج کد پزشکی را خودکار کند و بهطور بالقوه دقت را افزایش داده و هزینههای اداری در سیستمهای درمانی را کاهش دهد.
نتیجهگیری و مراحل بعدی
دکتر گیریش نادکارنی، یکی از نویسندگان ارشد این مطالعه میگوید: این مطالعه تواناییها و موانع فعلی سر راه هوش مصنوعی در مراقبتهای درمانی را نشان میدهد و بر نیاز به بررسی دقیق و اصلاح بیشتر قبل از پذیرش گسترده آنها تأکید میکند.
محققان هشدار میدهند که این مطالعه ممکن است بهطور کامل سناریوهای دنیای واقعی که عملکرد LLM میتواند در آنها بدتر باشد را نشان ندهد.
در مرحله بعد، محققان قصد دارند ابزارهای LLM مناسب را برای استخراج دقیق دادههای پزشکی و تخصیص کد صورتحساب، با هدف بهبود کیفیت و کارایی در عملیات مراقبت های بهداشتی، توسعه دهند.