ضعف شدید چت‌بات های هوش مصنوعی در خلاصه‌سازی اخبار

بی‌بی‌سی در بررسی عملکرد چت‌بات‌های مطرح هوش مصنوعی دریافت که بیش از نیمی از خلاصه‌های خبری تولیدشده دارای خطاهای اساسی هستند.

به گزارش تکناک هوش مصنوعی تاکنون در انجام بسیاری از وظایف کارآمد بوده است. یکی از قابلیت‌های برجسته‌ای که شرکت‌های فعال در این حوزه تبلیغ می‌کنند، توانایی خلاصه‌سازی محتوا است.

این ویژگی به‌ویژه برای مقالات طولانی یا پیچیده ارزشمند به نظر می‌رسد، زیرا چت‌بات‌ها می‌توانند نسخه‌ای ساده‌تر و قابل‌فهم‌تر از محتوا ارائه دهند. بااین‌حال، بررسی‌ها نشان می‌دهد که برخی از چت‌بات‌های برتر هوش مصنوعی در تولید خلاصه‌های خبری، دقت و صحت لازم را ندارند.

بی‌بی‌سی چهار مورد از چت‌بات های پیشروی هوش مصنوعی را برای سنجش توانایی آن‌ها در خلاصه‌سازی اخبار مورد آزمایش قرار داد. این چت‌بات‌ها شامل ChatGPT از OpenAI، Copilot از مایکروسافت، Gemini از گوگل و Perplexity از Anthropic بودند.

در این آزمایش، بی‌بی‌سی برای نخستین بار اجازه دسترسی این چت‌بات‌ها به فیدهای خبری خود را صادر کرد. این رسانه معمولاً با استفاده از فایل robots.txt مانع از جمع‌آوری محتوای خود توسط پلتفرم‌های هوش مصنوعی می‌شود، اما به‌طور موقت این محدودیت را برای انجام آزمایش برداشت.

در این بررسی، چت‌بات‌ها وظیفه داشتند خلاصه‌هایی برای ۱۰۰ مقاله خبری بی‌بی‌سی تولید کنند. سپس کارشناسان حوزه‌های مرتبط این خلاصه‌ها را ارزیابی کردند. نتایج نشان داد که ۵۱ درصد از خلاصه‌های تولیدشده دارای ایرادهای قابل‌توجهی بودند. یکی از نگران‌کننده‌ترین یافته‌ها، نرخ ۱۹ درصدی “توهم” اطلاعات بود؛ به این معنا که در ۱۹ درصد از خلاصه‌ها، اطلاعات نادرست یا ساختگی درباره حقایق، آمار و تاریخ‌ها وجود داشت.

بی‌بی‌سی چهار مورد از چت‌بات های پیشروی هوش مصنوعی را برای سنجش توانایی آن‌ها در خلاصه‌سازی اخبار مورد آزمایش قرار داد.

گزارش بی‌بی‌سی همچنین تأکید دارد که چت‌بات‌های هوش مصنوعی در تفکیک میان نظر و واقعیت ضعف داشتند، گاهی محتوا را به شکل تحریریه‌ای تغییر دادند و در بسیاری از موارد، زمینه‌های مهم خبری را نادیده گرفتند.

دبورا ترنس، مدیرعامل بی‌بی‌سی نیوز، درباره این نتایج ابراز نگرانی کرد. او هوش مصنوعی را منبعی با فرصت‌های بی‌پایان می‌داند اما هشدار داد که شرکت‌های فعال در این حوزه در حال “بازی با آتش” هستند. ترنس پرسید:

“در این دوران پرتلاطم، چقدر طول می‌کشد تا یک تیتر خبری تحریف‌شده توسط هوش مصنوعی، باعث ایجاد یک بحران واقعی در جهان شود؟”

ترنس اعلام کرد که بی‌بی‌سی آماده همکاری برای یافتن راهکارهای مؤثر است. از میان چهار شرکت مورد بررسی، تنها OpenAI درباره نتایج آزمایش واکنش نشان داد.

سخنگوی این شرکت در بیانیه‌ای اعلام کرد:

“ما با شرکا همکاری کرده‌ایم تا دقت استنادهای درون‌خطی را بهبود بخشیم و به ترجیحات ناشران احترام بگذاریم. این شامل مدیریت نحوه نمایش محتوا در جستجو از طریق OAI-SearchBot در فایل robots.txt است. ما همچنان به بهبود نتایج جستجو ادامه خواهیم داد.”

بااین‌حال، این یافته‌ها به این معنا نیست که پلتفرم‌های هوش مصنوعی ذاتاً در خلاصه‌سازی ضعیف هستند. در پردازش اطلاعات کوتاه از منابع مختلف، عملکرد آن‌ها مطلوب است و ابزارهای هوش مصنوعی که ایمیل‌ها را خلاصه می‌کنند، نتایج دقیقی ارائه می‌دهند. اما به نظر می‌رسد که چالش اصلی زمانی رخ می‌دهد که این فناوری با محتوای طولانی و پیچیده سروکار دارد.