Использование искусственного интеллекта (ИИ), особенно больших языковых моделей вроде ChatGPT, набирает обороты. Вместе с тем остается важный вопрос: насколько можно полагаться на них в понимании сложной медицинской информации? Не навредят ли советы «доктора с искусственным интеллектом»? Ответ на эти вопросы дает новое исследование, проведенное в Израиле и опубликованное в научном журнале Computers In Biology and Medicine.
Исследование проводилось учеными университета имени Бен-Гуриона в Негеве. Оно проверяло возможность моделей ИИ давать точные ответы на медицинские вопросы. Проверялась способность ChatGPT и его аналогов правильно понимать язык медицины. Результаты удивили ученых.Сейчас медицинский чатбот отвечает на вопросы пациентов, предсказывая развитие болезней, создает сводные данные о больном и готовит вопросы и ответы для студентов-медиков. Но поскольку модели ИИ в области медицины стали распространенными, возникают вопросы критической важности: может ли ИИ разбираться в тонких различиях между близкими по смыслу медицинскими терминами? Особенно если речь идет о медицинских кодах, которые необходимо точно понимать на высоком уровне. Для проверки ученые сравнили разные моделей ИИ, в том числе те, что специализируются в области медицины.
Для сравнения была создана целевая система оценки - MedConceptsQA, содержащая 800.000 вопросов и ответов трех степеней сложности, относящихся к применяемым во всем мире медицинским понятиям. Была поставлена задача выяснить, как модели ИИ интерпретируют эти понятия и различают их. Понятия относились к сфере диагностики, лечебных процедур и медикаментов. При помощи разработанного алгоритма были автоматически созданы вопросы с переменным уровнем сложности, для ответа требовалось выбрать правильный медицинский код. Если простые вопросы требовали наличия базовых знаний, то для ответа на сложные нужно было глубокое понимание и умение находить даже небольшие различия между схожими медицинскими понятиями. Вопросы средней сложности требовали более высокого уровня базовых знаний.
Исследование показало, что большинство моделей ИИ дает плохие результаты, основанные на случайных догадках. Это относилось и к моделям ИИ, разработанным специально для использования в медицине и содержавшим большие объемы медицинской информации. А вот ChatGPT4 показал лучшие результаты, его точность была в среднем равна 60%, но и это далеко от удовлетворительного уровня.
К удивлению ученых, модели не медицинского, а общего назначения, такие как ChatGPT4 и Llama3-70B, выдавали лучшие результаты. Отсюда можно сделать вывод: модели ИИ, занятые расшифровкой словесных текстов, эффективны в классификации информации, но когда речь идет о жизненно важной клинической информации, необходимо глубокое понимание сути медицинских кодов и их различий. Это понимание имеет критическое значение в ранней диагностике и в спасении жизни.
Исследование позволило оценить способность чатботов к интерпретации медицинских кодов и различению медицинских терминов. Доказано, что большинство медицинских моделей ИИ выдает ответы, соответствующие случайному угадыванию человеком, зато ChatGPT3.5, ChatGPT4 и Llama3-70B превосходят их, хотя их кодировка не имеет отношения к медицине.
Клинические данные в большинстве своем включают стандартные медицинские коды и тексты на естественном языке. Израильское исследование подчеркивает необходимость более обширного клинического языка для понимания медицинской информации и осторожность, необходимую при их широком использовании. Результаты этого исследования имеют практическое значение для современного медицинского мира. Удивительные результаты исследования поднимают серьезные вопросы, которые волнуют многих ученых: следует ли использовать медицинские модели ИИ для составления прогнозов, требующих клинического понимания медицинских кодов.
vesty.co.il