Учёные оценили, как ИИ справляется с вопросами женского здоровья

Учёные выяснили, что языковые модели нередко ошибаются в оценке срочности симптомов женского здоровья.
Автор: Алексей Новиков , Редактор Фото: Generated by DALL·E
В мире

Искусственный интеллект всё чаще используют как источник быстрой справочной информации о здоровье. Пользователи задают чатботам вопросы о симптомах, лекарствах и необходимости срочного обращения к врачу. Однако исследования показывают, что в вопросах женского здоровья такие ответы могут быть неточными и не всегда позволяют распознать опасные состояния, пишет портал «boda».

Одним из примеров стала работа, опубликованная на платформе arXiv под названием A Women’s Health Benchmark for Large Language Models. В рамках исследования был создан специальный набор тестовых вопросов для оценки того, как крупные языковые модели отвечают на запросы, связанные с женским здоровьем. В тестировании участвовали 13 моделей от разных разработчиков, включая OpenAI, Google, Anthropic, Mistral AI и xAI.

Всего моделям предложили 345 медицинских запросов, охватывающих пять направлений, в том числе неотложную медицину, гинекологию и неврологию. Вопросы подготовили 17 специалистов в области женского здоровья, фармацевты и клиницисты из США и стран Европы. Целью бенчмарка стала проверка не только общей корректности ответов, но и способности моделей давать рекомендации в ситуациях с повышенным риском.

Особое внимание исследователи уделили триажу — оценке срочности медицинской помощи. При неправильной интерпретации симптомов модель может рекомендовать подождать, хотя в реальности требуется немедленное обращение к врачу. Возможна и обратная ситуация, когда состояние описывается как критическое без достаточных оснований, что приводит к лишнему стрессу.

Дополнительно отмечается, что ИИ-системы могут занижать серьёзность симптомов у женщин и представителей этнических меньшинств. Качество ответа также зависит от формулировки запроса: неуверенный или неточный язык иногда меняет оценку риска, несмотря на одинаковый клинический смысл.

Ограничения медицинских чатботов обсуждаются и в научных изданиях. В Nature Medicine указывают на риск уверенных, но ошибочных рекомендаций, а The Lancet подчёркивает необходимость контроля и стандартов безопасности при использовании языковых моделей в медицине. Исследователи сходятся во мнении, что ИИ может быть полезен для справочной информации, но не должен заменять профессиональную медицинскую помощь.