Исследователи из Mass General Brigham разработали BRIDGE — мультиязычный бенчмарк для оценки возможностей LLM в реальной клинической практике. В отличие от стандартных медицинских экзаменов, где современные модели набирают до 92% баллов, тесты BRIDGE показывают, что их точность при работе с реальными медицинскими записями (EHR) падает до 44.8%.

Что произошло
Команда исследователей из Mass General Brigham провела масштабное тестирование 95 языковых моделей в 14 различных клинических специальностях с помощью нового инструмента BRIDGE. Исследование показало, что способность моделей обрабатывать неструктурированные клинические данные и нюансы живого общения с пациентами значительно ниже их академических показателей на стандартных тестах.
Контекст
Существующие медицинские бенчмарки в основном фокусируются на проверке академических знаний, имитируя формат медицинских экзаменов. Однако такая методология не учитывает специфику работы с реальными электронными медицинскими картами (EHR) и сложность неструктурированного медицинского текста, который является стандартом в повседневной практике.
Почему это важно для индустрии
Для индустрии это означает необходимость перехода от тестирования на учебных вопросах к проверке на сложных, реальных клинических данных. Выявление этого разрыва создает новые стандарты безопасности и открывает нишу для специализированных решений, ориентированных на высокую точность в работе с неструктурированной медицинской информацией.
Почему это важно для пользователей
Разработчикам и пользователям медицинских ИИ-систем следует проявлять осторожность: высокие баллы моделей в стандартных тестах не являются гарантией их надежности в реальных задачах диагностики или триажа. Текущие лидеры бенчмарков могут оказаться недостаточно эффективными при внедрении в реальную клиническую среду.
Что пока неизвестно / ограничения
В рамках исследования не выявлено различий в фундаментальном понимании проблемы среди представленных ролей, а дискуссии сосредоточены на различных аспектах последствий выявленного разрыва.
Источники
Автор
Look at AI, редакция
