BRIDGE: новый бенчмарк выявил критический разрыв между знаниями ИИ...

Исследователи из Mass General Brigham разработали BRIDGE — мультиязычный бенчмарк для оценки возможностей LLM в реальной клинической практике. В отличие от стандартных медицинских экзаменов, где современные модели набирают до 92% баллов, тесты BRIDGE показывают, что их точность при работе с реальными медицинскими записями (EHR) падает до 44.8%.

Что произошло

Команда исследователей из Mass General Brigham провела масштабное тестирование 95 языковых моделей в 14 различных клинических специальностях с помощью нового инструмента BRIDGE. Исследование показало, что способность моделей обрабатывать неструктурированные клинические данные и нюансы живого общения с пациентами значительно ниже их академических показателей на стандартных тестах.

Контекст

Существующие медицинские бенчмарки в основном фокусируются на проверке академических знаний, имитируя формат медицинских экзаменов. Однако такая методология не учитывает специфику работы с реальными электронными медицинскими картами (EHR) и сложность неструктурированного медицинского текста, который является стандартом в повседневной практике.

Почему это важно для индустрии

Для индустрии это означает необходимость перехода от тестирования на учебных вопросах к проверке на сложных, реальных клинических данных. Выявление этого разрыва создает новые стандарты безопасности и открывает нишу для специализированных решений, ориентированных на высокую точность в работе с неструктурированной медицинской информацией.

Почему это важно для пользователей

Разработчикам и пользователям медицинских ИИ-систем следует проявлять осторожность: высокие баллы моделей в стандартных тестах не являются гарантией их надежности в реальных задачах диагностики или триажа. Текущие лидеры бенчмарков могут оказаться недостаточно эффективными при внедрении в реальную клиническую среду.

Что пока неизвестно / ограничения

В рамках исследования не выявлено различий в фундаментальном понимании проблемы среди представленных ролей, а дискуссии сосредоточены на различных аспектах последствий выявленного разрыва.

Источники

Автор

Look at AI, редакция