Новый бенчмарк BRIDGE оценивает ИИ в реальной клинической практике

Исследователи из Mass General Brigham представили мультиязычный бенчмарк BRIDGE для проверки способностей LLM при работе с реальными медицинскими данными.

Автор Sergey KostenchukОпубликовано 2026-06-18Обновлено 2026-06-19

2026-06-18 Исследования HuggingFace

🩺 Новый бенчмарк BRIDGE оценивает ИИ в реальной клинической практике

Исследователи из Mass General Brigham разработали BRIDGE — мультиязычный бенчмарк для оценки LLM на основе реальных медицинских записей (EHR). В то время как стандартные экзамены показывают точность моделей до 92%, в тестах BRIDGE лучшие LLM набирают лишь 44.8%.

🌍 Это выявляет критический разрыв между академическими знаниями ИИ и его способностью понимать нюансы живого общения с пациентами, требуя перехода к тестированию на неструктурированных данных.

👤 Разработчикам и пользователям медицинского ИИ не стоит полагаться на высокие баллы в стандартных тестах — реальная эффективность в диагностике и триаже пока значительно ниже ожидаемой.

Источник 1: https://www.massgeneralbrigham.org/en/about/newsroom/press-releases/evaluating-ai-performance-for-everyday-patient-care Источник 2: https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard

Источники