🩺 Новый бенчмарк BRIDGE оценивает ИИ в реальной клинической практике
Исследователи из Mass General Brigham разработали BRIDGE — мультиязычный бенчмарк для оценки LLM на основе реальных медицинских записей (EHR). В то время как стандартные экзамены показывают точность моделей до 92%, в тестах BRIDGE лучшие LLM набирают лишь 44.8%.
🌍 Это выявляет критический разрыв между академическими знаниями ИИ и его способностью понимать нюансы живого общения с пациентами, требуя перехода к тестированию на неструктурированных данных.
👤 Разработчикам и пользователям медицинского ИИ не стоит полагаться на высокие баллы в стандартных тестах — реальная эффективность в диагностике и триаже пока значительно ниже ожидаемой.
Источник 1: https://www.massgeneralbrigham.org/en/about/newsroom/press-releases/evaluating-ai-performance-for-everyday-patient-care Источник 2: https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard
