Новое исследование, опубликованное в Nature Medicine, показало, что топовые универсальные большие языковые модели, такие как GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6, демонстрируют более высокие показатели медицинских знаний и клинического соответствия, чем узкоспециализированные инструменты вроде OpenEvidence и UpToDate Expert AI.

image
image

Что произошло

В ходе тестирования на медицинских бенчмарках Gemini 3.1 Pro продемонстрировала результат 97.4% в тесте MedQA, значительно опередив специализированную систему OpenEvidence, набравшую 89.6%. Лидерство универсальных моделей сохраняется и при обработке реальных клинических запросов (RCQ), что ставит под сомнение текущую эффективность узкоспециализированных RAG-систем в медицине.

Контекст

Долгое время считалось, что для достижения высокой точности в медицине необходимо использовать специализированные инструменты, основанные на архитектуре RAG (Retrieval-Augmented Generation) и узких медицинских базах данных. Однако результаты показывают, что масштаб обучения и общее качество весов универсальных моделей на текущем этапе дают больший прирост точности, чем использование специализированных подходов.

Почему это важно для индустрии

Для индустрии это означает необходимость пересмотра стратегий разработки медицинского ПО. Вместо создания моделей на базе узких датасетов фокус смещается на использование топовых универсальных API с качественным промпт-инжинирингом и методами управления выводами (output control). Это может привести к консолидации рынка вокруг гигантов вроде Google, OpenAI и Anthropic, а стартапам придется искать конкурентное преимущество не в 'знаниях', а в глубокой интеграции в клинические процессы или доступе к уникальным данным.

Почему это важно для пользователей

Обычным пользователям и врачам стоит с осторожностью относиться к приложениям, позиционирующим себя исключительно как «медицинский ИИ». В ряде случаев стандартный топовый чат-бот может оказаться более точным и понятным помощником при поиске медицинской информации, чем специализированные сервисы.

Что пока неизвестно / ограничения

Существуют разные взгляды на последствия: в то время как одни эксперты видят в этом угрозу текущим парадигмам разработки, другие рассматривают это как позитивный сигнал, снижающий порог входа для создания новых вертикальных решений (Vertical AI) через использование готовых API.

Источники

Автор

Look at AI, редакция