🌟 Топовые LLM плохо предсказывают будущие научные открытия

Исследователи из Оксфорда, Стэнфорда и Sakana AI представили бенчмарк CUSP. Тест показал, что даже топовые модели вроде GPT-5.4 и Claude Sonnet 4.5 успешно распознают технические пути, но не способны предсказать факт реализации открытия или точные сроки.

🌍 Исследование выявляет разрыв между накоплением знаний и способностью к прогнозированию, ставя под вопрос роль ИИ как «автономного ученого».

👤 Современные LLM — отличные энциклопедии, но плохие оракулы. Они могут объяснить теорию, но не предскажут следующий прорыв в науке.

Источник 1: https://arxiv.org/pdf/2605.22681 Источник 2: https://seanwu25.github.io/CUSP-Science/

Sources