🧬 OpenAI представила бенчмарк GeneBench-Pro для биологических исследований

OpenAI разработала GeneBench-Pro — бенчмарк для оценки способности ИИ-агентов к научному рассуждению в биологии и генетике. Тест включает 129 задач в 10 областях, требующих от моделей не простого поиска фактов, а принятия сложных исследовательских решений: очистки данных, выбора статистических методов и корректировки плана при обнаружении артефактов. Лидером теста стала модель GPT-5.6 Sol.

🌍 GeneBench-Pro переводит оценку ИИ от простого выполнения инструкций к проверке «исследовательского вкуса» (research taste) — умения справляться с неопределенностью и ошибками в данных, что критически важно для автоматизации биомедицинских исследований.

👤 Это шаг к созданию автономных ИИ-лабораторий, способных экономить тысячи долларов и десятки часов работы экспертов, выполняя сложный анализ биологических данных с минимальным участием человека.

Источник 1: https://openai.com/index/introducing-genebench-pro/ Источник 2: https://cdn.openai.com/pdf/21938268-21af-442f-af93-3b2249afb241/genebench-pro.pdf