Видео доклада о бенчмарке SWE-rebench

Опубликовано видео выступления Ибрагима Бадертдинова (Nebius) о динамическом бенчмарке SWE-rebench для оценки AI-агентов.

Автор Sergey KostenchukОпубликовано 2026-06-17Обновлено 2026-06-17

2026-06-17 Исследования Cursor

🤖 Видео доклада о бенчмарке SWE-rebench

Опубликовано выступление Ибрагима Бадертдинова (Nebius) на конференции AI Engineer Europe. Доклад посвящен SWE-rebench — динамическому бенчмарку, который оценивает AI-агентов на реальных задачах GitHub, обновляя их ежемесячно для предотвращения утечки данных. В текущем рейтинге лидируют gpt-5.5 и Junie, а Cursor демонстрирует лучшую экономическую эффективность ($0.23 за задачу).

🌍 Динамические бенчмарки с временным разделением становятся критически важными для объективной оценки агентских систем, так как статические наборы данных быстро контаминируются.

👤 SWE-rebench показывает способность моделей действовать в реальной среде, помогая отличить настоящих AI-кодеров от моделей, которые просто 'помнят' решения.

Источник 1: https://youtu.be/wcUJWP6WpGM Источник 2: https://swe-rebench.com/

Источники