🤖 Видео доклада о бенчмарке SWE-rebench
Опубликовано выступление Ибрагима Бадертдинова (Nebius) на конференции AI Engineer Europe. Доклад посвящен SWE-rebench — динамическому бенчмарку, который оценивает AI-агентов на реальных задачах GitHub, обновляя их ежемесячно для предотвращения утечки данных. В текущем рейтинге лидируют gpt-5.5 и Junie, а Cursor демонстрирует лучшую экономическую эффективность ($0.23 за задачу).
🌍 Динамические бенчмарки с временным разделением становятся критически важными для объективной оценки агентских систем, так как статические наборы данных быстро контаминируются.
👤 SWE-rebench показывает способность моделей действовать в реальной среде, помогая отличить настоящих AI-кодеров от моделей, которые просто 'помнят' решения.
Источник 1: https://youtu.be/wcUJWP6WpGM Источник 2: https://swe-rebench.com/
