🤖 Метод TMax для обучения ИИ работе в терминале

Представлен открытый рецепт обучения агентских моделей работе в терминале с помощью Reinforcement Learning (RL). Исследователи создали базу из 15 000 сложных задач (TMAX-15K) для обучения модели с 9 млрд параметров, которая показала 27% в бенчмарке TerminalBench-2.0.

🌍 Метод смещает фокус с масштабного pre-training на целевое освоение навыков (reasoning, tool-use) через RL. Это упрощает создание эффективных малых моделей (SLM) для узких агентских задач.

👤 Это доказывает, что развитие ИИ может быть управляемым: качество «рецептов» обучения и специфических сценариев важнее простого наращивания весов.

Источник 1: https://arxiv.org/abs/2606.23321 Источник 2: https://www.youtube.com/watch?v=I9F_VFfLTmM