🤖 Метод TMax для обучения ИИ работе в терминале
Представлен открытый рецепт обучения агентских моделей работе в терминале с помощью Reinforcement Learning (RL). Исследователи создали базу из 15 000 сложных задач (TMAX-15K) для обучения модели с 9 млрд параметров, которая показала 27% в бенчмарке TerminalBench-2.0.
🌍 Метод смещает фокус с масштабного pre-training на целевое освоение навыков (reasoning, tool-use) через RL. Это упрощает создание эффективных малых моделей (SLM) для узких агентских задач.
👤 Это доказывает, что развитие ИИ может быть управляемым: качество «рецептов» обучения и специфических сценариев важнее простого наращивания весов.
Источник 1: https://arxiv.org/abs/2606.23321 Источник 2: https://www.youtube.com/watch?v=I9F_VFfLTmM
![The Data Recipe for Teaching AI New Skills [video]](/assets/tg-news-media/9a/9a662201826149d59610cf0e4421a0f8239fc51722f6b737880d99eb2cb7c203.jpg)