Moonshot AI выпустила Kimi Code CLI: open-source терминальный агент с мультимодальными возможностями

Компания Moonshot AI представила Kimi Code CLI — мощный open-source инструмент для разработки через терминал. Основанный на мультимодальной модели Kimi K2.6 с архитектурой Mixture-of-Experts, агент способен не только редактировать код, но и анализировать видеоввод для эффективной отладки.

Что произошло

Moonshot AI выпустила Kimi Code CLI под лицензией MIT. Этот терминальный ИИ-агент базируется на модели Kimi K2.6 с количеством параметров около 1 трлн. Инструмент поддерживает чтение и редактирование кода, выполнение команд оболочки, а также мультимодальный ввод, включая текст, изображения, видео и PDF. Для интеграции с современными инструментами разработки CLI поддерживает протоколы Model Context Protocol (MCP) и Agent Client Protocol (ACP), что позволяет подключать внешние инструменты и интегрироваться с IDE, такими как Zed и JetBrains.

Контекст

В отличие от традиционных инструментов автодополнения, Kimi Code CLI использует архитектуру Mixture-of-Experts (MoE) для обеспечения высокой плотности знаний. Система построена на поддержке субагентов (кодер, исследователь, планировщик) и включает хуки жизненного цикла для автоматизации аудита принимаемых решений. Использование открытых протоколов MCP и ACP нацелено на стандартизацию взаимодействия между автономными агентами и средами разработки.

Почему это важно для индустрии

Появление сильного open-source игрока в сегменте терминальных агентов усиливает конкуренцию с проприетарными решениями, такими как Claude Code. Это стимулирует принятие индустриальных стандартов (MCP/ACP) и снижает порог входа для создания специализированных кастомных агентов, превращая CLI из простого интерфейса в полноценную платформу для автоматизации инженерных задач.

Почему это важно для пользователей

Разработчики получают бесплатную и высокопроизводительную альтернативу платным решениям. Ключевым преимуществом является мультимодальность: теперь можно «показать» агенту запись экрана с багом, используя видео как прямой контекст для генерации исправлений. Инструмент легко расширяется через пользовательские навыки и субагентов, позволяя выстраивать гибкие рабочие процессы непосредственно в терминале.

Что пока неизвестно / ограничения

На данный момент остаются открытыми вопросы относительно задержек (latency) при работе с тяжелыми мультимодальными данными, стоимости инференса модели такого масштаба и обеспечения безопасности данных при захвате экрана.

Источники

Автор

Look at AI, редакция