Представлен Bifrost — высокопроизводительный AI-шлюз, обеспечивающий унифицированный доступ к более чем 23 провайдерам, включая OpenAI, Anthropic и Google Vertex, через единый OpenAI-совместимый API.

image

Что произошло

Разработчик представил Bifrost, который заявляет о производительности в 50 раз выше, чем у LiteLLM. При нагрузке 5000 RPS задержка составляет всего 11–59 мкс на запрос. Система поддерживает адаптивную балансировку нагрузки, семантическое кэширование, механизмы автоматического переключения (failover) и протокол Model Context Protocol (MCP).

Контекст

В современных AI-приложениях разработчики сталкиваются с проблемой фрагментации API и высоких задержек при необходимости масштабирования и использования множества различных LLM-провайдеров одновременно.

Почему это важно для индустрии

Bifrost предлагает решение проблемы фрагментации API и высокой задержки в enterprise-средах, упрощая внедрение функций отказоустойчивости и управления бюджетами. Это может ускорить переход от прототипов к промышленной эксплуатации AI-функций и стандартизировать использование MCP через специализированные шлюзы.

Почему это важно для пользователей

Разработчики получают единый интерфейс для работы с десятками различных моделей, что позволяет мгновенно внедрять механизмы failover и существенно снижать накладные расходы (overhead) при построении мультимодельных архитектур и real-time приложений.

Что пока неизвестно / ограничения

Заявленные показатели производительности требуют верификации, так как в проекте отсутствует детальная открытая методология тестирования, включая условия по оборудованию, сетевым задержкам и размеру полезной нагрузки.

Источники

Автор

Look at AI, редакция