💻 YieldOS-Lite: симулятор управления ресурсами при инференсе LLM

Представлен YieldOS-Lite — симулятор для управления ресурсами при инференсе гетерогенных LLM-нагрузок. Проект фокусируется на «управлении плоскостью управления» (control-plane governance), чтобы улучшить показатели полезной нагрузки (goodput) в условиях разнородного трафика.

🌍 Позволяет исследовать стратегии управления ресурсами (например, распределение между prefill и decode) до их внедрения в реальные движки вроде vLLM или TensorRT-LLM, что критично для оптимизации сложных enterprise-нагрузок.

👤 Полезно для инженеров, работающих с инфраструктурой LLM, так как проект предлагает инструменты для тестирования того, как разные политики планирования влияют на задержки (latency) и пропускную способность при смешанном трафике (RAG, код, чаты).

Источник 1: https://github.com/nikitph/yieldos