Ускорение инференса LLM с помощью SSV

🚀 Представлен фреймворк SSV для эффективного инференса LLM

Разработчики представили SSV (Sparse Speculative Verification), решающий проблему структурного несоответствия между спекулятивным декодированием и динамическим разреженным вниманием (NSA) при работе с длинным контекстом. Благодаря группировке запросов и слиянию ядер (kernel fusion), технология показала прирост пропускной способности до 3.49x на NVIDIA H100.

🌍 Метод позволяет эффективно объединять ускорение за счет спекулятивного декодирования и экономию памяти через разреженное внимание.

👤 Это шаг к тому, чтобы длинные и сложные диалоги с ИИ работали быстрее и дешевле на современном железе.

Источник 1: https://arxiv.org/abs/2605.19893

Sources