🚀 Представлен фреймворк SSV для эффективного инференса LLM
Разработчики представили SSV (Sparse Speculative Verification), решающий проблему структурного несоответствия между спекулятивным декодированием и динамическим разреженным вниманием (NSA) при работе с длинным контекстом. Благодаря группировке запросов и слиянию ядер (kernel fusion), технология показала прирост пропускной способности до 3.49x на NVIDIA H100.
🌍 Метод позволяет эффективно объединять ускорение за счет спекулятивного декодирования и экономию памяти через разреженное внимание.
👤 Это шаг к тому, чтобы длинные и сложные диалоги с ИИ работали быстрее и дешевле на современном железе.
Источник 1: https://arxiv.org/abs/2605.19893