Стартап NeuralWatt внедряет революционную модель тарификации инференса больших языковых моделей (LLM), основанную на фактическом потреблении электроэнергии (кВт⋅ч), а не на количестве сгенерированных токенов. Такой подход позволяет радикально снизить операционные расходы, особенно при использовании эффективных open-weights моделей.

image
image

Что произошло

NeuralWatt предложил перейти от традиционной оплаты за токены к модели, привязанной к энергопотреблению. Согласно данным пользователей, использование этой модели для моделей семейства Qwen и Kimi позволило снизить затраты в среднем на 82.9%. В отдельных случаях, например для модели qwen3.6-35b-fast, экономия достигала 95.2%.

Контекст

Традиционная модель оплаты за токены не всегда учитывает реальную вычислительную нагрузку и эффективность инфраструктуры провайдера. Переход к энергетической тарификации делает стоимость напрямую зависимой от эффективности кэширования и оптимизации использования GPU/NPU, что создает стимулы для развития более совершенных методов хостинга.

Почему это важно для индустрии

Для индустрии это означает потенциальное изменение экономики облачного инференса. Появление энергетической модели оплаты стимулирует провайдеров инвестировать в энергоэффективность и 'зеленый' AI-хостинг. Это может привести к росту конкуренции и дестабилизации стандартных цен на токены за счет появления новых игроков, ориентированных на минимизацию кВт⋅ч на запрос.

Почему это важно для пользователей

Разработчики и компании с высокой нагрузкой на LLM могут существенно сократить свои OPEX, особенно при работе с открытыми моделями (Open Weights). Переход на энергетическую модель обеспечивает более предсказуемую стоимость при интенсивных и повторяющихся запросах, где эффективность кэширования играет решающую роль.

Что пока неизвестно / ограничения

Технические специалисты и архитекторы выражают умеренный скепсис, указывая на необходимость верификации точности измерений энергопотребления и потенциальные сложности при интеграции такой модели в существующие рабочие процессы.

Источники

Автор

Look at AI, редакция