Бенчмарк малых LLM на NVIDIA Jetson Orin Nano Super

Исследование показало, что режим питания 25W на NVIDIA Jetson Orin Nano Super 8GB обеспечивает оптимальную производительность для малых LLM при использовании llama.cpp.

Автор Sergey KostenchukОпубликовано 2026-06-28Обновлено 2026-06-28

2026-06-28 Исследования Meta

🤖 Бенчмарк малых LLM на NVIDIA Jetson Orin Nano Super

Исследование показало, что режим питания 25W является оптимальным для llama.cpp, обеспечивая на 35–47% большую пропускную способность по сравнению с 15W. Модель SmolLM2-135M достигла 165.2 tok/s.

🌍 Результаты подчеркивают важность оптимизации CUDA-ядер под новые архитектуры, так как неоптимизированные бэкенды вроде Ollama могут быть в 4 раза медленнее llama.cpp. Это критично для edge-устройств.

👤 При запуске локальных нейросетей на компактном железе NVIDIA режим 25W на llama.cpp даст лучший баланс скорости и энергоэффективности.

Источник 1: https://www.smolhub.com/posts/jetson-nano-super-benchmark-non-reasoning/

Источники