🤖 Бенчмарк малых LLM на NVIDIA Jetson Orin Nano Super
Исследование показало, что режим питания 25W является оптимальным для llama.cpp, обеспечивая на 35–47% большую пропускную способность по сравнению с 15W. Модель SmolLM2-135M достигла 165.2 tok/s.
🌍 Результаты подчеркивают важность оптимизации CUDA-ядер под новые архитектуры, так как неоптимизированные бэкенды вроде Ollama могут быть в 4 раза медленнее llama.cpp. Это критично для edge-устройств.
👤 При запуске локальных нейросетей на компактном железе NVIDIA режим 25W на llama.cpp даст лучший баланс скорости и энергоэффективности.
Источник 1: https://www.smolhub.com/posts/jetson-nano-super-benchmark-non-reasoning/
