Разработчик представил инновационное решение для запуска языковых моделей архитектуры Llama на сверхбюджетных микроконтроллерах ESP32-S3. Благодаря методу разделения слоев модели между двумя контроллерами, удалось обойти аппаратные ограничения по объему памяти.

image

Что произошло

Реализована система распределенного инференса, использующая UART-интерфейс со скоростью 460800 бод для передачи данных между двумя платами. Решение поддерживает модели размером 15M и 42M параметров, применяя INT4 квантование и технологию memory-mapped flash. На одной плате достигнута скорость генерации около 1.4 токена в секунду.

Контекст

Традиционно для запуска современных LLM требуются мощные графические процессоры или специализированные чипы с большим объемом оперативной памяти. Микроконтроллеры класса ESP32-S3 крайне ограничены в ресурсах, что делает стандартный запуск нейросетей невозможным без архитектурных хитростей вроде распределения вычислений между несколькими устройствами.

Почему это важно для индустрии

Проект демонстрирует потенциал распределенного инференса на крайне ограниченном Edge-оборудовании. Это открывает путь к созданию локальных, автономных и приватных AI-агентов в рамках дешевых IoT-экосистем, снижая зависимость индустрии от облачных вычислений и дорогостоящего железа.

Почему это важно для пользователей

Для энтузиастов и разработчиков это практический пример того, как с помощью простых компонентов стоимостью в несколько долларов и умного распределения ресурсов можно запустить полноценную языковую модель. Это значительно снижает порог входа для прототипирования интеллектуальных устройств.

Что пока неизвестно / ограничения

На текущем этапе решение является исследовательским прототипом (PoC). Оно характеризуется крайне низкой скоростью генерации и малым размером моделей, что ограничивает его применение в полноценных production-средах без дальнейшей оптимизации.

Источники

Автор

Look at AI, редакция