💻 Проблема P3 в компиляторах ML для LLM

Исследование в The Journal of Supercomputing выявило фундаментальный конфликт между производительностью (Performance), продуктивностью (Productivity) и переносимостью (Portability) при инференсе LLM на GPU NVIDIA.

🌍 Работа подчеркивает необходимость новых подходов к оптимизации, способных преодолеть барьер между гибкостью PyTorch и эффективностью специализированных AOT-компиляторов в задачах с динамическими графами.

👤 При выборе инструментов для деплоя: для максимальной скорости генерации в продакшене используйте TensorRT-LLM. Для прототипирования удобнее torch.compile, но он может не дать ускорения на сложных моделях из-за разрывов графа.

Источник 1: https://link.springer.com/article/10.1007/s11227-026-08559-6