🚀 Sphere-AI-Lab представила Orbit для эффективного RL-обучения LLM

Новый фреймворк Orbit позволяет проводить RL-посттренинг моделей триллионного масштаба всего на одном узле (например, 8×B200). Технология использует заморозку базовой модели в низком разрешении (INT4/FP4/FP8) и обучение компактных адаптеров BF16 (OFT или LoRA).

🌍 Orbit радикально снижает требования к ресурсам для RL-этапа frontier-моделей, устраняя необходимость в сложной многоузловой оркестрации.

👤 Высококачественное обучение сверхкрупных моделей теперь доступно на уровне одного мощного сервера, что упрощает исследования в области RL.

Источник 1: https://github.com/Sphere-AI-Lab/orbit Источник 2: https://spherelab.ai/orbit/