Tessera 1B: обучение языковой модели с нуля всего за 315 долларов

Исследовательская группа AIIT-THRESHOLD представила Tessera 1B — языковую модель объемом около 1 миллиарда параметров, обученную с нуля. Проект демонстрирует возможность создания качественной базовой модели с крайне низким бюджетом, затратив всего 315 долларов на вычислительные ресурсы.

Что произошло

Модель Tessera 1B была обучена на кастомной архитектуре ProtoGPT (decoder-only transformer) в течение 146 часов на одной видеокарте NVIDIA H100 (80GB). Обучение проводилось на корпусе из 24.5 млрд токенов, состоящем из тщательно отобранных веб-страниц, книг и академических текстов, при этом не использовались синтетические диалоги. Разработчики открыли доступ к весам и данным модели.

Контекст

В отличие от многих современных подходов, полагающихся на огромные массивы синтетического контента, данный проект делает ставку на качество данных (data curation). Использование архитектуры ProtoGPT и фокусировка на очищенных корпусах позволяет достигать эффективности при значительно меньших затратах на обучение.

Почему это важно для индустрии

Проект подтверждает жизнеспособность пайплайна low-cost/high-quality для создания малых языковых моделей (SLM). Это доказывает, что качественные base models можно создавать с экстремально низким CAPEX, что снижает порог входа для независимых исследователей и стимулирует развитие специализированных вертикальных ИИ-решений.

Почему это важно для пользователей

Для энтузиастов и разработчиков это пример того, как создавать серьезные AI-инструменты с минимальным бюджетом. Хотя Tessera 1B не является готовым чат-ботом, она служит отличным фундаментом для создания узкоспециализированных ИИ-помощников под конкретные задачи через последующий fine-tuning.

Источники

AIIT-Threshold/Tessera-1B · Hugging Face

Автор

Look at AI, редакция