Компания Alibaba Group представила LOGOS (Language Of Generative Objects in Science) — первую универсальную генеративную модель, предназначенную для работы в области естественных наук. Используя единую «научную грамматику», модель способна кодировать различные типы данных, включая белки, молекулы, химические реакции и материалы, в единую последовательность токенов.

image
image
image

Что произошло

Alibaba Group выпустила семейство моделей LOGOS, состоящее из четырех версий: предобученных моделей с параметрами 1B, 3B и 8B, а также специализированной дообученной версии LOGOS-8B для решения прикладных задач. Обучение проводилось на масштабном корпусе, включающем 44 миллиарда токенов, объединяющих семь различных типов научных данных.

Контекст

Традиционно научные исследования в области биологии, химии и материаловедения опирались на узкоспециализированные модели, предназначенные для конкретных типов задач. LOGOS реализует переход к концепции foundation models в науке, создавая общий интерфейс для представления разнородных объектов через дискретное токенизированное пространство.

Почему это важно для индустрии

Для индустрии это означает переход от разрозненных специализированных инструментов к единым архитектурам, что позволяет достичь синергии между различными научными дисциплинами. Использование общих подходов LLM упрощает процесс обучения и открывает возможности для создания кросс-доменных AI-агентов, способных работать на стыке биохимии и материаловедения.

Почему это важно для пользователей

Исследователи и разработчики получают доступ к мощному open-source базису. Благодаря открытым весам на Hugging Face и коду на GitHub, команды могут немедленно приступить к экспериментам, проводить локальное развертывание и дообучение (fine-tuning) моделей под конкретные задачи, например, под создание определенных классов антител, не обучая систему с нуля.

Что пока неизвестно / ограничения

Существуют разные оценки готовности технологии к массовому внедрению: в то время как исследователи проявляют оптимизм, инженеры и архитекторы указывают на потенциальные сложности при интеграции подобных моделей в существующие production-среды и корпоративные стандарты.

Источники

Автор

Look at AI, редакция