DocLang: новый ИИ-нативный формат документов от LF AI & Data Foundation

Рабочая группа под эгидой LF AI & Data Foundation (Linux Foundation) представила DocLang — специализированный формат документов, оптимизированный для эффективного потребления языковыми моделями (LLM).

Что произошло

Разработан формат DocLang, использующий оптимизированный XML-словарь для прямого сопоставления элементов документа с токенами LLM в соотношении 1-к-1. Это позволяет снизить расход входных токенов примерно на 37% и ускорить обработку документов на 35%, сохраняя при этом высокую точность структуры и таблиц.

Контекст

Традиционные методы обработки документов, такие как парсинг PDF или HTML, часто приводят к потере семантики и структурной целостности (иерархии и таблиц). Переход к ИИ-нативным форматам призван заменить процесс «грязного» парсинга на нативное потребление структурированных данных.

Почему это важно для индустрии

Внедрение стандарта стимулирует переход от классического парсинга к оптимизированным RAG-пайплайнам. По оценкам ABBYY, использование таких форматов может обеспечить экономию затрат на обработку данных от 4x до 30x, значительно снижая операционные расходы на инференс LLM при работе с большими массивами документации.

Почему это важно для пользователей

Для конечных пользователей это означает повышение надежности ответов ИИ-ассистентов при работе с корпоративными отчетами, инструкциями и сложной документацией, так как нейросети перестанут воспринимать такие файлы как «черные ящики» с непредсказуемой структурой.

Что пока неизвестно / ограничения

На текущий момент наблюдается высокая однородность экспертных мнений в сторону позитивных прогнозов, что может скрывать потенциальные операционные риски при масштабном внедрении нового стандарта.

Источники

The Register

Автор

Look at AI, редакция