Компания Baidu выпустила Unlimited-OCR — высокопроизводительную модель с 3 миллиардами параметров, которая реализует концепцию one-shot long-horizon parsing для эффективного анализа документов любой сложности.

image
image

Что произошло

Baidu представила модель Unlimited-OCR объемом 3B параметров, оптимизированную для работы с длинными контекстами. Модель поддерживает два режима работы: gundam, использующий кроппинг для обработки одиночных изображений, и base, предназначенный для анализа многостраничных PDF-файлов. Это позволяет проводить сегментацию и распознавание текста в рамках единого процесса.

Контекст

Традиционные системы OCR обычно полагаются на сложные многоэтапные пайплайны, включающие предварительную обработку, сегментацию страниц и последующее распознавание. Переход к архитектуре long-horizon parsing позволяет рассматривать многостраничные документы как единые контекстные окна, аналогично тому, как это делают современные LLM.

Почему это важно для индустрии

Внедрение Unlimited-OCR может радикально упростить архитектуру AI-агентов и систем обработки документов, заменяя разрозненные специализированные модели одной универсальной системой. Это снижает порог входа для создания интеллектуальных сервисов и потенциально уменьшает совокупную стоимость владения (TCO) для корпоративных решений за счет упрощения технологического стека.

Почему это важно для пользователей

Разработчики и исследователи получают мощный open-source инструмент для быстрой сборки прототипов систем парсинга. Модель позволяет автоматизировать извлечение данных из сложных PDF и сканов без необходимости ручной подготовки каждого листа или написания сложного кода для предобработки, что значительно ускоряет Time-to-Market новых продуктов.

Что пока неизвестно / ограничения

На данный момент отсутствуют данные о задержке (latency) и стоимости инференса, что является критически важным фактором при планировании внедрения модели в высоконагруженные production-решения.

Источники

Автор

Look at AI, редакция