Компания Baidu выпустила Unlimited-OCR — высокопроизводительную модель с 3 миллиардами параметров, которая реализует концепцию one-shot long-horizon parsing для эффективного анализа документов любой сложности.

Что произошло
Baidu представила модель Unlimited-OCR объемом 3B параметров, оптимизированную для работы с длинными контекстами. Модель поддерживает два режима работы: gundam, использующий кроппинг для обработки одиночных изображений, и base, предназначенный для анализа многостраничных PDF-файлов. Это позволяет проводить сегментацию и распознавание текста в рамках единого процесса.
Контекст
Традиционные системы OCR обычно полагаются на сложные многоэтапные пайплайны, включающие предварительную обработку, сегментацию страниц и последующее распознавание. Переход к архитектуре long-horizon parsing позволяет рассматривать многостраничные документы как единые контекстные окна, аналогично тому, как это делают современные LLM.
Почему это важно для индустрии
Внедрение Unlimited-OCR может радикально упростить архитектуру AI-агентов и систем обработки документов, заменяя разрозненные специализированные модели одной универсальной системой. Это снижает порог входа для создания интеллектуальных сервисов и потенциально уменьшает совокупную стоимость владения (TCO) для корпоративных решений за счет упрощения технологического стека.
Почему это важно для пользователей
Разработчики и исследователи получают мощный open-source инструмент для быстрой сборки прототипов систем парсинга. Модель позволяет автоматизировать извлечение данных из сложных PDF и сканов без необходимости ручной подготовки каждого листа или написания сложного кода для предобработки, что значительно ускоряет Time-to-Market новых продуктов.
Что пока неизвестно / ограничения
На данный момент отсутствуют данные о задержке (latency) и стоимости инференса, что является критически важным фактором при планировании внедрения модели в высоконагруженные production-решения.
Источники
Автор
Look at AI, редакция
