Компания Mistral AI выпустила OCR 4 — специализированную модель, которая переводит обработку документов с уровня простого извлечения текста на уровень глубокого структурного понимания данных.

Что произошло
Mistral AI представила OCR 4, способную не только извлекать текст, но и определять типы блоков, таких как заголовки, таблицы и формулы. Модель находит координаты объектов (bounding boxes) и предоставляет оценку уверенности (confidence score) для каждого слова. OCR 4 поддерживает 170 языков и показала результат 85.20 на бенчмарке OlmOCRBench, подтвердив эффективность в слепом тестировании на более чем 600 документах.
Контекст
Традиционные методы OCR часто ограничиваются получением «сырого» текстового слоя, что затрудняет автоматизированную обработку сложных форматов. Переход к структурному распознаванию является необходимым этапом для развития систем, работающих с неструктурированными данными, такими как счета, научные статьи и корпоративные отчеты.
Почему это важно для индустрии
Для индустрии ИИ это критический шаг в создании качественных RAG-систем и автономных агентных пайплайнов. Глубокое понимание структуры документа позволяет минимизировать ошибки при парсинге сложных элементов (таблиц и формул) и упрощает процесс подготовки данных для мультимодальных моделей, превращая структурирование данных из сложной задачи в доступную API-функцию.
Почему это важно для пользователей
Пользователи могут использовать OCR 4 для построения надежных систем поиска по документам или автоматизации работы с формами. Решение доступно через API по цене $4 за 1000 страниц, а также может быть развернуто self-hosted в одном контейнере, что обеспечивает необходимый уровень приватности данных для enterprise-сегмента.
Что пока неизвестно / ограничения
Заявленный результат слепого тестирования на 600+ документах на данный момент является скорее маркетинговым показателем, так как не раскрыты состав используемого датасета и конкретные критерии оценки сложности документов.
Источники
Автор
Look at AI, редакция
