🤖 Mistral AI представила OCR 4
Mistral AI выпустила OCR 4 — специализированную модель для интеллектуального распознавания документов. Она не просто извлекает текст, но и структурирует данные: определяет типы блоков (заголовки, таблицы, формулы), находит их координаты (bounding boxes) и выдает оценку уверенности (confidence score). Модель поддерживает 170 языков и показала результат 85.20 на бенчмарке OlmOCRBench.
🌍 Переход к пониманию структуры документа критически важен для создания качественных RAG-систем и агентных пайплайнов. Это позволяет автоматизировать обработку сложных документов (счета, отчеты, статьи) с минимальным участием человека.
👤 Вы можете использовать OCR 4 для построения надежных систем поиска по документам. Модель доступна через API ($4 за 1000 страниц) и может быть развернута self-hosted в одном контейнере для обеспечения приватности.
Источник 1: https://mistral.ai/news/ocr-4/
