💻 pdf-struct-chunker: умное разбиение PDF на Rust
Выпущен инструмент на Rust для семантического разбиения PDF без использования LLM. Библиотека анализирует макет (шрифты, координаты), сохраняя структуру разделов для качественного RAG.
🌍 Повышает точность RAG-систем за счет передачи целостных фрагментов с метаданными. Высокая скорость и низкое потребление памяти благодаря Rust.
👤 Помогает избежать «галлюцинаций» ИИ, возникающих из-за потери контекста при стандартном разбиении текста.
Источник 1: https://github.com/matthiasnordwig/pdf-struct-chunker
