🛠 PageToMD: конвертация веб-страниц в чистый Markdown
Выпущен PageToMD — CLI-инструмент на Python для преобразования веб-страниц в чистый Markdown, оптимизированный для AI-агентов и RAG-систем. Он поддерживает как быстрые HTTP-запросы через httpx, так и рендеринг сложных SPA-страниц с помощью Playwright.
🌍 Специализированные инструменты для data ingestion упрощают создание качественных RAG-систем, минимизируя шум (рекламу, навигацию) и обеспечивая структурированный контекст для LLM.
👤 Вы можете использовать этот инструмент для быстрого создания локальной базы знаний из документации или статей в формате, который лучше всего понимается нейросетями.
Источник 1: https://github.com/gs202/PageToMD
