混合方案:PyMuPDF 文字提取 + RapidOCR 截圖頁辨識 + Docling 表格增強。 適用於文字型 PDF(K&S 等英文手冊)和截圖型 PDF(Szhech 等中文手冊)。 python pdf_to_markdown.py convert input.pdf -o output.md --ocr-dpi 200 ...
Tu es un expert en extraction documentaire pour des systèmes RAG (Retrieval-Augmented Generation). Ton rôle est de TRANSCRIRE fidèlement le contenu d'un document PDF en Markdown structuré. RÈGLES ...