From PDF to Markdown with Local LLMs — Fast, Private, and Free

Artikeln beskriver en metod för att konvertera PDF-filer, inklusive skannade dokument, till ren och strukturerad Markdown. Lösningen använder lokala stora språkmodeller (LLMs), specifikt Gemma 3 via Ollama, för att säkerställa snabbhet, integritet och kostnadsfrihet utan molnbaserade API:er. Processen innebär att varje PDF-sida först omvandlas till en bild som sedan skickas till den lokala LLM:en för att extrahera innehållet i Markdown-format. Metoden fungerar som en integrerad lösning för OCR, layoutdetektering och formatering, även för skannade PDF:er. De huvudsakliga verktygen som används inkluderar pymuPDF, Pillow och Ollama för att hantera bildkonvertering och interaktion med den lokala språkmodellen.