Let’s build an app for evaluating LLMs

lumigator är en självhostad, öppen källkodsapplikation i Python för att utvärdera stora språkmodeller (LLM) med hjälp av offline-mätvärden, med initialt fokus på sammanfattning. Applikationen bygger på FastAPI, inkluderar ett användargränssnitt och en SDK, och hanterar jobbtillstånd med SQLite samt data med S3-kompatibel lagring, med stöd för GPU-accelererade distributioner via Docker-compose eller Helm charts. Utvecklingen av lumigator följer etablerade bästa praxis inom maskininlärning, inspirerad av erfarenheter från Mozilla AI och tidigare projekt som lm-buddy. lumigator fokuserar primärt på offline-utvärdering mot akademiska riktmärken, med målet att hjälpa användare att identifiera lämpliga LLM:er för sina produkter. Den stöder integration med olika LLM-gränssnitt, inklusive modeller från PyTorch/Hugging Face, GGUF-optimerade modeller (t.ex. via llama.cpp) och API-slutpunkter som OpenAI:s.