D-Star

Artikeln behandlar problemet med "out-of-context chunks" i RAG-system, där enskilda textbitar saknar tillräckligt sammanhang, vilket leder till felaktig hämtning och hallucinationer från LLM:er. Två huvudsakliga lösningar föreslås: att lägga till kontextuella "chunk headers" och att dynamiskt skapa "segment" från kluster av relevanta textbitar. Kontextuella "chunk headers" innebär att man förser varje textbit med övergripande sammanhang, som dokumenttitel eller sektionsrubriker, för att förbättra hämtningsmodellernas precision. Metoden "chunks -> segments" bryter ner dokument i semantiskt sammanhängande sektioner och identifierar sedan kluster av relevanta textbitar för att ge LLM:er ett mer komplett och dynamiskt sammanhang. Dessa metoder, som illustreras med Nikes 2023 10-K-rapport, förbättrar inte bara kontexten utan gör också hämtningssystemet mer robust mot fel från rankningsmodeller, och finns implementerade i det öppenkällkodsbaserade systemet dsRAG.