Introduktionen av Gemini 1.5 med dess 1 miljon token kontextfönster har väckt debatt om dess inverkan på Retrieval-Augmented Generation (RAG). Artikeln argumenterar att Gemini 1.5 är en positiv utveckling för RAG, då den framhäver RAG:s förmåga att optimera kostnad, noggrannhet och latens, vilket Gemini 1.5 ensamt inte kan uppnå. Googles egen tekniska rapport visar att Gemini 1.5 har begränsningar i noggrannhet (cirka 60% recall i "needle in a haystack"-tester) och att kostnad samt latens är praktiska hinder för storskaliga företagssystem som enbart förlitar sig på stora kontextfönster. RAG är avgörande för att minska irrelevant information, förbättra modellens noggrannhet och möjliggöra felsökning, vilket gör det till en varaktig och nödvändig mekanism för att bygga robusta och kontrollerbara AI-applikationer i företagsklass. Även i en framtid med mer tillförlitliga stora kontextfönster kommer RAG att vara relevant för att optimera systemen för lägre kostnader och latens, genom att minimera mängden information som skickas till modellen.