Prompt caching: 10x cheaper LLM tokens, but how?

Prompt caching gör LLM-tokens 10 gånger billigare och minskar latensen avsevärt för långa prompter hos leverantörer som OpenAI och Anthropic. Artikeln förklarar att Prompt caching inte handlar om att spara och återanvända svar, utan om att cachelagra intern data som genereras under LLM:s bearbetning. Kärnan i LLM-arkitekturen innefattar tokenisering, inbäddningar (embeddings) och en "attention"-mekanism inom transformatorn, där caching sker. Tokenisering omvandlar text till numeriska "tokens", som sedan omvandlas till flerdimensionella "embeddings" för att representera semantisk likhet. Processen för LLM-inferens innebär att varje utdatatoken läggs till prompten för nästa iteration, vilket kräver att hela kontexten matas in upprepade gånger.