GitHub - ray-project/llm-numbers: Numbers every LLM developer should know

Artikeln presenterar viktiga nyckeltal och kostnadsförhållanden för LLM-utvecklare, inspirerade av Jeff Deans "numbers every engineer should know", för att underlätta snabba beräkningar och optimering. Kostnadsoptimering kan uppnås genom att be LLM:er vara koncisa (sparar 40-90%), välja GPT-3.5 Turbo över GPT-4 för många uppgifter (cirka 50 gånger billigare), och använda vektorlagring för informationsuppslag (cirka 5 gånger billigare än LLM-generering). Självhostade inbäddningar är betydligt billigare (cirka 10 gånger) än OpenAI:s, och medan finjusterade modeller är dyrare att serva på OpenAI (cirka 6 gånger), är kostnaden densamma vid egen hosting av bas- och finjusterade modeller. Träning av stora LLM:er från grunden är extremt dyrt (cirka 1 miljon dollar för en 13B-parametermodell), medan finjustering är försumbar i kostnad jämfört med att träna från grunden. GPU-minne är avgörande för LLM-inferens, där en modell typiskt kräver dubbelt så mycket minne som antalet parametrar, och batchning av förfrågningar kan förbättra genomströmningen avsevärt (>10x).