A History of Large Language Models

Artikeln utforskar historien bakom stora språkmodeller (LLMs), med utgångspunkt i författarens strävan att förstå uppmärksamhetsmekanismen och Transformer-arkitekturen. Den beskriver utvecklingen inom naturlig språkbehandling (NLP) från regelbaserade system till statistiska metoder, och utmaningen med datagleshet (curse of dimensionality). Tidiga lösningar som Markov-antagandet och n-grams modeller presenteras, men deras begränsningar i att fånga kontext belyses. Ett genombrott kom med Bengio et al. (2003) som föreslog neurala nätverk för språkmodellering med "distribuerade representationer" (ord-inbäddningar) för att hantera datagleshet. Kärnidén om att neurala nätverk kan lära sig ord-inbäddningar och därmed modellera språk mer effektivt förklaras, vilket är avgörande för LLM:s förmåga att generalisera.