1-bit LLMs Could Solve AI’s Energy Demands

Stora språkmodeller (LLM) kräver alltmer energi och beräkningskraft, vilket driver forskning mot att krympa dem för att bli billigare, snabbare och mer miljövänliga, samt kunna köras på enheter som mobiltelefoner. Forskare utvecklar "1-bitars LLM" genom kvantisering, där modellernas parametrar reduceras till extremt låg precision (ofta 1 eller -1). Två huvudmetoder är post-training quantization (PTQ) och quantization-aware training (QAT). Nya metoder som BiLLM, BitNet och OneBit har visat lovande resultat. Exempelvis uppnådde BitNet 1.58B samma prestanda som en fullprecisions Llama-modell med 3 miljarder parametrar, men var 2.71 gånger snabbare och använde betydligt mindre GPU-minne och energi. Kvantiserade LLM erbjuder fördelar som att de passar på mindre chip, kräver mindre dataöverföring och möjliggör snabbare bearbetning. För att fullt ut utnyttja potentialen krävs dock utveckling av ny, specialiserad hårdvara.