Meta Open-Sources MEGALODON LLM for Efficient Long Sequence Modeling

Meta har, i samarbete med flera universitet, open-sourcat MEGALODON, en stor språkmodell (LLM) med obegränsad kontextlängd och linjär beräkningskomplexitet. MEGALODON är designad för att åtgärda brister i Transformer-arkitekturen genom att använda 'Chunk-wise attention' och 'Sequence-based parallelism', vilket förbättrar skalbarheten för långa kontexter. Modellen, särskilt MEGALODON-7B, har visat sig vara mer beräkningseffektiv och presterar bättre eller likvärdigt med Llama 2 på standardiserade benchmarks, särskilt vid hantering av långa kontexter. MEGALODON bygger på den tidigare modellen MEGA och använder en ny 'ComplexEMA' (cEMA) komponent, vilket gör den ekvivalent med en förenklad tillståndsrumsmodell. Koden för MEGALODON är tillgänglig på GitHub, och dess prestanda på långa kontextuppgifter har diskuterats, med potential för framtida arbete inom storskalig multi-modal förträning.