Llama 3 representerar ett betydande framsteg inom storskaliga språkmodeller, tränad på cirka 15 biljoner flerspråkiga tokens med en komplex datamix och avancerade rengöringstekniker, inklusive en unik "annealing"-fas för högkvalitativ data. Modellen har en imponerande arkitektur med 405 miljarder parametrar, ett utökat kontextfönster på 128k tokens, Group Query Attention och multimodala kapaciteter som integrerar syn, video och tal. Träningen krävde massiva resurser, inklusive 16 000 H100 GPU:er över 54 dagar, och betonar vikten av att samdesigna modell och infrastruktur snarare än att enbart öka hårdvaran. Forskarna utvecklade nya utvärderingstekniker, såsom skalningslagar, nedströmsuppgiftsutvärdering och fakticitetsbedömning, för att säkerställa modellens kvalitet och prestanda i stor skala. Llama 3:s förbättringar möjliggör bättre prestanda inom matematik, resonemang, flerspråkig förståelse och fakticitet, med potential för avancerad verktygsanvändning och flerstegsresonemang, vilket är värdefullt för ingenjörer.