Scaling the Facebook data warehouse to 300 PB

Facebook står inför betydande utmaningar med skalbarhet för sitt datalager, som lagrar över 300 PB data och växer med cirka 600 TB dagligen, vilket gör lagringseffektivitet till ett primärt fokus. Artikeln beskriver utvecklingen av lagringsformat, från det ursprungliga RCFile (som erbjöd 5x komprimering) till det mer avancerade ORCFile, som utvecklades i samarbete med Hortonworks. Facebook anpassade ORCFile med "adaptiva kolumnkodningar" för att dynamiskt optimera komprimeringen för olika datatyper, särskilt strängar och stora heltal, och därmed undvika databukning som kunde uppstå med standardkodningar. Förbättringar gjordes även för att optimera skrivprestandan för ORCFile, och en optimal stripe-storlek på 256 MB identifierades empiriskt för att balansera komprimering och prestanda.