Apache Spark @Scale: A 60 TB+ production use case

facebook migrerade en beräkningsintensiv, Hive-baserad batchbearbetningspipeline för förberedelse av entitetsrankningsfunktioner till Apache Spark. Den ursprungliga Hive-pipelinen var långsam (tre dagar), svår att hantera på grund av hundratals uppdelade jobb och resurskrävande. Migreringen innebar att tre logiska Hive-steg kombinerades till ett enda Spark-jobb, som bearbetade 60 TB komprimerad data och utförde en 90 TB shuffle och sortering. Att skala Spark till denna omfattning krävde betydande tillförlitlighetsfixar och optimeringar, varav många bidrog tillbaka till Apache Spark-projektet med öppen källkod. Resultatet blev en snabbare och mer hanterbar pipeline för att generera färskare funktionsdata.