Batch Your Big Data Jobs—Or Stream Them?

Artikeln diskuterar den pågående debatten mellan traditionell batchbearbetning (Hadoop) och den framväxande trenden med strömmande analys (Apache Spark) för stordata. Förespråkare för strömmande data, som Databricks och Zoomdata, föreslår att man antingen förenar batch- och strömmande modeller eller helt övergår till strömbaserade system för att förenkla arkitekturer och möjliggöra realtidsanalys. Patrick Wendell från Databricks belyser den operativa komplexiteten med strömmande data men föreslår att man förenar programmeringsmodeller (Spark Streaming) för att endast behöva underhålla en mjukvarustack. Justin Langseth från Zoomdata argumenterar mot batchsystem helt och hållet, inklusive "Lambda-arkitekturen", och förespråkar end-to-end-verktyg som hanterar både historisk och realtidsdata sömlöst. Andra, som Hadoop-skaparen Doug Cutting och Scott Hirleman från DataStax, menar dock att strömmande data kommer att komplettera snarare än ersätta befintliga batchbearbetningsalternativ, och att dess breda adoption kommer att ta tid.