An introduction to Apache Hadoop for big data

Apache Hadoop är ett öppen källkodsramverk för lagring och storskalig bearbetning av datamängder på kluster av standardhårdvara, licensierat under Apache License 2.0. Ramverket skapades 2005 av Doug Cutting och Mike Cafarella, ursprungligen för Nutch sökmotorprojektet, och är uppkallat efter Cuttings sons leksakselefant. Hadoop består av kärnmoduler som Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop YARN för resurshantering och Hadoop MapReduce för databearbetning. HDFS är ett distribuerat, skalbart filsystem designat för stora filer med datareplikering för tillförlitlighet, och dess arkitektur inkluderar Namenode och Datanode. MapReduce-motorn, som består av JobTracker och TaskTracker, hanterar parallell bearbetning och utnyttjar datamedvetenhet för att minimera nätverkstrafik.