AWS Articles

Amazon Elastic MapReduce (EMR) är en webbtjänst för kostnadseffektiv bearbetning av stora datamängder med HadoopAWS infrastruktur. Artikeln beskriver en exempelapplikation som använder EMR för att beräkna parvis likhet i stora databaser, demonstrerat med musik- och filmrekommendationer baserade på Audioscrobbler-data. Den guidar genom processen att köra ett streaming-jobb via AWS Management Console, inklusive datainmatning, parameterkonfiguration, instanshantering och hämtning av resultat från Amazon S3. Python och Hadoop streaming används för algoritmerna, men Java eller C++ rekommenderas för bättre prestanda och avancerade Hadoop-optimeringar. Exemplet inkluderar lokal testning av koden på små dataset och analys av användarstatistik, såsom antal unika artister lyssnade på per användare.