AWS Articles

Artikeln illustrerar hur man använder Amazon Elastic MapReduce och Hive för att bearbeta webbdata, specifikt loggar från en annonseringsverksamhet. Loggfiler från webbservrar (JettyAmazon EC2) med annonsförfrågningar och klickdata samlas in, roteras var femte minut och laddas upp till Amazon S3. Ett Amazon Elastic MapReduce-jobb hämtar loggarna från S3, bearbetar dem och beräknar statistik som svarstider och antal anrop/klick per sekund. Artikeln beskriver hur man sätter upp en interaktiv Hive-session, deklarerar tabeller med hjälp av en JSON SerDe för att hantera JSON-loggformatet, och transformerar data. Slutligen aggregeras data för att extrahera max-, min- och genomsnittliga svarstider per värd, och resultaten laddas upp till Amazon SimpleDB.