Parsing 10TB of Metadata, 26M Domain Names and 1.4M SSL Certs for $10 on AWS

Artikeln beskriver hur författaren bearbetade 10 TB Metadata, 26 miljoner domännamn och 1,4 miljoner SSL-certifikat för endast 10 dollar på AWS. Processen involverade att ladda ner Metadata från Common Crawl på S3, filtrera den för domännamn och sedan hämta SSL-certifikat från dessa domäner. Författaren använde en AWS c3.8xlarge-instans och Unix-kommandon som curl, zgrep, cut, sort, uniq, split och rsync, tillsammans med Python för schemaläggning, för att effektivt ladda ner och bearbeta 10 TB gzippad data på 4 timmar. Deduplicering av 26 miljoner domännamn gjordes med Python och marisa_trie, och X.509-certifikaten hämtades med ett Go-program. Projektet betonar vikten av optimering och effektiva verktyg för att hantera stora datamängder till en låg kostnad, där CPU snarare än nätverket visade sig vara flaskhalsen vid uppackning av gzippade filer.