Common Crawl - Get Started

Common Crawl-data är gratis och tillgänglig för alla via Amazon Web Services (AWS) S3-bucket i regionen us-east-1 (Northern Virginia). Data kan bearbetas direkt i AWS-molnet eller laddas ner via HTTP(S) med specifika URL-scheman, och åtkomst inom AWS rekommenderas från samma region för att undvika extra avgifter. För åtkomst utanför AWS kan användare ladda ner data lokalt med HTTP-nedladdningsagenter som curl eller wget, eller via AWS Command Line Interface (CLI). AWS CLI tillåter anonym åtkomst med argumentet --no-sign-request och kan användas för att lista eller kopiera filer från Common Crawl-datamängden. Artikeln tillhandahåller även exempelkod i Python för att söka i Common Crawl-indexet, samt hänvisar till ytterligare exempel för Hadoop- och Spark-ramverk.