Common Crawl är en ideell organisation som tillhandahåller ett gratis, massivt index över mer än 5 miljarder webbsidor (81 terabyte) för att demokratisera tillgången till webbdata för innovation. Initiativet syftar till att göra det möjligt för forskare och entreprenörer att utveckla nya verktyg och tjänster, som sökmotorer eller översättningsprogram, utan att behöva resurser jämförbara med Googles. Nyckelpersoner som Gilad Elbaz (grundare av Common Crawl och Factual), Peter Norvig (Google) och Joi Ito (MIT Media Lab) är involverade, och datan lagras på Amazons molntjänst. Common Crawl har redan inspirerat startups som TinEye och Lucky Oyster, och dess data anses vara unik för storskalig webbforskning, även om den möter utmaningar med att få tillgång till data från sociala medier. Experter som Rich Skrenta (Blekko) och Ben Zhao (University of California, Santa Barbara) erkänner dess värde för startup- och akademiska samhällen.