HTTP Archive är ett öppen källkodsprojekt som spårar webbens utveckling och tillhandahåller historisk data för forskning. Projektets omfattande data, som sträcker sig tillbaka till 2010 och täcker över en miljon sidor, är tillgänglig för analys via Google BigQuery. Artikeln ger en steg-för-steg-guide för att komma åt HTTP Archives data i BigQuery, inklusive att skapa ett Google Cloud-projekt och lägga till httparchive-datasetet. Den beskriver viktiga datatabeller som crawl.pages, crawl.requests och Blink_features.usage, vilka innehåller detaljerad information om webbsidor och prestanda. Exempel på BigQuery-frågor presenteras för att visa hur man analyserar data, såsom att räkna sidor, sammanfoga tabeller och kategorisera förfrågningstyper.