Common Crawl May 2024 Crawl Archive (CC-MAIN-2024-22)

Common Crawl har släppt sitt maj 2024-arkiv, betecknat CC-MAIN-2024-22. Arkivet innehåller totalt 2,70 miljarder webbsidor. Detaljerad information om datatyper som WARC, WAT, WET, robots.txt-filer och URL-indexfiler, inklusive deras storlek och antal filer, finns tillgänglig. Den största datatypen är WARC-filer, som uppgår till 90 000 filer med en total komprimerad storlek på 78.62 TiB.