Common Crawl - Blog - New Crawl Data Available!

Common Crawl har släppt ny insamlad webbdata från 2013, omfattande cirka 2 miljarder webbsidor och 102 TB okomprimerad data. Betydande formatändringar har implementerats, där man gått över från ARC till WARC, JSON till WAT, och Hadoop Sequence Files till WET, för att bättre anpassa sig till industristandarder och förbättra databerikningen. Den nya datan är organiserad med en uppdaterad katalogstruktur i Common Crawl-bucket, vilket underlättar navigering och användning. Artikeln tillhandahåller även länkar till resurser och verktyg för att arbeta med de nya WARC-, WAT- och WET-filformaten.