An experiment in trying to predict Google rankings

Artikeln beskriver ett experiment för att förutsäga Googles rankningar med hjälp av maskininlärning, med målet att avgöra om en webbplats skulle hamna bland de tio bästa. Författarna samarbetade med datavetaren Alejandro Simkievich och hans företag Statec, och utnyttjade deras expertis inom sökrelevans och datavetenskap. Efter att initialt ha försökt med en regressionsmodell, övergick de till ett binärt klassificeringsproblem och uppnådde 41 % sant positiva och 41 % sant negativa resultat på sin datamängd med 200 000 observationer. Experimentet använde omfattande data från källor som Getstat och Majestic, och involverade koncept som feature engineering, datarensning och olika maskininlärningsalgoritmer. Artikeln introducerar även grundläggande maskininlärningskoncept som regression och klassificering, och belyser de tekniska färdigheter som krävs inom området.