GAE/Bingo, ett A/B-testverktyg optimerat för Google App Engine, har använts i produktion på Khan Academy i nästan ett år och har genomgått flera förbättringar baserade på erfarenheter. Verktyget har uppdaterats för att göra det trivialt att observera och spåra ett stort antal olika mätvärden automatiskt vid varje experiment, vilket minskar behovet av att lägga till spårningskod för varje nytt test. Erfarenheter visar att det är mer pålitligt att förlita sig på historiska grafer över tid snarare än enbart enskilda signaler om statistisk signifikans för att undvika felaktiga slutsatser. En ny funktion tillåter arkivering av tidigare experiment med anteckningar och känslomässiga reaktioner, vilket skapar en värdefull kunskapsbank om vad som har testats och dess utfall. Artikeln betonar att tolkning av A/B-testresultat är mycket svårt, även med riklig data, och rekommenderar starkt att köra A/A-tester för att kalibrera förståelsen av hur man tolkar resultat.