Artikeln presenterar Hamel Husains metod för att utvärdera AI-produkter, särskilt "LLM-as-a-Judge", med fokus på att driva affärsresultat. Metoden avråder från att använda 1-5 poängskalor och förespråkar istället "critique shadowing", där en domänexpert ger ja/nej-svar och detaljerade motiveringar. Dessa expertkritiker används för att träna en LLM-domare genom "few-shot prompting" för att anpassa dess bedömningar till expertens. Det verkliga värdet ligger i noggrann dataanalys, där LLM-domaren fungerar som ett verktyg för att uppmuntra denna process.