Nagios Monitoring Performance

Artikeln beskriver hur 37signals förbättrade sin övervakningsinfrastruktur baserad på Nagios, som skalade från 350 till över 7 500 tjänster mellan 2009 och 2010. De implementerade check_mk för automatisk inventering och datainsamling, samt chef för konfigurationshantering, vilket utökade antalet övervakade mätvärden per värd. Huvudproblemet var hög belastning och latens orsakad av ett stort antal aktiva Nagios-tjänster som krävde att Nagios exekverade shell-skript direkt. Lösningen innebar att konvertera många aktiva tjänster, särskilt de som gjorde HTTP-förfrågningar, till passiva tjänster genom att pusha data från statsd via websockets. Resultatet blev en drastisk minskning av CPU-användning och latens, vilket möjliggjorde mer omfattande övervakning med bibehållen prestanda och spridning av belastningen till andra servrar.