RegEx match open tags except XHTML self-contained tags

Artikeln varnar starkt och humoristiskt för att använda reguljära uttryck (regex) för att parsa HTML, då HTML inte är ett reguljärt språk och regex är otillräckligt för uppgiften. Den första delen av inlägget använder överdrivna och katastrofala metaforer för att beskriva riskerna med att kombinera HTML och regex, inklusive att det kan leda till säkerhetshål och mental kollaps. Vissa bidrag erkänner dock att regex kan vara lämpligt för att parsa en begränsad och känd uppsättning HTML, till exempel för enkel dataskrapning från specifika webbplatser, men med tydliga förbehåll. Alternativ som XML-parser föreslås, och en användare tillhandahåller ett komplext regex som de hävdar fungerar för vissa HTML-taggar, men med erkända begränsningar som cdata-block och script-element. En moderatornotering klargör att inlägget är låst och att dess ovanliga innehåll är avsiktligt och inte bör flaggas.