GitHub - ageitgey/node-unfluff: Automatically extract body content (and other cool stuff) from an html document

"unfluff" är ett node.js-bibliotek som automatiskt extraherar huvudtext och andra relevanta data från HTML-dokument. Biblioteket kan installeras via npm och användas både som en modul i node.js-projekt och via kommandoraden, med exempel på hur man kedjar ihop det med andra Unix-kommandon som curl och jq. Det extraherar en mängd information som titel, författare, publiceringsdatum, huvudtext, bilder, videor och länkar, och returnerar detta som ett JSON-objekt. "unfluff" bygger på "Python-goose" och "goose" men är inte en exakt port; det erbjuder även en "lazy" version för snabbare åtkomst till vissa dataelement. Begränsningar inkluderar bristfällig testning för icke-engelska språk, särskilt de som kräver smartare ordtokenisering, samt potentiella buggar på otestade webbsidor.