5. Categorizing and Tagging Words

nltk.org 2014-03-27 14022 words

Artikeln introducerar lexikala kategorier (ordklasser) och deras betydelse inom naturlig språkbehandling (NLP), samt hur de uppstår från enkel analys av ords distribution i text. Den förklarar Part-of-Speech (POS) tagging, även känt som ordklasstagging, som processen att klassificera ord i deras ordklasser och märka dem därefter. Med hjälp av Python och NLTK demonstreras hur man automatiskt taggar ord i en text, inklusive hantering av homonymer och användning av text.similar() för kontextuell analys. Artikeln beskriver hur taggade korpusar representeras, ofta som tupler av ord och taggar, och hur NLTK:s korpusläsare ger ett enhetligt gränssnitt för att läsa dessa, med exempel från Brown-, NPS Chat-, CoNLL2000- och Treebank-korpusarna.