The KBLab Blog: SUCX 3.0 - NER

Artikeln introducerar SUCX 3.0, en förbättrad version av Stockholm Umeå Corpus (SUC) för Named Entity Recognition (NER) på svenska, som innehåller både manuellt och automatiskt annoterade entiteter. SUCX 3.0 utökar de ursprungliga entitetskategorierna med nya som "measurements" och "time", och hanterar inkonsekvenser i tidigare Annotationer. För att möjliggöra rättvis jämförelse av NER-modeller har korpusen delats upp i tränings-, utvecklings- och testdata, och finns tillgänglig i ett JSON-baserat format. Datasetet erbjuds i olika variatioNER, inklusive "cased" och "uncased" versioner, för att träna modeller som kan hantera brusig data, som webbtext eller chatt. Artikeln beskriver även hyperparameteroptimering (HPO) för att förbättra prestandan hos NER-modeller, med fokus på inlärningshastighet, viktminskning och "Warmup ratio", och presenterar baslinjeresultat med KB-BERT.