Releasing Common Corpus: the largest public domain dataset for training LLMs

"Common Corpus", världens största dataset för träning av stora språkmodeller (LLM), har släppts. Datasetet innehåller 500 miljarder ord från olika kulturarvsinitiativ, med en betydande del på engelska, franska och tyska. Detta är en initial utgåva, och fler dataset från öppna källor förväntas publiceras framöver efter en noggrann process för upphovsrättsverifiering. Projektet koordineras av den franska AI-startupen Pleias och stöds av det franska kulturministeriet.