Glossar: Tokenization

Tokenisierung

Tokenization beschreibt die Bearbeitung eines Textes auf Programmierebene, um diesen später anderen Anwendungen zur Verfügung zu stellen. Der Text wird segmentiert in linguistische Einheiten, die Tokens genannt werden.
Beispiel: