Datenaufbereitung im Text Mining

Der Text Mining Prozess umfasst sechs Teilschritte. Einer davon ist die Datenaufbereitung. Hierbei werden die unstrukturierten Daten einer sprachlichen Datenbereinigung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen aus den Texten zu filtern und, wie in Abbildung 1 dargestellt, aus den Texten reine Wortlisten zu erstellen. Dadurch können die Daten anschliessend durch den Computer analysiert werden (Jo, 2019, S. 19).

Tokenization

Das System erkennt Sequenzen von aufeinanderfolgenden Buchstaben als Tokens. Diese Tokens werden mittels Leerschlägen oder Interpunktionszeichen voneinander getrennt. Im Rahmen der Tokenization werden somit, Texte in dessen Wörter zerlegt. Spezielle Zeichen sowie Ziffern werden während diesem Prozess entfernt und für die anschliessenden Schritte nicht mehr beachtet (Jo, 2019, S. 21-22).

Stemming

Die bei der Tokenization eruierten Wörter werden im Rahmen des Stemmings zu ihrem Wortstamm rückgebildet. Das hat zur Folge, dass in der Pluralform vorkommende Nomen in dessen Singularform umgewandelt werden. Bei konjugierten Verben sowie gesteigerten Adjektiven (Komparativ oder Superlativ) findet eine Transformation in deren Grundform statt (Jo, 2019, S. 23-24; Walter, 2012, S. 700).

Stoppwortbereinigung

In der Token-Liste sind einige Wörter enthalten, welche lediglich eine grammatikalische Funktion erfüllen aber nicht helfen, den Inhalt des Textes auszudrücken. In diesem Teilschritt werden diese irrelevanten Stoppwörter aus der Liste entfernt. Typische Stoppwörter sind Artikel wie “der”, “die”, “das” sowie Konjunktionen wie “und”, “dass”, “aber”. Auch Präpositionen wie “in”, “von” und “zu” werden als irrelevant erachtet und entfernt (Walter, 2012, S. 700).

Literaturverzeichnis

Jo, T. (2019). Text Mining. Concepts, Implementation, and Big Data Challenge. Cham: Springer.

Walter, T. (2012). Controlling von Kundenmeinungen durch Text Mining. Controlling: Vol. 24, S. 698-703,

Anonym

Suche

Datenaufbereitung im Text Mining

Namensräume

Mehr

Seitenaktionen

Inhaltsverzeichnis

Tokenization

Stemming

Stoppwortbereinigung

Literaturverzeichnis

Navigation

Navigation

Portale

Lernen

Mitmachen

Navigation

Wikiwerkzeuge

Wikiwerkzeuge

Anonym

Suche

Datenaufbereitung im Text Mining

Tokenization

Stemming

Stoppwortbereinigung

Literaturverzeichnis

Navigation

Wikiwerkzeuge

Seitenwerkzeuge