Datenaufbereitung im Text Mining: Unterschied zwischen den Versionen

Aus Controlling-Wiki
Keine Bearbeitungszusammenfassung
 
(8 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
Aufgrund der Digitalisierung hat der Bestand an Datenmengen, besser bekannt als Big Data, enorm zugenommen. Dazu zählen auch unstrukturierte Datensätze wie zum Beispiel Lageberichte, Internetforen und Kundennachrichten. Text Mining bietet aufgrund von Algorithmen verschiedene Verfahren, um diese Daten zu analysieren (Kaiser, 2009, S. 91).  
Aufgrund der Digitalisierung hat der Bestand an Datenmengen, besser bekannt als Big Data, enorm zugenommen. Dazu zählen auch unstrukturierte Datensätze wie zum Beispiel Lageberichte, Internetforen und Kundennachrichten. Text Mining bietet aufgrund von Algorithmen verschiedene Verfahren, um diese Daten zu analysieren (Kaiser, 2009, S. 91).  
In folgendem Eintrag wird nur auf den technischen Prozess der Datenaufbereitung für Text Mining eingegangen. Weitere Informationen zum Text Mining finden Sie [[Text Mining|hier]].


==Prozess der Datenaufbereitung==
==Prozess der Datenaufbereitung==
Der [[Text Mining]] Prozess umfasst sechs Teilschritte. Einer davon ist die Datenaufbereitung. Hierbei werden die unstrukturierten Daten einer sprachlichen Datenbereinigung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen aus den Texten zu filtern und, wie in Abbildung 1 dargestellt, aus den Texten reine Wortlisten zu erstellen. Dadurch können die Daten anschliessend durch den Computer analysiert werden (Jo, 2019, S. 19).
Der Text Mining Prozess umfasst sechs Teilschritte. Einer davon ist die Datenaufbereitung. Hierbei werden die unstrukturierten Daten einer sprachlichen Datenbereinigung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen aus den Texten zu filtern und, wie in Abbildung 1 dargestellt, aus den Texten reine Wortlisten zu erstellen. Dadurch können die Daten anschliessend durch den Computer analysiert werden (Jo, 2019, S. 19).
[[Datei:Datenaufbereitung im Text Mining.png|miniatur|750px|zentriert|Abbildung 1 Datenaufbereitung im Text Mining (in Anlehnung an Jo, 2019, S. 20)]]
[[Datei:Datenaufbereitung im Text Mining.png|miniatur|750px|zentriert|Abbildung 1 Datenaufbereitung im Text Mining (in Anlehnung an Jo, 2019, S. 20)]]


====Tokenization====
====Tokenization====
Das System erkennt Sequenzen von aufeinanderfolgenden Buchstaben als Tokens. Diese Tokens werden mittels Leerschlägen oder Interpunktionszeichen voneinander getrennt. Im Rahmen der Tokenization werden somit, Texte in dessen Wörter zerlegt. Spezielle Zeichen sowie Ziffern werden während diesem Prozess entfernt und für die anschliessenden Schritte nicht mehr beachtet (Jo, 2019, S. 21-22).
Das System erkennt Sequenzen von aufeinanderfolgenden Buchstaben als Tokens. Diese Tokens werden mittels Leerschlägen oder Interpunktionszeichen voneinander getrennt. Im Rahmen der Tokenization werden somit Texte in dessen Wörter zerlegt. Spezielle Zeichen sowie Ziffern werden während diesem Prozess entfernt und für die anschliessenden Schritte nicht mehr beachtet (Jo, 2019, S. 21-22).
[[Datei:Tokenization.png|miniatur|750px|zentriert|Abbildung 2: Tokenization]]
[[Datei:Tokenization.png|miniatur|750px|zentriert|Abbildung 2: Tokenization]]
   
   
====Stemming====
====Stemming====
Die bei der Tokenization eruierten Wörter werden im Rahmen des Stemmings zu ihrem Wortstamm rückgebildet. Das hat zur Folge, dass in der Pluralform vorkommende Nomen in dessen Singularform umgewandelt werden. Bei konjugierten Verben sowie gesteigerten Adjektiven (Komparativ oder Superlativ) findet eine Transformation in deren Grundform statt (Jo, 2019, S. 23-24; Walter, 2012, S. 700).
Die bei der Tokenization eruierten Wörter werden im Prozessschritt des Stemmings auf die grammatikalische Grundform zurückgebildet. Das hat zur Folge, dass in der Pluralform vorkommende Nomen in dessen Singularform umgewandelt werden. Bei konjugierten Verben sowie gesteigerten Adjektiven (Komparativ oder Superlativ) findet eine Transformation in deren Grundform statt (Jo, 2019, S. 23-24; Walter, 2012, S. 700).
[[Datei:Stemming.png|miniatur|750px|zentriert|Abbildung 3: Stemming]]
[[Datei:Stemming.png|miniatur|750px|zentriert|Abbildung 3: Stemming]]
 
====Stoppwortbereinigung====
====Stoppwortbereinigung====
In der Token-Liste sind einige Wörter enthalten, welche lediglich eine grammatikalische Funktion erfüllen aber nicht helfen, den Inhalt des Textes auszudrücken. In diesem Teilschritt werden diese irrelevanten Stoppwörter aus der Liste entfernt. Typische Stoppwörter sind Artikel wie “der”, “die”, “das” sowie Konjunktionen wie “und”, “dass”, “aber”. Auch Präpositionen wie “in”, “von” und “zu” werden als irrelevant erachtet und entfernt (Walter, 2012, S. 700).
In der Token-Liste sind einige Wörter enthalten, welche lediglich eine grammatikalische Funktion erfüllen aber nicht helfen, den Inhalt des Textes auszudrücken. In diesem Teilschritt werden diese irrelevanten Stoppwörter aus der Liste entfernt. Typische Stoppwörter sind Artikel wie “der”, “die”, “das” sowie Konjunktionen wie “und”, “dass”, “aber”. Auch Präpositionen wie “in”, “von” und “zu” werden als irrelevant erachtet und entfernt (Walter, 2012, S. 700).
Zeile 19: Zeile 21:
==Literaturverzeichnis==
==Literaturverzeichnis==


Jo, T. (2019). [https://link.springer.com/book/10.1007/978-3-319-91815-0 Text Mining. Concepts, Implementation, and Big Data Challenge]. Cham: Springer.
* Jo, T. (2019). [https://link.springer.com/book/10.1007/978-3-319-91815-0 Text Mining. Concepts, Implementation, and Big Data Challenge]. Cham: Springer.
 
* Kaiser, C. (2009). [https://elearning.hslu.ch/ilias/goto.php?target=file_4250342_download&client_id=hslu Opinion Mining im Web 2.0 - Konzept und Fallbeispiel.] HMD 268, S. 90-99.
 
* Walter, T. (2012). [https://elearning.hslu.ch/ilias/goto.php?target=file_4250074_download&client_id=hslu Controlling von Kundenmeinungen durch Text Mining]. Controlling: Vol. 24, S. 698-703.


Kaiser, C. (2009). Opinion Mining im Web 2.0 - Konzept und Fallbeispiel. HMD 268, S. 90-99.
==Autoren==
Jana Kupper, Samuel Markwalder, Viviane Müller, Rina Preni


Walter, T. (2012). [https://elearning.hslu.ch/ilias/goto.php?target=file_4250074_download&client_id=hslu Controlling von Kundenmeinungen durch Text Mining]. Controlling: Vol. 24, S. 698-703,
[[Kategorie:Data Analytics]]

Aktuelle Version vom 16. Oktober 2020, 06:48 Uhr

Aufgrund der Digitalisierung hat der Bestand an Datenmengen, besser bekannt als Big Data, enorm zugenommen. Dazu zählen auch unstrukturierte Datensätze wie zum Beispiel Lageberichte, Internetforen und Kundennachrichten. Text Mining bietet aufgrund von Algorithmen verschiedene Verfahren, um diese Daten zu analysieren (Kaiser, 2009, S. 91).

In folgendem Eintrag wird nur auf den technischen Prozess der Datenaufbereitung für Text Mining eingegangen. Weitere Informationen zum Text Mining finden Sie hier.

Prozess der Datenaufbereitung

Der Text Mining Prozess umfasst sechs Teilschritte. Einer davon ist die Datenaufbereitung. Hierbei werden die unstrukturierten Daten einer sprachlichen Datenbereinigung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen aus den Texten zu filtern und, wie in Abbildung 1 dargestellt, aus den Texten reine Wortlisten zu erstellen. Dadurch können die Daten anschliessend durch den Computer analysiert werden (Jo, 2019, S. 19).

Abbildung 1 Datenaufbereitung im Text Mining (in Anlehnung an Jo, 2019, S. 20)

Tokenization

Das System erkennt Sequenzen von aufeinanderfolgenden Buchstaben als Tokens. Diese Tokens werden mittels Leerschlägen oder Interpunktionszeichen voneinander getrennt. Im Rahmen der Tokenization werden somit Texte in dessen Wörter zerlegt. Spezielle Zeichen sowie Ziffern werden während diesem Prozess entfernt und für die anschliessenden Schritte nicht mehr beachtet (Jo, 2019, S. 21-22).

Abbildung 2: Tokenization

Stemming

Die bei der Tokenization eruierten Wörter werden im Prozessschritt des Stemmings auf die grammatikalische Grundform zurückgebildet. Das hat zur Folge, dass in der Pluralform vorkommende Nomen in dessen Singularform umgewandelt werden. Bei konjugierten Verben sowie gesteigerten Adjektiven (Komparativ oder Superlativ) findet eine Transformation in deren Grundform statt (Jo, 2019, S. 23-24; Walter, 2012, S. 700).

Abbildung 3: Stemming

Stoppwortbereinigung

In der Token-Liste sind einige Wörter enthalten, welche lediglich eine grammatikalische Funktion erfüllen aber nicht helfen, den Inhalt des Textes auszudrücken. In diesem Teilschritt werden diese irrelevanten Stoppwörter aus der Liste entfernt. Typische Stoppwörter sind Artikel wie “der”, “die”, “das” sowie Konjunktionen wie “und”, “dass”, “aber”. Auch Präpositionen wie “in”, “von” und “zu” werden als irrelevant erachtet und entfernt (Walter, 2012, S. 700).

Abbildung 4: Stoppwortbereinigung

Literaturverzeichnis

Autoren

Jana Kupper, Samuel Markwalder, Viviane Müller, Rina Preni