Text Mining: Unterschied zwischen den Versionen
Keine Bearbeitungszusammenfassung |
Keine Bearbeitungszusammenfassung |
||
Zeile 1: | Zeile 1: | ||
Aufgrund der Digitalisierung hat der Bestand an unstrukturierten Datensätzen wie Lageberichten, Internetforen sowie Kundennachrichten stark zugenommen. Infolgedessen gewinnt Text Mining an Bedeutung. Text Mining ist eine Ansammlung von Analyseverfahren basierend auf Algorithmen für unstrukturierte Textdaten (Kaiser, 2009, S. 91). Die Strukturierung dieser Daten erfolgt mittels statistischen und linguistischen Mitteln (Hippner & Rentzmann, 2006, S. 287). Sie hilft, einen Überblick über die Inhalte grosser Dokumentensammlungen zu erhalten und verborgenen Gemeinsamkeiten zu identifizieren. Weiter erleichtert die Strukturierung eine schnellere Informationsaufnahme (Beckh & Meier, 2000, S. 165). So können beispielsweise durch eine genaue Analyse der Datenmengen präzisere Absatz-Forecasts erstellt werden. Ebenfalls können aktuelle Markttrends früher erkannt und dadurch in die strategische Planung eines Unternehmens aufgenommen werden (Langmann, 2019, S. 5-6). Im Bereich des Controllings tritt Text Mining zum Beispiel bei Vertriebs-, Innovations- und Marketingprozessen sowie in der Markt- und Konkurrenzanalyse auf (Coners & Matthies, 2015, S. 661). | |||
== Definition von Text Mining == | |||
Text Mining ist eine spezielle Art von Data Mining. Dabei wird Wissen aus unstrukturierten Daten gewonnen (Kaiser, 2009, S. 91). Unstrukturierte Daten sind sämtliche Arten von Texten, da diese keinem einheitlichen Format entsprechen und somit schwieriger zu analysieren sind. Mithilfe des Text Minings sollen nicht nur Tatsachen erlangt, sondern auch neues Wissen generiert werden (Coners & Matthies, 2015, S. 658). Durch die Strukturierung werden nicht direkt ersichtliche Ähnlichkeiten aufgedeckt sowie Gemeinsamkeiten identifiziert. Ausserdem wird eine Inhaltsübersicht über eine grosse Menge an Dokumenten ermöglicht und die rasche Informationsaufnahme vereinfacht (Meier & Beckh, 2000, S. 165). Dies geschieht durch sprachwissenschaftliche und statistische Vorgehensweisen sowie unter Einsatz von Analysealgorithmen. Die Vorgehensweisen werden in den Kapiteln [[Datenaufbereitung]] und [[Text Mining#Text Mining-Methoden|Text Mining-Methoden]] näher erläutert. | |||
== Abgrenzung zu Data Mining == | |||
Der Unterschied zu [[Data Mining]] liegt darin, dass Informationen aus unstrukturierten Daten und dadurch vorwiegend aus externe Informationsquellen miteinbezogen wird (Gentsch, 2003, S. 17). Infolgedessen besitzt Data Mining eine andere Datenbasis als Text Mining, da Data Mining sich auf die Analyse von strukturierten Daten konzentriert. Text Mining hingegen befasst sich mit eingeschlossenen Zusammenhängen wie Grammatik und ausdrücklichen Zusammenhängen wie Überschriften und Absätzen (Hippner & Rentzmann, 2006, S. 287). | |||
== Prozess == | |||
Die Herausforderung des Text Minings liegt darin, die in einem Text dargelegten Informationen für die Analyse durch einen Computer zugänglich zu machen. Der Prozess folgt einem ähnlichen Ablauf wie ein klassischer Data-Mining-Prozess. Allerdings ist durch die fehlende Struktur der Daten eine zusätzliche sprachliche [[Datenaufbereitung]] notwendig (Rajman & Vesely, 2004, S. 7 zit. in Hippner & Rentzmann, 2006, S. 287-288). Der Prozess besteht, gemäss nachstehender Abbildung, aus sechs aufeinanderfolgenden Schritten. | |||
=== 1. Aufgabendefinition === | |||
In diesem Schritt findet eine Auseinandersetzung mit der Problemstellung statt. Anschliessend sollten aufgrund dessen klare Ziele und einleuchtende Fragestellungen formuliert werden (Coners & Matthies, 2015, S. 659). | |||
=== 2. Dokumentenselektion === | |||
Basierend auf den definierten Zielen im ersten Schritt, werden relevante Dokumente auserlesen. Dabei bietet es sich an, ein sogenanntes Document Warehouse zur Unterstützung einzurichten. Anhand dessen können diverse Dokumententypen wie E-Mails, Formulare oder Berichte zusammengeführt werden (Ule & Hinrichs, 2004, S. 217 zit. in Hippner & Rentzmann, 2006, S. 288). | |||
=== 3. Datenaufbereitung === | |||
Die unstrukturierten Daten werden einer [[Datenaufbereitung]] durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen zu filtern und aus den Texten reine Wortlisten zu erstellen (Jo, 2019, S. 19). | |||
=== 4. Text Mining-Methoden === | |||
Nachstehend werden drei mögliche Verfahren erläutert, welche beim Text Mining zur Gewinnung neuer Erkenntnisse eingesetzt werden. | |||
'''Textkategorisierung''' | |||
Hierbei findet vorab eine manuelle Bestimmung von Kategorien statt. Anschliessend können neue Texte automatisch einer dieser vordefinierten Kategorien zugeordnet werden. Anhand dieses Verfahrens kann bei E-Mails beispielsweise eine Zugehörigkeit prognostiziert werden (Alpar, Alt, Bensberg & Weimann, 2019, S. 302; Walter, 2012, S. 700). | |||
'''Clustering''' | |||
Im Rahmen des Clusterings wird der Text ebenfalls in Gruppen unterteilt. Im Gegensatz zur Kategorisierung werden die Gruppen jedoch nicht durch den Anwender vorgegeben, sondern vom Computer automatisch selektiert (Bheme & Mucksch, 1999, S. 447). | |||
'''Sentimentanalyse''' | |||
Bei diesem Verfahren wird die Einstellung des Autors gegenüber dem behandelnden Thema eruiert. Dabei wird hauptsächlich zwischen positiver, neutraler und negativer Einstellung unterschieden. Mithilfe dieser Technik kann beispielsweise untersucht werden, ob der Aktienkurs mit veröffentlichten Meinungen korreliert (Alpar et al., 2019, S. 302-303). | |||
=== 5. Evaluierung & Interpretation === | |||
Die qualitativen Ergebnisse werden interpretiert sowie auf Relevanz und Plausibilität bewertet. Bezugnehmend auf die gesetzten Ziele aus dem ersten Schritt, werden die Erkenntnisse adressatengerecht visualisiert. Es gibt verschiedene Möglichkeiten, um Worthäufigkeiten, Strukturen, Trends und Beziehungsmuster darzustellen. Zum Beispiel eignen sich Word Clouds zur Abbildung von Worthäufigkeiten (Coners & Matthies, 2015, S. 660). | |||
=== 6. Anwendung === | |||
Die erhaltenen Ergebnisse aus dem Schritt 5 können für fallspezifische Entscheidungsfindungen des Managements eingesetzt werden. Zudem dienen sie der Informationsversorgung im operativen Betrieb (Coners & Matthies, 2015, S. 660). | |||
== Quellen == | == Quellen == |
Version vom 10. Dezember 2019, 17:41 Uhr
Aufgrund der Digitalisierung hat der Bestand an unstrukturierten Datensätzen wie Lageberichten, Internetforen sowie Kundennachrichten stark zugenommen. Infolgedessen gewinnt Text Mining an Bedeutung. Text Mining ist eine Ansammlung von Analyseverfahren basierend auf Algorithmen für unstrukturierte Textdaten (Kaiser, 2009, S. 91). Die Strukturierung dieser Daten erfolgt mittels statistischen und linguistischen Mitteln (Hippner & Rentzmann, 2006, S. 287). Sie hilft, einen Überblick über die Inhalte grosser Dokumentensammlungen zu erhalten und verborgenen Gemeinsamkeiten zu identifizieren. Weiter erleichtert die Strukturierung eine schnellere Informationsaufnahme (Beckh & Meier, 2000, S. 165). So können beispielsweise durch eine genaue Analyse der Datenmengen präzisere Absatz-Forecasts erstellt werden. Ebenfalls können aktuelle Markttrends früher erkannt und dadurch in die strategische Planung eines Unternehmens aufgenommen werden (Langmann, 2019, S. 5-6). Im Bereich des Controllings tritt Text Mining zum Beispiel bei Vertriebs-, Innovations- und Marketingprozessen sowie in der Markt- und Konkurrenzanalyse auf (Coners & Matthies, 2015, S. 661).
Definition von Text Mining
Text Mining ist eine spezielle Art von Data Mining. Dabei wird Wissen aus unstrukturierten Daten gewonnen (Kaiser, 2009, S. 91). Unstrukturierte Daten sind sämtliche Arten von Texten, da diese keinem einheitlichen Format entsprechen und somit schwieriger zu analysieren sind. Mithilfe des Text Minings sollen nicht nur Tatsachen erlangt, sondern auch neues Wissen generiert werden (Coners & Matthies, 2015, S. 658). Durch die Strukturierung werden nicht direkt ersichtliche Ähnlichkeiten aufgedeckt sowie Gemeinsamkeiten identifiziert. Ausserdem wird eine Inhaltsübersicht über eine grosse Menge an Dokumenten ermöglicht und die rasche Informationsaufnahme vereinfacht (Meier & Beckh, 2000, S. 165). Dies geschieht durch sprachwissenschaftliche und statistische Vorgehensweisen sowie unter Einsatz von Analysealgorithmen. Die Vorgehensweisen werden in den Kapiteln Datenaufbereitung und Text Mining-Methoden näher erläutert.
Abgrenzung zu Data Mining
Der Unterschied zu Data Mining liegt darin, dass Informationen aus unstrukturierten Daten und dadurch vorwiegend aus externe Informationsquellen miteinbezogen wird (Gentsch, 2003, S. 17). Infolgedessen besitzt Data Mining eine andere Datenbasis als Text Mining, da Data Mining sich auf die Analyse von strukturierten Daten konzentriert. Text Mining hingegen befasst sich mit eingeschlossenen Zusammenhängen wie Grammatik und ausdrücklichen Zusammenhängen wie Überschriften und Absätzen (Hippner & Rentzmann, 2006, S. 287).
Prozess
Die Herausforderung des Text Minings liegt darin, die in einem Text dargelegten Informationen für die Analyse durch einen Computer zugänglich zu machen. Der Prozess folgt einem ähnlichen Ablauf wie ein klassischer Data-Mining-Prozess. Allerdings ist durch die fehlende Struktur der Daten eine zusätzliche sprachliche Datenaufbereitung notwendig (Rajman & Vesely, 2004, S. 7 zit. in Hippner & Rentzmann, 2006, S. 287-288). Der Prozess besteht, gemäss nachstehender Abbildung, aus sechs aufeinanderfolgenden Schritten.
1. Aufgabendefinition
In diesem Schritt findet eine Auseinandersetzung mit der Problemstellung statt. Anschliessend sollten aufgrund dessen klare Ziele und einleuchtende Fragestellungen formuliert werden (Coners & Matthies, 2015, S. 659).
2. Dokumentenselektion
Basierend auf den definierten Zielen im ersten Schritt, werden relevante Dokumente auserlesen. Dabei bietet es sich an, ein sogenanntes Document Warehouse zur Unterstützung einzurichten. Anhand dessen können diverse Dokumententypen wie E-Mails, Formulare oder Berichte zusammengeführt werden (Ule & Hinrichs, 2004, S. 217 zit. in Hippner & Rentzmann, 2006, S. 288).
3. Datenaufbereitung
Die unstrukturierten Daten werden einer Datenaufbereitung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen zu filtern und aus den Texten reine Wortlisten zu erstellen (Jo, 2019, S. 19).
4. Text Mining-Methoden
Nachstehend werden drei mögliche Verfahren erläutert, welche beim Text Mining zur Gewinnung neuer Erkenntnisse eingesetzt werden.
Textkategorisierung Hierbei findet vorab eine manuelle Bestimmung von Kategorien statt. Anschliessend können neue Texte automatisch einer dieser vordefinierten Kategorien zugeordnet werden. Anhand dieses Verfahrens kann bei E-Mails beispielsweise eine Zugehörigkeit prognostiziert werden (Alpar, Alt, Bensberg & Weimann, 2019, S. 302; Walter, 2012, S. 700).
Clustering Im Rahmen des Clusterings wird der Text ebenfalls in Gruppen unterteilt. Im Gegensatz zur Kategorisierung werden die Gruppen jedoch nicht durch den Anwender vorgegeben, sondern vom Computer automatisch selektiert (Bheme & Mucksch, 1999, S. 447).
Sentimentanalyse Bei diesem Verfahren wird die Einstellung des Autors gegenüber dem behandelnden Thema eruiert. Dabei wird hauptsächlich zwischen positiver, neutraler und negativer Einstellung unterschieden. Mithilfe dieser Technik kann beispielsweise untersucht werden, ob der Aktienkurs mit veröffentlichten Meinungen korreliert (Alpar et al., 2019, S. 302-303).
5. Evaluierung & Interpretation
Die qualitativen Ergebnisse werden interpretiert sowie auf Relevanz und Plausibilität bewertet. Bezugnehmend auf die gesetzten Ziele aus dem ersten Schritt, werden die Erkenntnisse adressatengerecht visualisiert. Es gibt verschiedene Möglichkeiten, um Worthäufigkeiten, Strukturen, Trends und Beziehungsmuster darzustellen. Zum Beispiel eignen sich Word Clouds zur Abbildung von Worthäufigkeiten (Coners & Matthies, 2015, S. 660).
6. Anwendung
Die erhaltenen Ergebnisse aus dem Schritt 5 können für fallspezifische Entscheidungsfindungen des Managements eingesetzt werden. Zudem dienen sie der Informationsversorgung im operativen Betrieb (Coners & Matthies, 2015, S. 660).
Quellen
Literaturverzeichnis
- Möhring, M., Schmidt, R., Härting, R.-C. & Heitmann, J. (2014). Neue Potenziale im Controlling durch die Verarbeitung von unstrukturierten Daten in Marketing und Vertrieb. In A. Klein (Hrsg.). Marketing- und Vertriebscontrolling (S. 229-246). München: Haufe-Lexware.
Weiterführende Literatur
- Gentsch, P. (2003). Data Mining im Controlling – Methoden, Anwendungsfelder und Entwicklungsperspektiven. Controlling und Management, 47 (2), S. 14-23.
- Hippner, H. & Rentzmann, R. (2006). Text Mining. Informatik-Spektrum, 29 (4), S. 287-290.
- Thaler, T., Fettke, P. & Loos, P. (2013). Process Mining – Fallstudie leginda.de. HMD Praxis der Wirtschaftsinformatik, 50 (5), S. 56-65.