Text Mining: Unterschied zwischen den Versionen
Zeile 20: | Zeile 20: | ||
==== Dokumentenselektion ==== | ==== Dokumentenselektion ==== | ||
Basierend auf den definierten Zielen im ersten Schritt | Basierend auf den definierten Zielen im ersten Schritt werden relevante Dokumente auserlesen. Dabei bietet es sich an, ein sogenanntes Document Warehouse zur Unterstützung einzurichten. Anhand dessen können diverse Dokumententypen wie E-Mails, Formulare oder Berichte zusammengeführt werden (Ule & Hinrichs, 2004, S. 217 zit. in Hippner & Rentzmann, 2006, S. 288). | ||
==== Datenaufbereitung ==== | ==== Datenaufbereitung ==== |
Version vom 14. Dezember 2019, 18:51 Uhr
Aufgrund der Digitalisierung hat der Bestand an Datenmengen, besser bekannt als Big Data, enorm zugenommen. Dazu zählen auch unstrukturierte Datensätze wie zum Beispiel Lageberichte, Internetforen und Kundennachrichten. Text Mining bietet aufgrund von Algorithmen verschiedene Verfahren, um diese Daten zu analysieren (Kaiser, 2009, S. 91). Das Ziel dabei ist, einen Überblick über die Inhalte grosser Dokumentensammlungen zu erhalten und verborgene Gemeinsamkeiten zu identifizieren. Weiter erleichtert die Strukturierung eine schnellere Informationsaufnahme (Beckh & Meier, 2000, S. 165). Die grösste Herausforderung von Text Mining besteht darin, dass die in Textform vorhandenen Information systematisch in einer Analyse ausgewertet werden können (Hippner & Rentzmann, 2006). Im Bereich des Controllings tritt Text Mining zum Beispiel bei Vertriebs-, Innovations- und Marketingprozessen sowie in der Markt- und Konkurrenzanalyse auf (Coners & Matthies, 2015, S. 661). So können beispielsweise durch eine genaue Analyse der Datenmengen präzisere Absatz-Forecasts erstellt werden. Ebenfalls können aktuelle Markttrends früher erkannt und dadurch in die strategische Planung eines Unternehmens aufgenommen werden (Langmann, 2019, S. 5-6).
Definition von Text Mining
Text Mining ist eine spezielle Art von Data Mining. Dabei wird Wissen aus unstrukturierten Daten gewonnen (Kaiser, 2009, S. 91). Unstrukturierte Daten sind sämtliche Textarten, da diese keinem einheitlichen Format entsprechen und somit schwieriger zu analysieren sind. Mithilfe des Text Minings sollen nicht nur Tatsachen erlangt, sondern auch neues Wissen generiert werden (Coners & Matthies, 2015, S. 658). Durch die Strukturierung werden nicht direkt ersichtliche Ähnlichkeiten aufgedeckt sowie Gemeinsamkeiten identifiziert. Ausserdem wird eine Inhaltsübersicht über eine grosse Dokumentenmenge ermöglicht und die rasche Informationsaufnahme vereinfacht (Meier & Beckh, 2000, S. 165). Dies geschieht durch sprachwissenschaftliche und statistische Vorgehensweisen sowie unter Einsatz von Analysealgorithmen. Die Vorgehensweisen werden in den Kapiteln Datenaufbereitung und Text Mining-Methoden näher erläutert.
Abgrenzung zu Data Mining
Der Unterschied zu Data Mining liegt darin, dass Informationen aus unstrukturierten Daten und dadurch vorwiegend aus externe Informationsquellen miteinbezogen werden (Gentsch, 2003, S. 17). Infolgedessen besitzt Data Mining eine andere Datenbasis als Text Mining, da Data Mining sich auf die Analyse von strukturierten Daten konzentriert. Text Mining hingegen befasst sich mit eingeschlossenen Zusammenhängen wie Grammatik und ausdrücklichen Zusammenhängen wie Überschriften und Absätzen (Hippner & Rentzmann, 2006, S. 287).
Prozess
Die Herausforderung des Text Minings liegt darin, die in einem Text dargelegten Informationen für die Analyse durch einen Computer zugänglich zu machen. Der Prozess folgt einem ähnlichen Ablauf wie ein klassischer Data-Mining-Prozess. Allerdings ist durch die fehlende Struktur der Daten eine zusätzliche sprachliche Datenaufbereitung notwendig (Rajman & Vesely, 2004, S. 7 zit. in Hippner & Rentzmann, 2006, S. 287-288). Der Prozess besteht, gemäss nachstehender Abbildung, aus sechs aufeinanderfolgenden Schritten.
Aufgabendefinition
In diesem Schritt findet eine Auseinandersetzung mit der Problemstellung statt. Anschliessend sollten aufgrund dessen klare Ziele und einleuchtende Fragestellungen formuliert werden (Coners & Matthies, 2015, S. 659).
Dokumentenselektion
Basierend auf den definierten Zielen im ersten Schritt werden relevante Dokumente auserlesen. Dabei bietet es sich an, ein sogenanntes Document Warehouse zur Unterstützung einzurichten. Anhand dessen können diverse Dokumententypen wie E-Mails, Formulare oder Berichte zusammengeführt werden (Ule & Hinrichs, 2004, S. 217 zit. in Hippner & Rentzmann, 2006, S. 288).
Datenaufbereitung
Die unstrukturierten Daten werden einer Datenaufbereitung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen zu filtern und aus den Texten reine Wortlisten zu erstellen (Jo, 2019, S. 19).
Text Mining-Methoden
Nachstehend werden drei mögliche Verfahren erläutert, welche beim Text Mining zur Gewinnung neuer Erkenntnisse eingesetzt werden.
Textkategorisierung: Hierbei findet vorab eine manuelle Bestimmung von Kategorien statt. Anschliessend können neue Texte automatisch einer dieser vordefinierten Kategorien zugeordnet werden. Anhand dieses Verfahrens kann bei E-Mails beispielsweise eine Zugehörigkeit prognostiziert werden (Alpar, Alt, Bensberg & Weimann, 2019, S. 302; Walter, 2012, S. 700).
Clustering: Im Rahmen des Clusterings wird der Text ebenfalls in Gruppen unterteilt. Im Gegensatz zur Kategorisierung werden die Gruppen jedoch nicht durch den Anwender vorgegeben, sondern vom Computer automatisch erstellt (Bheme & Mucksch, 1999, S. 447).
Sentimentanalyse: Bei diesem Verfahren wird die Einstellung des Autors gegenüber dem behandelnden Thema eruiert. Dabei wird hauptsächlich zwischen positiver, neutraler und negativer Einstellung unterschieden. Mithilfe dieser Technik kann beispielsweise untersucht werden, ob der Aktienkurs mit veröffentlichten Meinungen korreliert (Alpar et al., 2019, S. 302-303).
Evaluierung & Interpretation
Die qualitativen Ergebnisse werden interpretiert sowie auf Relevanz und Plausibilität bewertet. Bezugnehmend auf die gesetzten Ziele aus dem ersten Schritt, werden die Erkenntnisse adressatengerecht visualisiert. Es gibt verschiedene Möglichkeiten, um Worthäufigkeiten, Strukturen, Trends und Beziehungsmuster darzustellen. Zum Beispiel eignen sich Word Clouds zur Abbildung von Worthäufigkeiten (Coners & Matthies, 2015, S. 660). Ein Beipsiel einer Word Cloud ist in Abbildung 2 ersichtlich.
Anwendung
Die erhaltenen Ergebnisse aus dem Schritt Evaluierung & Interpretation können für fallspezifische Entscheidungsfindungen des Managements eingesetzt werden. Zudem dienen sie der Informationsversorgung im operativen Betrieb (Coners & Matthies, 2015, S. 660).
Stärken und Schwächen des Text Minings
Text Mining bringt folgende Stärken und Schwächen mit sich:
Stärken |
|
Schwächen |
|
Bezug zum Controlling
Im Finanzcontrolling wird Text Mining weniger angewendet, da dafür strukturierte Daten wie finanzielle Kennzahlen zur Verfügung stehen und somit ein klassischer Data Mining-Prozess durchgeführt werden kann. Kritische Informationen zu Kundenmeinungen oder zur Situation der Konkurrenz finden sich allerdings oft in unstrukturierten Daten (Beckh & Meier, 2000, S. 167). So empfiehlt es sich, Text Mining Verfahren im Bereich des funktionalen Controllings anzuwenden. In nachfolgendem Abschnitt wird daher erläutert, wie Text Mining im Bereich des Beschwerdemanagements zur Anwendung kommen kann.
Unternehmen erhalten täglich zahlreiche Briefe und E-Mails. Es kann daher vorkommen, dass Kunden erst verspätet Antworten erhalten oder Rechnungen zu spät bezahlt werden. Text Mining kann zur Optimierung des Beschwerdemanagements sowie von Zahlungsprozessen eingesetzt werden. Dafür möchte der Controller die eingegangenen Dokumente wie Briefe oder E-Mails automatisch in Zahlungsaufforderungen und Beschwerden unterteilt haben. Aufgrund von Erfahrungswerten wird hierfür eine Aufstellung mit Wörtern aufgesetzt, welche für die beiden Kategorien typisch sind. So werden beispielsweise Aufforderung, Mahnung sowie Verzugszins für die Kategorie Zahlungsaufforderungen definiert (Möhring, Schmidt, Härting & Heitmann, 2014 ,S. 237 – 238). Wörter wie unzufrieden, enttäuscht oder Rückerstattung werden hingegen der Kategorie Beschwerden zugeteilt. Ziel dabei ist es, die verantwortlichen Personen schneller mit relevanten Dokumenten und Informationen zu beliefern. Dadurch ergeben sich gleich zwei positive Effekte. Zum Einen erhält der Kundendienst früher Reklamationen und kann entsprechend schneller reagieren, zum Anderen können die Rechnungen von der Buchhaltung rechtzeitig bezahlt werden. Auf diese Weise entstehen keine weiteren Verzögerungen.
Eine weitere Einsatzmöglichkeit des Text Minings besteht im Bereich von Social Media. Eine manuelle Überwachung von unstrukturierten Daten wie Posts und Tweets würde enorme Ressourcen in Anspruch nehmen. Mittels Text Mining können diese Daten durch den Computer automatisch überwacht werden. Hierdurch werden besonders negative Rückmeldungen von Kunden frühzeitig erkannt und Shitstorms verhindert (Miner et al., 2012, S. 343 zit. in Möhring et. al, 2014, S. 240 – 242).
Weitere Einsatzmöglichkeiten des Text Minings ergeben sich beispielsweise in der Markt- und Konkurrenzanalyse beim Verfolgen von öffentlichen Debatten der Mitbewerber (Gentsch, 2003 zit. in Coners & Matthies, 2015, S. 661). Zudem kann das Verfahren im F&E-Controlling eingesetzt werden um Technologieentwicklungen frühzeitig zu erkennen (Steinecke & Straub, 2010, S. 93 zit. in Coners & Matthies, 2015, S. 661).
Abschliessend kann festgehalten werden, dass Text Mining die Führungssysteme dabei unterstützt, qualitative und somit nicht-finanzielle Kennzahlen auszuwerten und die quantitativen resp. finanziellen Kennzahlen zu ergänzen.
Software
Auf dem Markt existieren zahlreiche Anwendungsprogramme für Text Mining. Nachstehend findet sich eine nicht abschliessende Tabelle, welche kostenfreie sowie kostenpflichtige Anbieter enthält:
Anbieter | Webseite | Lösung |
---|---|---|
Rapid Miner, Boston, USA | www.rapidminer.com | Rapid Miner |
International Business Machines (IBM), Armonk, USA | www.ibm.com | SPSS Modeler Text Analytics |
SAS, Cary, USA | www.sas.com | SAS Text Miner |
MonkeyLearn, San Francisco, USA | www.monkeylearn.com | MonkeyLearn |
QSR International, Melbourne, USA | www.gsrinternational.com | NVivo |
Lern- und Praxismaterialien
Aufgaben |
---|
Quellen
Literaturverzeichnis
- Alpar, P., Alt, R., Bensberg, F. & Weimann, P. (2019). Anwendungsorientierte Wirtschaftsinformatik (9. Aufl.). Wiesbaden: Springer Viewer.
- Anandarajan, M., Hill, C. & Nolan, T. (2019). Practical Text Analytics. Cham: Springer.
- Beckh, M. & Meier, M. (2000). Text Mining. Wirtschaftsinformatik, 42 (2), S. 165-167.
- Coners, A., & Matthies, B. (2015). Textanalyse im Controlling. Vahlen: München
- Gentsch, P. (2003). Data Mining im Controlling - Methoden, Anwendungsfelder und Entwicklungsperspektiven. Zeitschrift für Controlling & Management, 47 (2), S. 14 – 23.
- Hippner, H. & Rentzmann, R. (2006). Text Mining. Informatik-Spektrum, 29 (4), S. 287-290.
- Jo, T. (2019). Text Mining. Concepts, Implementation, and Big Data Challenge. Cham: Springer.
- Kaiser, C. (2009). Opinion Mining im Web 2.0 - Konzept und Fallbeispiel. HMD Praxis der Wirtschaftsinformatik, 46 (4), S. 90-99.
- Langmann, C. (2019). Digitalisierung im Controlling. Wiesbaden: Springer
- Manderscheid, K. (2019). Text Mining. In N. Baur, & J. Blasius, Handbuch Methoden der empirischen Sozialforschung (S. 1103-1116). Wiesbaden: Springer.
- Möhring, M., Schmidt, R., Härting, R.-C. & Heitmann, J. (2014). Neue Potenziale im Controlling durch die Verarbeitung von unstrukturierten Daten in Marketing und Vertrieb. In A. Klein (Hrsg.). Marketing- und Vertriebscontrolling (S. 229-246). München: Haufe-Lexware.
- Trevisan-Groddek, B., & Jakobs, E.-M. (2019). Linguistisches Text Mining - Neue Wege für die Marktforschung (S. 1-322). In Keller, B., Klein, H.-W., & Tuschl, St., Zukunft der Marktforschung. Wiesbaden: Springer Gabler.
- Walter, T. (2012). Controlling von Kundenmeinungen durch Text Mining. Controlling: 24 (12), S. 698-703.
Weiterführende Literatur
- Klass, E. (2019). Data Mining und Text Mining: kleine Unterschiede, grosse Wirkung. Wirtschaftsinformatik & Management, S. 267-268.
- Thaler, T., Fettke, P. & Loos, P. (2013). Process Mining – Fallstudie leginda.de. HMD Praxis der Wirtschaftsinformatik, 50 (5), S. 56-65.
- Willmes, Ch., Prof. Dr. Hess, T., & Gschmack, S. (2015). Die Bedeutung von Big Data im Controlling. Controlling, S. 256-262.
Autoren
Jana Kupper, Samuel Markwalder, Viviane Müller, Rina Preni