Text Mining

Aus Controlling-Wiki

Aufgrund der Digitalisierung hat der Bestand an Datenmengen, besser bekannt als Big Data, enorm zugenommen. Dazu zählen auch unstrukturierte Datensätze wie zum Beispiel Lageberichte, Internetforen und Kundennachrichten. Text Mining bietet aufgrund von Algorithmen verschiedene Verfahren, um diese Daten zu analysieren (Kaiser, 2009, S. 91). Das Ziel dabei ist, einen Überblick über die Inhalte grosser Dokumentensammlungen zu erhalten und verborgenen Gemeinsamkeiten zu identifizieren. Weiter erleichtert die Strukturierung eine schnellere Informationsaufnahme (Beckh & Meier, 2000, S. 165). Die grösste Herausforderung von Text Mining besteht darin, dass die in Textform vorhandenen Information systematisch in einer Analyse ausgewertet werden können (Hippner & Rentzmann, 2006). Im Bereich des Controllings tritt Text Mining zum Beispiel bei Vertriebs-, Innovations- und Marketingprozessen sowie in der Markt- und Konkurrenzanalyse auf (Coners & Matthies, 2015, S. 661). So können beispielsweise durch eine genaue Analyse der Datenmengen präzisere Absatz-Forecasts erstellt werden. Ebenfalls können aktuelle Markttrends früher erkannt und dadurch in die strategische Planung eines Unternehmens aufgenommen werden (Langmann, 2019, S. 5-6).


Definition von Text Mining

Text Mining ist eine spezielle Art von Data Mining. Dabei wird Wissen aus unstrukturierten Daten gewonnen (Kaiser, 2009, S. 91). Unstrukturierte Daten sind sämtliche Arten von Texten, da diese keinem einheitlichen Format entsprechen und somit schwieriger zu analysieren sind. Mithilfe des Text Minings sollen nicht nur Tatsachen erlangt, sondern auch neues Wissen generiert werden (Coners & Matthies, 2015, S. 658). Durch die Strukturierung werden nicht direkt ersichtliche Ähnlichkeiten aufgedeckt sowie Gemeinsamkeiten identifiziert. Ausserdem wird eine Inhaltsübersicht über eine grosse Menge an Dokumenten ermöglicht und die rasche Informationsaufnahme vereinfacht (Meier & Beckh, 2000, S. 165). Dies geschieht durch sprachwissenschaftliche und statistische Vorgehensweisen sowie unter Einsatz von Analysealgorithmen. Die Vorgehensweisen werden in den Kapiteln Datenaufbereitung und Text Mining-Methoden näher erläutert.

Abgrenzung zu Data Mining

Der Unterschied zu Data Mining liegt darin, dass Informationen aus unstrukturierten Daten und dadurch vorwiegend aus externe Informationsquellen miteinbezogen wird (Gentsch, 2003, S. 17). Infolgedessen besitzt Data Mining eine andere Datenbasis als Text Mining, da Data Mining sich auf die Analyse von strukturierten Daten konzentriert. Text Mining hingegen befasst sich mit eingeschlossenen Zusammenhängen wie Grammatik und ausdrücklichen Zusammenhängen wie Überschriften und Absätzen (Hippner & Rentzmann, 2006, S. 287).

Prozess

Die Herausforderung des Text Minings liegt darin, die in einem Text dargelegten Informationen für die Analyse durch einen Computer zugänglich zu machen. Der Prozess folgt einem ähnlichen Ablauf wie ein klassischer Data-Mining-Prozess. Allerdings ist durch die fehlende Struktur der Daten eine zusätzliche sprachliche Datenaufbereitung notwendig (Rajman & Vesely, 2004, S. 7 zit. in Hippner & Rentzmann, 2006, S. 287-288). Der Prozess besteht, gemäss nachstehender Abbildung, aus sechs aufeinanderfolgenden Schritten.

Aufgabendefinition

In diesem Schritt findet eine Auseinandersetzung mit der Problemstellung statt. Anschliessend sollten aufgrund dessen klare Ziele und einleuchtende Fragestellungen formuliert werden (Coners & Matthies, 2015, S. 659).

Dokumentenselektion

Basierend auf den definierten Zielen im ersten Schritt, werden relevante Dokumente auserlesen. Dabei bietet es sich an, ein sogenanntes Document Warehouse zur Unterstützung einzurichten. Anhand dessen können diverse Dokumententypen wie E-Mails, Formulare oder Berichte zusammengeführt werden (Ule & Hinrichs, 2004, S. 217 zit. in Hippner & Rentzmann, 2006, S. 288).

Datenaufbereitung

Die unstrukturierten Daten werden einer Datenaufbereitung durch den Computer unterzogen. Ziel dabei ist es, die wesentlichen Informationen zu filtern und aus den Texten reine Wortlisten zu erstellen (Jo, 2019, S. 19).

Text Mining-Methoden

Nachstehend werden drei mögliche Verfahren erläutert, welche beim Text Mining zur Gewinnung neuer Erkenntnisse eingesetzt werden.

Textkategorisierung Hierbei findet vorab eine manuelle Bestimmung von Kategorien statt. Anschliessend können neue Texte automatisch einer dieser vordefinierten Kategorien zugeordnet werden. Anhand dieses Verfahrens kann bei E-Mails beispielsweise eine Zugehörigkeit prognostiziert werden (Alpar, Alt, Bensberg & Weimann, 2019, S. 302; Walter, 2012, S. 700).

Clustering Im Rahmen des Clusterings wird der Text ebenfalls in Gruppen unterteilt. Im Gegensatz zur Kategorisierung werden die Gruppen jedoch nicht durch den Anwender vorgegeben, sondern vom Computer automatisch selektiert (Bheme & Mucksch, 1999, S. 447).

Sentimentanalyse Bei diesem Verfahren wird die Einstellung des Autors gegenüber dem behandelnden Thema eruiert. Dabei wird hauptsächlich zwischen positiver, neutraler und negativer Einstellung unterschieden. Mithilfe dieser Technik kann beispielsweise untersucht werden, ob der Aktienkurs mit veröffentlichten Meinungen korreliert (Alpar et al., 2019, S. 302-303).

Evaluierung & Interpretation

Die qualitativen Ergebnisse werden interpretiert sowie auf Relevanz und Plausibilität bewertet. Bezugnehmend auf die gesetzten Ziele aus dem ersten Schritt, werden die Erkenntnisse adressatengerecht visualisiert. Es gibt verschiedene Möglichkeiten, um Worthäufigkeiten, Strukturen, Trends und Beziehungsmuster darzustellen. Zum Beispiel eignen sich Word Clouds zur Abbildung von Worthäufigkeiten (Coners & Matthies, 2015, S. 660).

Anwendung

Die erhaltenen Ergebnisse aus dem Schritt 5 können für fallspezifische Entscheidungsfindungen des Managements eingesetzt werden. Zudem dienen sie der Informationsversorgung im operativen Betrieb (Coners & Matthies, 2015, S. 660).

Stärken und Schwächen des Text Minings

Text Mining bringt folgende Stärken und Schwächen mit sich:

Stärken
  • Für die automatisierte Textanalyse ist im Vergleich zur manuellen Analyse weniger Zeit und Personal notwendig. Dadurch findet eine Effizienz- und Produktivitätssteigerung statt (Gentsch, 2003, S. 21).
  • Die eingesetzten Systeme sind unvoreingenommen und schliessen nicht bereits zu Beginn bestimmte Daten aus. Dadurch trägt das Text Mining zu den Predictive Analytics bei und steigert die Wahrscheinlichkeit, neue Trends frühzeitig zu erkennen (Gentsch, 2003, S. 21).
  • Etwa 80 % der vorhandenen Daten werden als unstrukturiert erachtet und können anhand von anderen Technologien wie Data Mining nicht analysiert werden. Text Mining ist hingegen auf solche unstrukturierten Daten ausgerichtet und kann daraus neue Erkenntnisse schaffen (Hippner & Rentzmann, 2006, S. 289).
  • Es liegen im Allgemeinen zu viele Daten vor und es herrscht eine Informationsflut. Text Mining hilft, diese Vielzahl an Informationen zu strukturieren und auf das Wesentliche zu reduzieren (Anandarajan et al., 2019, S. 8).
Schwächen
  • Text Mining dient der Strukturierung und Visualisierung von Textmaterialien. Um jedoch genauere Zusammenhänge zwischen den gewonnenen Erkenntnissen erläutern zu können, müssen in vielen Fällen andere qualitative Daten beigezogen werden (Manderscheid, 2019, S. 1114).
  • Die Systeme sind teilweise noch nicht vollumfänglich ausgebaut (Manderscheid, 2019, S.1114).
  • Controllerinnen und Controller besitzen oft keinen Zugang zu unstrukturierten Daten (Gadatsch, 2013, S. 23ff zit. in Coners & Matthies, 2015, S. 663-664).
  • Die Analyse ist vom qualitativen Text abhängig. Wenn dieser nicht vertrauenswürdig erscheint, wird das Ergebnis nicht glaubwürdig oder falsch ausfallen (Felden, 2006 zit. in Coners & Matthies, 2015, S. 663-664).

Bezug zum Controlling

Im Finanzcontrolling wird Text Mining weniger angewendet, da dafür strukturierte Daten wie finanzielle Kennzahlen zur Verfügung stehen und somit ein klassischer Data-Mining-Prozess durchgeführt werden kann. Kritische Informationen zu Kundenmeinungen oder zur Situation der Konkurrenz finden sich allerdings oft in unstrukturierten Daten (Beckh & Meier, 2000, S. 167). So empfiehlt es sich, Text Mining Verfahren im Bereich des funktionalen Controllings anzuwenden. In nachfolgendem Abschnitt wird daher erläutert, wie Text Mining im Bereich des Beschwerdemanagements zur Anwendung kommen kann.

Unternehmen erhalten täglich zahlreiche Briefe und E-Mails. Es kann daher vorkommen, dass Kunden erst verspätet Antworten erhalten oder Rechnungen zu spät bezahlt werden. Text Mining kann zur Optimierung des Beschwerdemanagements sowie von Zahlungsprozessen eingesetzt werden. Dafür möchte der Controller die eingegangenen Dokumente wie Briefe oder E-Mails automatisch in Zahlungsaufforderungen und Beschwerden unterteilt haben. Aufgrund von Erfahrungswerten wird hierfür eine Aufstellung mit Wörtern aufgesetzt, welche für die beiden Kategorien typisch sind. So werden beispielsweise Aufforderung, Mahnung sowie Verzugszins für die Kategorie Zahlungsaufforderungen definiert (Möhring, Schmidt, Härting & Heitmann, 2014 ,S. 237 – 238). Wörter wie unzufrieden, enttäuscht oder Rückerstattung werden hingegen der Kategorie Beschwerden zugeteilt. Ziel dabei ist es, die verantwortlichen Personen schneller mit relevanten Dokumenten und Informationen zu beliefern. Dadurch ergeben sich gleich zwei positive Effekte. Zum Einen erhält der Kundendienst früher Reklamationen und kann entsprechend schneller reagieren, zum Anderen können die Rechnungen von der Buchhaltung rechtzeitig bezahlt werden. Auf diese Weise entstehen keine weiteren Verzugszinsen.

Eine weitere Einsatzmöglichkeit des Text Minings besteht im Bereich von Social Media. Eine manuelle Überwachung von unstrukturierten Daten wie Posts und Tweets würde enorme Ressourcen in Anspruch nehmen. Mittels Text Mining können diese Daten durch den Computer automatisch überwacht werden. Hierdurch werden besonders negative Rückmeldungen von Kunden frühzeitig erkannt und Shitstorms verhindert (Miner et al., 2012, S. 343 zit. in Möhring et. al, 2014, S. 240 – 242).

Weitere Einsatzmöglichkeiten des Text Minings ergeben sich beispielsweise in der Markt- und Konkurrenzanalyse beim Verfolgen von öffentlichen Debatten der Mitbewerber (Gentsch, 2003 zit. in Coners & Matthies, 2015, S. 661). Zudem kann das Verfahren im F&E-Controlling eingesetzt werden um Technologieentwicklungen frühzeitig zu erkennen (Steinecke & Straub, 2010, S. 93 zit. in Coners & Matthies, 2015, S. 661).

Abschliessend kann festgehalten werden, dass Text Mining die Führungssysteme dabei unterstützt, qualitative und somit nicht-finanzielle Kennzahlen auszuwerten und die quantitativen resp. finanziellen Kennzahlen zu ergänzen.

Software

Auf dem Markt existieren zahlreiche Anwendungsprogramme für Text Mining. Nachstehend findet sich eine nicht abschliessende Tabelle welche kostenfreie sowie kostenpflichtige Anbieter enthält:

Anbieter Webseite Lösung
Rapid Miner, Boston, USA www.rapidminer.com Rapid Miner
International Business Machines (IBM), Armonk, USA www.ibm.com SPSS Modeler Text Analytics
SAS, Cary, USA www.sas.com SAS Text Miner
MonkeyLearn, San Francisco, USA www.monkeylearn.com MonkeyLearn
QSR International, Melbourne, USA www.gsrinternational.com NVivo

Lern- und Praxismaterialien

Aufgaben

Quellen

Literaturverzeichnis

  • Möhring, M., Schmidt, R., Härting, R.-C. & Heitmann, J. (2014). Neue Potenziale im Controlling durch die Verarbeitung von unstrukturierten Daten in Marketing und Vertrieb. In A. Klein (Hrsg.). Marketing- und Vertriebscontrolling (S. 229-246). München: Haufe-Lexware.

Weiterführende Literatur