Data Mining

Aus Controlling-Wiki
Geprüft: Positiv beurteilt

Im Zusammenhang mit Big Data und Business Analytics wird auch immer wieder der Begriff Data Mining genannt. Data Mining beschreibt dabei einen Prozess zum Erkennen von Zusammenhängen in grossen Datenmengen (Schön, 2018, S. 380). Dies eröffnet gerade für das Controlling neue Möglichkeiten, um die Vielzahl von erhobenen Daten auswerten und interpretieren zu können (Kaminski, 2003, S. 573).

Begriffsdefinition

Data Mining (wörtlich Daten abbauen) bezeichnet den automatischen Prozess in einer grossen Datenbasis (sogenannte Big Data) sinnvolle Zusammenhänge zu erkennen (Bibliographisches Institut GmbH, online). Dabei geht es nicht um die Datengewinnung wie der Name impliziert, sondern um die Erkennung von Trends und Muster in bereits gewonnen Daten. Die Daten werden dafür mithilfe von mathematischen und statistischen Methoden ausgewertet. Data Mining ist zudem der Oberbegriff für weitere Auswertungsarten, wobei es sich vor allem auf strukturierte Daten bezieht. Im Gegensatz dazu stehen das Text Mining für unstrukturierte Daten, das Multimedia Mining für Video- und Audiodateien und das Web Mining für webbasierte Informationen (Schön, 2018, S. 380-387).

Oft wird Data Mining mit dem Begriff Knowledge Discovery in Databases (KDD) gleichgesetzt und das Hauptziel ist das Erkennen von Mustern in den Datenbeständen. Im Gegensatz zu anderen Verfahren stehen am Anfang der Analyse grundsätzlich nur die Daten und keine zu beweisenden Hypothesen. Erst aus der Auswertung der Daten werden die Hypothesen generiert (Müller & Lenz, 2013, S. 75). Verwendet wird das Verfahren jedoch auch umgekehrt und es können die nachfolgenden Unterarten unterschieden werden:

Deskriptives Data Mining: Das Ziel des deskriptiven Data Mining ist es durch die Erkennung von Datenmustern normative Aussagen zu treffen. Daraus können anschliessend allgemeingültige Ergebnisse formuliert werden.

Prädiktives Data Mining: Beim prädiktiven Data Mining werden aus den Daten Vorhersagen und Prognosen zu einem gewünschten Zielwert erarbeitet.

Präskriptives Data Mining: Hier gilt es zuerst eine Hypothese zu bilden und diese anschliessend durch Experimente und empirische Untersuchungen zu belegen. Hiernach sollen Massnahmen aufgrund von verschiedenen Erwartungsszenarien abgeleitet werden. Dabei kommt der Ansatz des Predictive Analytics zum Einsatz, welcher nicht klar von Data Mining abzutrennen ist, beziehungsweise einen Teilbereich darstellt (Schön, 2018, S. 381).

Prozess

Abb. 1: Data Mining Prozess (Müller & Lenz, 2013, S. 77)

Gemäss der Abbildung 1 wird der Data Mining Prozess in 5 Schritte eingeteilt. Bei der Selektion wird entschieden, welche Daten ausgewertet werden sollen. Die Vorverarbeitung überprüft die Datenqualität und überarbeitet diese falls notwendig. Beim dritten Schritt, der Transformation werden die Daten in eine geeignete Form für die Auswertung transformiert. Beim Schritt Data Mining erfolgt die Anwendung des Algorithmus. Als Ergebnis resultiert bei diesem Schritt ein Modell basierend auf den Daten. Als letzter Schritt müssen die Daten interpretiert und evaluiert werden (Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 37–54, zit. in Müller & Lenz, 2013, S.76-77).

Methoden

In der Theorie gibt es eine Vielzahl verschiedener Methoden, welche beim Data Mining zur Analyse der Daten angewendet werden. Nachfolgend werden drei Methoden, welche im Controlling relevant sind kurz erläutert.

Clusterbildung

Bei der Bildung eines Clusters werden die verschiedenen Elemente anhand von Ähnlichkeiten einer Gruppe zugeteilt. Dabei erfolgt die Gruppierung nicht zu einem bestimmten Zweck und wird oft als Ausgangspunkt für weitere Analysen benutzt. So kann als Beispiel analysiert werden, welche Kundengruppen auf dem Markt bestehen (Provost & Fawcett, 2013, S. 21).

Regressionsanalyse

Mit der Regressionsanalyse wird versucht, Abhängigkeiten zwischen verschiedenen Faktoren zu finden. Die Abhängigkeit dabei bezieht sich auf eine abhängige stetige Variable und einer oder mehreren unabhängigen Variablen. Angewendet wird die Regressionsanalyse beispielsweise, um Zusammenhänge zwischen dem Alter und dem Konsum eines Produktes herauszufinden (Schön, 2018, S. 383).

Abweichungsentdeckung

Die Abweichungsentdeckung oder auch Ausreisseranalyse genannt, analysiert Datensätze, die sich stark von den restlichen Daten abheben. Ein Beispiel zur Anwendung ist die Untersuchung von Produktivitätsschwankungen in einem festen Zeitraum (Schön, 2018, S. 383).

Anwendung

Data Mining kann in ausgewählten Bereichen des Controllings zur Unterstützung und Verbesserung dienen. Neben den Möglichkeiten im Vertriebs-Controlling bietet es auch Unterstützung bei Konzepten der Balanced Scorecard beziehungsweise der Web Scorecard. Unter anderem können Data Mining-Methoden bei der Zielfindung oder der Identifizierung von Maßnahmen für die Zielerreichung hilfreich sein. Ebenfalls können Ergebnisse von Data Mining-Analysen dazu verwendet werden, die Effektivität einzelner Balanced Scorecard-Initiativen zu bewerten (Gentsch, 2003, S. 21).

Ein weiteres Teilgebiet stellt Data Mining für Predictive Analytics dar. Dieses wiederum befasst sich, damit was in der Zukunft passieren kann. Anders gesagt, stellt man sich die Frage, wie man Ereignisse vorhersagen kann (Egel & Keimer, S. 21-22). Die Predictive Analytics-Methoden können unter anderem mithilfe von Microsoft Excel angewendet werden (Langmann, 2018, S. 38). Weiter können Prognosemodelle aus den Trends erarbeitet werden, welche die Unternehmens- und Finanzplanung unterstützen (Schön, 2018, S. 268).

Das Aufdecken von Ursache-Wirkungs-Beziehungen ist eine weitere Anwendung von Data Mining (Chamoni & Gluchowski, 2017, S. 11). In eine ähnliche Richtung geht der Einsatz von Data Mining in der Ursachenforschung. Hier möchte man mit der automatischen Analyse-Komponente gezielt Fragestellungen beantworten. Zu erwähnen ist, dass eine solche Analyse nicht nur das Unternehmen selbst, sondern auch Sachverhalte externer Natur betrachten soll (Gleich & Sauter, 2008, S. 370-371.).

Ein Verfahren, das klassischerweise nicht zu einem der Data Mining-Verfahren zählt, ist Statistical Process Control (auch Kontrollkarte). Dabei handelt es sich um allgemeine statische Verfahren zur Überwachung und dauerhaften Überarbeitung von Produktionsprozessen (Langmann, 2018, S. 40).

Im Business Intelligence-Kontext stellt Data Mining schon seit langem eine fixe Anwendung dar (Ereth & Kemper, 2016, S. 459-460).

Der Data Scientist ist nicht mit dem Berufsbild des Controllers zu verwechseln (Steiner & Welker, 2016, S. 70). Er sollte einen konkreten Aufgabenbereich bzw. eine bestimmte Rolle in einem Unternehmen übernehmen (Schuhmann, Zschech, & Hilbert, 2016, S. 462-463).

Kritische Würdigung

Um eine Einführung des Data Minings im Controlling zu garantieren, müssen auch die Einschränkungen und „Fallen“ kritisch unter Augenschein genommen werden. Das Data Mining stösst vor allem bei der klassischen Statistik auf Kritik. Einerseits wird der hypothesenfreie Ansatz bemängelt und andererseits stellt Data Mining als Ganzes einen komplementären Ansatz im Vergleich zur Statistik dar. Das Data Mining muss etwas relativ gesehen werden. Auch wenn Datenmodelle statistisch korrekt sind, können sie inhaltlich zu falschen Rückschlüssen führen (Gentsch, 2003, S. 20).

Das Potenzial von Data Mining wurde schon lange von einigen namhaften Unternehmen erkannt, die weltweit tätig sind. So ist das Data Mining für den Social Media-Gigant Facebook von zentraler wirtschaftlicher Bedeutung. Trotz der dominanten Position von Google hat sich Facebook als einer der Hauptakteure in diesem Bereich etabliert (Gerlitz & Helmond, 2012, S. 1357). Der in 2018 bekannt gewordene Facebook-Cambridge-Skandal warf einige Fragen bezüglich des Datenschutzes von Facebook-Nutzern auf (The Guardian, online). Dieses Beispiel von Facebook zeigt, dass mit Data Mining vorsichtig umzugehen ist und alle möglichen Risiken abgeklärt werden müssen, bevor die Daten weiterverarbeitet werden.

Lern- und Praxismaterialien

Aufgaben

Quellen

Literaturverzeichnis

  • Egle, U. & Keimer, I. (2017). Digitaler Wandel im Controlling. Zug: Verlag IFZ - Hochschule Luzern.
  • Ereth, J. & Kemper, H-G. (2016). Business Analytics und Business Intelligence. Controlling, 2016(8-9), 458-464.
  • Gerlitz, C. & Helmond, A. (2013). The like economy: Social buttons. new media & society. 15 (8). 1348-1365.
  • Gleich, R. & Sauter, R. (2008). Operational Excellence: Innovative Ansätze und Best Practices in der produzierenden Industrie. München: Rudolf Haufe Verlag GmbH & Co. KG.
  • Kaminski, M. (2003). Visuelles Data Mining im Controlling. Controlling, 15 (10), 573–574.
  • Langmann, C. (2018). Predictive Analytics für Controller - einfache Anwendungen mit MS Excel. Controller Magazin, 2018 (4), 37-41.
  • Provost, F. & Fawcett, T. (2013). Data Science for Business – What You Need to Know About Data Mining and Data-Analytic Thinking (1. Aufl.). Sebastopol: O’Reilly Media.
  • Schuhmann, C. Zschech, P. & Hilbert, A. (2016). Das aufstrebende Berufsbild des Data Scientist. HMD Praxis der Wirtschaftsinformatik, 53 (4), 453-466.

Weiterführende Literatur

  • Heimel, J. & Müller, M. (2019). Controlling 4.0. Wie veränderte Datenverfügbarkeit und Analysemöglichkeiten das Controlling erneuern. In M. Erner (Hrsg.). Management 4.0 – Unternehmensführung im digitalen Zeitalter (S. 389-430). Berlin, Heidelberg: Springer.

Autoren

Nicole Greter, Mirlind Halitaj, Nina Hofer, Stefanie Hut