Data Mining
Im Zusammenhang mit Big Data Big Data und Business Analytics wird auch immer wieder der Begriff Data Mining genannt. Data Mining beschreibt dabei einen Prozess zum Erkennen von Zusammenhängen in grossen Datenmengen (Schön, 2018, S. 380). Dies eröffnet gerade für das Controlling neue Möglichkeiten, um die Vielzahl von erhobenen Daten auswerten und interpretieren zu können (Kaminski, 2003, S. 573).
Begriffsdefinition
Data Mining (wörtlich Daten abbauen) bezeichnet den automatischen Prozess in einer grossen Datenbasis (sogenannte Big Data) sinnvolle Zusammenhänge zu erkennen (Bibliographisches Institut GmbH, online). Dabei geht es nicht um die Datengewinnung wie der Name impliziert, sondern um die Erkennung von Trends und Muster in bereits gewonnen Daten. Die Daten werden dafür mithilfe von mathematischen und statistischen Methoden ausgewertet. Data Mining ist weiter der Oberbegriff für weitere Auswertungsarten, wobei es sich vor allem auf strukturierte Daten bezieht. Im Gegensatz dazu stehen das Text Mining für unstrukturierte Daten, das Multimedia Mining für Video- und Audiodateien und das Web Mining für webbasierte Informationen (Schön, 2018, S. 380-387).
Oft wird Data Mining mit dem Begriff Knowledge Discovery in Databases (KDD) gleichgesetzt und das Hauptziel ist das Erkennen von Mustern in den Datenbeständen. Im Gegensatz zu anderen Verfahren stehen am Anfang der Analyse grundsätzlich nur die Daten und keine zu beweisenden Hypothesen. Erst aus der Auswertung der Daten werden die Hypothesen generiert (Müller & Lenz, 2013, S. 75). Verwendet wird das Verfahren jedoch auch umgekehrt und es können die nachfolgenden Unterarten unterschieden werden:
Deskriptives Data Mining
Das Ziel des deskriptiven Data Mining ist es durch die Erkennung von Datenmustern normative Aussagen zu treffen. Daraus können anschliessend allgemeingültige Ergebnisse formuliert werden.
Prädiktives Data Mining
Beim prädiktiven Data Mining werden aus den Daten Vorhersagen und Prognosen zu einem gewünschten Zielwert erarbeitet.
Präskriptives Data Mining
Hier gilt es zuerst eine Hypothese zu bilden und diese anschliessend durch Experimente und empirische Untersuchungen zu belegen. Hiernach sollen Massnahmen aufgrund von verschiedenen Erwartungsszenarien abgeleitet werden. Dabei kommt der Ansatz des Predictive Analytics zum Einsatz, welcher nicht klar von Data Mining abzutrennen ist, beziehungsweise ein Teilbereich darstellt (Schön, 2018, S. 381).
Prozess
Gemäss der Abbildung 1 wird der Data Mining Prozess in 5 Schritte eingeteilt. Bei der Selektion wird entschieden, welche Daten ausgewertet werden sollen. Bei der Vorverarbeitung wird die Datenqualität überprüft und falls notwendig überarbeitet. Beim dritten Schritt, der Transformation werden die Daten eine geeignete Form für die Auswertung transformiert. Beim Schritt Data Mining erfolgt die Anwendung des Algorithmus. Als Ergebnis resultiert bei diesem Schritt ein Modell basierend auf den Daten. Als letzter Schritt müssen die Daten interpretiert und evaluiert werden (Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 37–54, zit. in Müller & Lenz, 2013, S.76-77).
Methoden
In der Theorie gibt es eine Vielzahl verschiedener Methoden, welche beim Data Mining zur Analyse der Daten angewendet werden. Nachfolgend werden drei Methoden, welche im Controlling relevant sind kurz erläutert.
Clusterbildung
Bei der Bildung eines Clusters werden die verschiedenen Elemente anhand von Ähnlichkeiten einer Gruppe zugeteilt. Dabei erfolgt die Gruppierung nicht zu einem bestimmten Zweck und wird oft als Ausgangspunkt für weitere Analysen benutzt. So kann als Beispiel analysiert werden, welche Kundengruppen auf dem Markt bestehen (Provost & Fawcett, 2013, S. 21).
Regressionsanalyse
Bei dieser Methode wird versucht Abhängigkeiten zwischen verschiedenen Faktoren zu finden. Die Abhängigkeit dabei bezieht sich auf eine abhängige stetige Variable und einer oder mehreren unabhängigen Variablen, z. B. den Zusammenhang zwischen dem Alter und dem Konsum eines Produktes (Schön, 2018, S. 383).
Abweichungsentdeckung
Bei der Abweichungsentdeckung oder auch Ausreisseranalyse genannt, werden Datensätze analysiert, die sich stark von den restlichen Daten abheben. Ein Beispiel zur Anwendung ist die Untersuchung von Produktivitätsschwankungen in einem festen Zeitraum (Schön, 2018, S. 383).
Quelle
- Bibliographisches Institut GmbH (ohne Datum). Data-Mining. Abgerufen am 15.10.2019 von https://www.duden.de/rechtschreibung/Data_Mining
- Kaminski, M. (2003). Visuelles Data Mining im Controlling. Controlling, 15(10), 573–574.
- Müller, R. M., & Lenz, H.-J. (2013). Business Intelligence. Berlin: Springer Vieweg.
- Provost, F. & Fawcett, T. (2013). Data Science for Business – What You Need to Know About Data Mining and Data-Analytic Thinking (1. Aufl.). Sebastopol: O’Reilly Media.
- Schön, D. (2018). Planung und Reporting im BI-gestützten Controlling -Grundlagen, Business Intelligence, Mobile BI und Big-Data-Analytics (3. Aufl.). Wiesbaden: Springer Gabler.