Data Mining: Unterschied zwischen den Versionen

Aus Controlling-Wiki
Keine Bearbeitungszusammenfassung
Zeile 1: Zeile 1:
Im Zusammenhang mit Big Data [[Big Data|Big Data]] und [[Business Analytics|Business Analytics]] wird auch immer wieder der Begriff Data Mining genannt. Data Mining beschreibt dabei einen Prozess zum Erkennen von Zusammenhängen in grossen Datenmengen (Schön, 2018, S. 380). Dies eröffnet gerade für das Controlling neue Möglichkeiten, um die Vielzahl von erhobenen Daten auswerten und interpretieren zu können (Kaminski, 2003, S. 573).
Im Zusammenhang mit Big Data [[Big Data|Big Data]] und [[Business Analytics|Business Analytics]] wird auch immer wieder der Begriff Data Mining genannt. Data Mining beschreibt dabei einen Prozess zum Erkennen von Zusammenhängen in grossen Datenmengen (Schön, 2018, S. 380). Dies eröffnet gerade für das Controlling neue Möglichkeiten, um die Vielzahl von erhobenen Daten auswerten und interpretieren zu können (Kaminski, 2003, S. 573).
== Begriffsdefinition ==
Data Mining (wörtlich Daten abbauen) bezeichnet den automatischen Prozess in einer grossen Datenbasis (sogenannte [[Big Data|Big Data]]) sinnvolle Zusammenhänge zu erkennen (Bibliographisches Institut GmbH, online). Dabei geht es nicht um die Datengewinnung wie der Name impliziert, sondern um die Erkennung von Trends und Muster in bereits gewonnen Daten. Die Daten werden dafür mithilfe von mathematischen und statistischen Methoden ausgewertet. Data Mining ist weiter der Oberbegriff für weitere Auswertungsarten, wobei es sich vor allem auf strukturierte Daten bezieht. Im Gegensatz dazu stehen das [[Text Mining|Text Mining]] für unstrukturierte Daten, das Multimedia Mining für Video- und Audiodateien und das Web Mining für webbasierte Informationen (Schön, 2018, S. 380-387). 
Oft wird Data Mining mit dem Begriff Knowledge Discovery in Databases (KDD) gleichgesetzt und das Hauptziel ist das Erkennen von Mustern in den Datenbeständen. Im Gegensatz zu anderen Verfahren stehen am Anfang der Analyse grundsätzlich nur die Daten und keine zu beweisenden Hypothesen. Erst aus der Auswertung der Daten werden die Hypothesen generiert (Müller & Lenz, 2013, S. 75). Verwendet wird das Verfahren jedoch auch umgekehrt und es können die nachfolgenden Unterarten unterschieden werden:
=== Deskriptives Data Mining ===
Das Ziel des deskriptiven Data Mining ist es durch die Erkennung von Datenmustern normative Aussagen zu treffen. Daraus können anschliessend allgemeingültige Ergebnisse formuliert werden.
=== Prädiktives Data Mining ===
Beim prädiktiven Data Mining werden aus den Daten Vorhersagen und Prognosen zu einem gewünschten Zielwert erarbeitet.
=== Präskriptives Data Mining ===
Hier gilt es zuerst eine Hypothese zu bilden und diese anschliessend durch Experimente und empirische Untersuchungen zu belegen. Hiernach sollen Massnahmen aufgrund von verschiedenen Erwartungsszenarien abgeleitet werden. Dabei kommt der Ansatz des [[Predictive Analytics|Predictive Analytics]] zum Einsatz, welcher nicht klar von Data Mining abzutrennen ist, beziehungsweise ein Teilbereich darstellt (Schön, 2018, S. 381). 
== Prozess ==
[[Datei:Prozess Data-Mining.png|miniatur|450px|Abb. 1: Data Mining Prozess (Müller & Lenz, 2013, S. 77)]]Gemäss der Abbildung 1 wird der Data Mining Prozess in 5 Schritte eingeteilt. Bei der Selektion wird entschieden, welche Daten ausgewertet werden sollen. Bei der Vorverarbeitung wird die Datenqualität überprüft und falls notwendig überarbeitet. Beim dritten Schritt, der Transformation werden die Daten eine geeignete Form für die Auswertung transformiert. Beim Schritt Data Mining erfolgt die Anwendung des Algorithmus. Als Ergebnis resultiert bei diesem Schritt ein Modell basierend auf den Daten. Als letzter Schritt müssen die Daten interpretiert und evaluiert werden (Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 37–54, zit. in Müller & Lenz, 2013, S.76-77).
== Methoden ==
In der Theorie gibt es eine Vielzahl verschiedener Methoden, welche beim Data Mining zur Analyse der Daten angewendet werden. Nachfolgend werden drei Methoden, welche im Controlling relevant sind kurz erläutert. 
=== Clusterbildung ===
Bei der Bildung eines Clusters werden die verschiedenen Elemente anhand von Ähnlichkeiten einer Gruppe zugeteilt. Dabei erfolgt die Gruppierung nicht zu einem bestimmten Zweck und wird oft als Ausgangspunkt für weitere Analysen benutzt. So kann als Beispiel analysiert werden, welche Kundengruppen auf dem Markt bestehen (Provost & Fawcett, 2013, S. 21).
=== Regressionsanalyse ===
Bei dieser Methode wird versucht Abhängigkeiten zwischen verschiedenen Faktoren zu finden. Die Abhängigkeit dabei bezieht sich auf eine abhängige stetige Variable und einer oder mehreren unabhängigen Variablen, z. B. den Zusammenhang zwischen dem Alter und dem Konsum eines Produktes (Schön, 2018, S. 383).
=== Abweichungsentdeckung ===
Bei der Abweichungsentdeckung oder auch Ausreisseranalyse genannt, werden Datensätze analysiert, die sich stark von den restlichen Daten abheben. Ein Beispiel zur Anwendung ist die Untersuchung von Produktivitätsschwankungen in einem festen Zeitraum (Schön, 2018, S. 383).


== Quelle ==
== Quelle ==


* Bibliographisches Institut GmbH (ohne Datum). Data-Mining. Abgerufen am 15.10.2019 von [https://www.duden.de/rechtschreibung/Data_Mining]
* Bibliographisches Institut GmbH (ohne Datum). Data-Mining. Abgerufen am 15.10.2019 von https://www.duden.de/rechtschreibung/Data_Mining


* Kaminski, M. (2003). Visuelles Data Mining im Controlling. Controlling, 15(10), 573–574.
* Kaminski, M. (2003). Visuelles Data Mining im Controlling. Controlling, 15(10), 573–574.

Version vom 30. November 2019, 12:15 Uhr

Im Zusammenhang mit Big Data Big Data und Business Analytics wird auch immer wieder der Begriff Data Mining genannt. Data Mining beschreibt dabei einen Prozess zum Erkennen von Zusammenhängen in grossen Datenmengen (Schön, 2018, S. 380). Dies eröffnet gerade für das Controlling neue Möglichkeiten, um die Vielzahl von erhobenen Daten auswerten und interpretieren zu können (Kaminski, 2003, S. 573).

Begriffsdefinition

Data Mining (wörtlich Daten abbauen) bezeichnet den automatischen Prozess in einer grossen Datenbasis (sogenannte Big Data) sinnvolle Zusammenhänge zu erkennen (Bibliographisches Institut GmbH, online). Dabei geht es nicht um die Datengewinnung wie der Name impliziert, sondern um die Erkennung von Trends und Muster in bereits gewonnen Daten. Die Daten werden dafür mithilfe von mathematischen und statistischen Methoden ausgewertet. Data Mining ist weiter der Oberbegriff für weitere Auswertungsarten, wobei es sich vor allem auf strukturierte Daten bezieht. Im Gegensatz dazu stehen das Text Mining für unstrukturierte Daten, das Multimedia Mining für Video- und Audiodateien und das Web Mining für webbasierte Informationen (Schön, 2018, S. 380-387).

Oft wird Data Mining mit dem Begriff Knowledge Discovery in Databases (KDD) gleichgesetzt und das Hauptziel ist das Erkennen von Mustern in den Datenbeständen. Im Gegensatz zu anderen Verfahren stehen am Anfang der Analyse grundsätzlich nur die Daten und keine zu beweisenden Hypothesen. Erst aus der Auswertung der Daten werden die Hypothesen generiert (Müller & Lenz, 2013, S. 75). Verwendet wird das Verfahren jedoch auch umgekehrt und es können die nachfolgenden Unterarten unterschieden werden:

Deskriptives Data Mining

Das Ziel des deskriptiven Data Mining ist es durch die Erkennung von Datenmustern normative Aussagen zu treffen. Daraus können anschliessend allgemeingültige Ergebnisse formuliert werden.

Prädiktives Data Mining

Beim prädiktiven Data Mining werden aus den Daten Vorhersagen und Prognosen zu einem gewünschten Zielwert erarbeitet.

Präskriptives Data Mining

Hier gilt es zuerst eine Hypothese zu bilden und diese anschliessend durch Experimente und empirische Untersuchungen zu belegen. Hiernach sollen Massnahmen aufgrund von verschiedenen Erwartungsszenarien abgeleitet werden. Dabei kommt der Ansatz des Predictive Analytics zum Einsatz, welcher nicht klar von Data Mining abzutrennen ist, beziehungsweise ein Teilbereich darstellt (Schön, 2018, S. 381).

Prozess

Abb. 1: Data Mining Prozess (Müller & Lenz, 2013, S. 77)

Gemäss der Abbildung 1 wird der Data Mining Prozess in 5 Schritte eingeteilt. Bei der Selektion wird entschieden, welche Daten ausgewertet werden sollen. Bei der Vorverarbeitung wird die Datenqualität überprüft und falls notwendig überarbeitet. Beim dritten Schritt, der Transformation werden die Daten eine geeignete Form für die Auswertung transformiert. Beim Schritt Data Mining erfolgt die Anwendung des Algorithmus. Als Ergebnis resultiert bei diesem Schritt ein Modell basierend auf den Daten. Als letzter Schritt müssen die Daten interpretiert und evaluiert werden (Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 37–54, zit. in Müller & Lenz, 2013, S.76-77).

Methoden

In der Theorie gibt es eine Vielzahl verschiedener Methoden, welche beim Data Mining zur Analyse der Daten angewendet werden. Nachfolgend werden drei Methoden, welche im Controlling relevant sind kurz erläutert.

Clusterbildung

Bei der Bildung eines Clusters werden die verschiedenen Elemente anhand von Ähnlichkeiten einer Gruppe zugeteilt. Dabei erfolgt die Gruppierung nicht zu einem bestimmten Zweck und wird oft als Ausgangspunkt für weitere Analysen benutzt. So kann als Beispiel analysiert werden, welche Kundengruppen auf dem Markt bestehen (Provost & Fawcett, 2013, S. 21).

Regressionsanalyse

Bei dieser Methode wird versucht Abhängigkeiten zwischen verschiedenen Faktoren zu finden. Die Abhängigkeit dabei bezieht sich auf eine abhängige stetige Variable und einer oder mehreren unabhängigen Variablen, z. B. den Zusammenhang zwischen dem Alter und dem Konsum eines Produktes (Schön, 2018, S. 383).

Abweichungsentdeckung

Bei der Abweichungsentdeckung oder auch Ausreisseranalyse genannt, werden Datensätze analysiert, die sich stark von den restlichen Daten abheben. Ein Beispiel zur Anwendung ist die Untersuchung von Produktivitätsschwankungen in einem festen Zeitraum (Schön, 2018, S. 383).


Quelle

  • Kaminski, M. (2003). Visuelles Data Mining im Controlling. Controlling, 15(10), 573–574.
  • Provost, F. & Fawcett, T. (2013). Data Science for Business – What You Need to Know About Data Mining and Data-Analytic Thinking (1. Aufl.). Sebastopol: O’Reilly Media.