|
Was ist Data Mining und welchen Nutzen bietet es?
Der Erfolg eines Unternehmens hängt heute in zunehmendem Maße von der schnellen und fundierten
Entscheidungsfindung durch das Management ab. Hierzu werden umfassende Datenpools benötigt.
In den Unternehmen werden Daten, z. B. Marktkennzahlen, Konkurrenz- und Kundendaten, gesammelt und zentral
archiviert. Dies geschieht mit der Vermutung, dass sich in den wachsenden Datenbergen lohnende, bisher noch nicht entdeckte Gewinne verstecken könnten.
Das reine Sammeln von und der Zugriff auf Daten reicht jedoch nicht aus um konkrete Entscheidungen treffen zu können.
Die Daten sind lediglich Rohmaterial. Sie stammen aus internen Quellen (Produktinformationen, Absatz- und Umsatzdaten,
Kundendaten etc.) und externen (z. B. von Marktforschungsinstituten, Verbänden, aus Fachzeitschriften). Ein Nutzen aus
den vorhandenen Daten kann erst generiert werden, wenn diese so verknüpft werden, dass sie in Form von "Informationen"
und "Wissen" als Entscheidgrundlage genutzt werden können. Diesem Zwecke dienen die teilweise sehr verschiedenen Methoden des Data Mining?
Der Prozess des Entdeckens von bislang unbekanntem Wissen, Mustern und Zusammenhängen in Daten wird als Data
Mining bezeichnet. Data Mining wendet dazu spezielle Algorithmen an, um neues Wissen aus den Daten zu extrahieren.
Hierbei kommen einzeln oder kombiniert Methoden der Statistik, der explorativen Datenanalyse und der künstlichen
Intelligenz zum Einsatz. Wichtig ist dabei, dass Data-Mining-Systeme selbständig die vorhandenen Datenberge
durchsuchen. Die Daten müssen nicht mehr mühsam per Hand untersucht werden. Die Data-Mining-Technologien suchen systematisch einen Weg durch die Daten, um die verborgenen Erkenntnisse und Zusammenhänge
aufzuzeigen. Data Mining wird so zur automatisierten Schatzsuche im Datenbergwerk.
Im PS-Explore-Datenanalysesystem steht für diese Zwecke das umfassende Softwaremodul MiningTree zur Verfügung.
Beispiel 1: Eine neue Vertriebsstrategie soll bestimmt werden mit dem Ziel, den Aussendienst ertragsoptimiert zu steuern.
Dabei müssen die hergeleiteten Handlungsregeln für den Aussendienst leicht nachvollziehbar sein. Eine MiningTree- Analyse kommt zum Einsatz und liefert einen Ergebnisbaum, welcher Kunden mit hoher
Abschlusswahrscheinlichkeit von Kunden mit geringerer Abschlusswahrscheinlichkeit in verschiedenen Graduierungen unterscheidet.
Beispiel 2: Eine Versicherung nutzt die von MiningTree
gelieferte Segmentierung in Kundengruppen um individuelle Angebote unterbreiten zu können.
Beispiel 3: Eine Bank nutzt ein durch MiningTree gewonnenes Modell zur Klassifikation “kreditwürdiger” Kunden.
PS-Explore/MiningTree das Power Tool für Ihr Data Mining Projekt
MiningTree
ist das ideale Werkzeug, um schnell und einfach auch große Datenbestände zu durchforsten und in den Daten Zusammenhänge aufzufinden, unbekannte Trends zu entdecken und homogene Untergruppen, sog. Segmente,
zu identifizieren.
Durch die vollständige Verquickung von MiningTree
mit allen anderen datenanalytischen Funktionen und Verfahren des PS-Explore-Systems bietet Ihnen MiningTree bisher ungeahnte Möglichkeiten zur Analyse Ihrer Daten. Dabei ist MiningTree
extrem einfach zu bedienen - vom Start Ihrer Analyse bis zur professionellen Präsentation der Ergebnisse.
Die von MiningTree erstellten Baumdiagramme sind leicht zu interpretieren, weshalb sich
MiningTree auch für Nicht-Statistiker hervorragend eignet.
MiningTree kann in nahezu allen Bereichen problemlos eingesetzt werden. Hier einige Beispiele:
Wirtschaftsunternehmen
Marketing: Erkennen Sie die Marktsegmente mit dem höchsten Umsatzpotential!
Außendienststeuerung: Bei welchem Kundenprofil lohnt sich ein Außendienstbesuch?
Direct Mailing: Erkennen Sie, wer am wahrscheinlichsten auf eine Mailing-Aktion reagiert!
Standortcontrolling: Entdecken Sie die Faktoren, die über den Erfolg einer Filiale entscheidenden!
Credit Scoring: Bewerten Sie die Kreditwürdigkeit einzelner Kunden!
Qualitätssicherung: Welche Produktionsfaktoren beeinflussen die Güte eines Produktes?
Forschung
Medizin: Finden Sie Patienten, die am ehesten auf eine bestimmte Behandlung ansprechen!
Sozialforschung: Welche Maßnahmen erhöhen die Chancen einer Vermittlung bei Langzeitarbeitslosen?
Wahlforschung: Welche demografischen Merkmale bestimmen eine Parteipräferenz?
Marktforschung: Welche Zuschauergruppen bevorzugen eine bestimmte Fernsehserie?
Öffentliche Verwaltung
Wohnungswesen: Welche Einflüsse bestimmen den Kaufpreis von Immobilien?
Krankenhäuser: Welche Faktoren beeinflussen die Verweildauer von Patienten?
Umwelt: Welche Parameter bestimmen den Umweltzustand eines Gebietes?
Finanzen: Entdeckung verborgener Einsparpotentiale.
Mit MiningTree treffen Sie fundiertere Entscheidungen als bisher, denn kein anderes Werkzeug bietet so klare Aufschlüsselungen von Einflußfaktoren wie MiningTree´s
Entscheidungsbaumtechnik und die seit langem bewährte und voll in MiningTree integrierte multidimensionale Online-Analyse ( MOLAP).
MiningTree
führt die Auswahl der Variablen sowie die Zusammenfassung von Klassen eines Merkmals vollkommen
automatisch nach sicheren statistischen Kriterien durch. Dadurch erreichen Sie eine hohe Genauigkeit Ihrer Analyse ohne großen Zeitaufwand.
Durch die integrierte Drill-Down-Technik können Sie stets in jedem aufgefundenen Segment auf die Ebene des Einzelfalls
gehen und gezielt individuelle Datenkonstellationen betrachten. Farbdiagramme und Tabellen machen es dabei einfach, die gebildeten Segmente zu verstehen und zu bewerten.
Durch die Flexibilität von
MiningTree
erhöhen Sie Ihre Produktivität. Das integrierte Klassifikationsmodul erlaubt es Ihnen auf Basis eines errechneten Modells neue Fälle Segmenten zuzuordnen und “Was-wäre-wenn?”- Analysen durchzuführen.
Folgeanalysen können ganz einfach durchgeführt werden, da MiningTree die Zugehörigkeit zu einem Segment in Ihren jeweiligen Datenbestand fortschreibt und so spätere Auswertungen ermöglicht.
Sie können Daten aufgrund der gefunden Entscheidungsregeln eines Segments aus einer Datenbank selektieren, und so z.B. mit dem integrierten Textsystem ProWord
von PS-Explore eine Selektion unmittelbar für ein Direct Mailing benutzen.
Wenn Sie ein Modell erstellt haben, können Sie mit der integrierten PS-Explore-Grafik hochwertige Diagramme erstellen
und präsentationsfähige Listen und Kreuztabellen generieren.
Durch die vollständige Integration von MiningTree in das PS-Explore-Gesamtsystem erhalten Sie eine bislang unvorstellbare
Power der Datenanalyse und einen völlig neuen, effizienteren Weg, Ihre Daten zu analysieren und zu verstehen. Methodische Vorgehensweise von MiningTree
MiningTree untersucht die Variation eines abhängigen Merkmals (Außenkriterium) und prüft, wie dieses sich durch andere
Merkmale (Einflußgrößen) am besten erklären läßt. Zu diesem Zweck wird die Untersuchungsgesamtheit mittels der
Einflußgrößen dergestalt in einzelne Gruppen, sog. Segmente, aufgeteilt, dass sich die entstehenden Teilgruppen durch möglichst große Unterschiede im Außenkriterium auszeichnen.
Als Außenkriterium ist sowohl ein quantitatives als auch ein Alternativmerkmal möglich, also ein Merkmal, welches das
Vorliegen oder Nicht-Vorliegen einer bestimmten Eigenschaft bei den Einheiten der Untersuchungsgesamtheit festhält.
Die Vorgehensweise von MiningTree
besteht im wesentlichen in einer Dichotomisierung der Untersuchungseinheiten anhand der zur Verfügung stehenden Einflußgrößen im Sinne der Erzeugung möglichst großer Differenzierungen beim
Außenkriterium. Es ist ein Prozess der sukzessiven Zweiteilung. Quantitative Merkmale werden durch verschiedene
Verfahren an einem Punkt deren Werteskala gespalten. Bei qualitativen Merkmalen werden die verschiedenen Klassen,
sofern nicht schon zwei Klassen vorliegen, so auf zwei Klassen aufgeteilt, dass eine möglichst große Differenzierung
hinsichtlich des Außenkriteriums erreicht wird. Über die Einbeziehung von Merkmalen in ein Modell wird anhand von
Signifikanztests entschieden. Ebenso kann die Einbeziehung von einzelnen Klassen in eine Dichotomisierung per Signifikanztest gesteuert werden. Als Signifikanztest wird z.B. der chi²-Test benutzt.
Das Ergebnis der MiningTree-Analyse sind einerseits genau abgegrenzte Elementgruppen (Segmente), die sich durch
extrem hohe oder extrem niedrige Anteile des Außenkriteriums auszeichnen. Andererseits erhält man durch die sukzessive Segmentbildung Informationen darüber, durch welche Einflußgrößen Unterschiede in der
abhängigen Variable erklärt werden können.
Die von MiningTree vorgenommene Segmentationsanalyse besitzt einige entscheidende Vorteile gegenüber anderen
klassischen multivariaten Verfahren. MiningTree arbeitet nicht-parametrisch. Damit entfallen die sonst üblichen
Anforderungen an die Merkmale; wie etwa Normalverteiltheit. Auch ist keine funktionale Spezifikation des Modells
erforderlich. MiningTree ermöglicht die gleichzeitige Hineinnahme von qualitativen und quantitativen Variablen in ein Modell.
Das Verfahren ist außerdem robust gegen den Einfluß von Ausreißern. Anders als parametrische Modelle, die nur die
Aufdeckung einer einzigen dominanten Struktur der Daten erlauben, kann MiningTree auch multiple Strukturen analysieren.
MiningTree gestattet die Benutzung derselben Variable in verschiedenen Zweigen eines Baums und kann so die Kontextabhängigkeit von Merkmalen berücksichtigen.
Eine Beispielanwendung von MiningTree
Im nachfolgenden Beispiel wird eine Anwendung von MiningTree auf eine Befragung von 2293 Personen hinsichtlich deren
Wahlabsichten beschrieben. Gefragt wurde nach der Präferenz hinsichtlich der Abgabe der Stimme für die CDU/CSU.
In der nachstehenden Abbildung wird der Einstieg in MiningTree
über das PS-Explore-Arbeitsblatt gezeigt. Nachdem die zu analysierenden Daten geladen wurden, wird das im Bild mit rotem Kreis gekennzeichnete Icon angeklickt.
|
|
|
Oben links im Formular befindet sich das Listfeld zur Auswahl des Außenkriteriums. Darunter die Liste der auszuwählenden Einflußgrößen.
Bei gedrückter Steuerungstaste können hier die interessierenden Einflußgrößen per Mausklick festgelegt werden. Für beide Eingabebereiche besteht im Falle quantitativer Merkmale die Möglichkeit per Klick mit der
rechten Maustaste auf einen der Merkmalsnamen ein Pop-Up-Menü zu aktivieren, das es erlaubt den jeweiligen statistischen Kennwert auszuwählen, demgemäß die Aufteilung, der Split, in zwei Klassen durchgeführt werden
soll. Zusätzlich ist es möglich den Wert für die Spaltung, per Benutzerdefinition festzulegen. Standardmäßig wird das fence-Kriterium zum Split eines quantitativen Merkmals benutzt.
Die von MiningTree
berechnete Segmentzugehörigkeit jedes in die Untersuchung einbezogenen Falles kann optional als
zusätzliche Spalte des Arbeitsblattes festgehalten werden. Somit ist es möglich die Segmentzugehörigkeit in späteren Analysen mittels des PS-Explore-Statistiksystems (
StatSys) weiterzubenutzen. Ebenso kann man
die Segmentzugehörigkeit nutzen um im Verbund mit der Seriendruckfunktion von PS-Explore/ProWord, dem integrierten
Textsystem von PS-Explore, Direct Mailings durchzuführen.
Hat man mit MiningTree ein Modell bestimmt, so kann dieses benutzt werden, um neu auftretende Fälle mittels des Klassifikationsmoduls von
MiningTree einem Segment zuzuordnen. So kann etwa eine Bank mittels eines durch MiningTree gewonnenen Models zur Kreditwürdigkeit von Kunden dieses benutzen, um das Risiko einer Kreditvergabe einzuschätzen.
|
|