VGSPS
News
QuerySys
StatSys
DBMSys
ToolSys
MiningTree
Kontakt
Downloads
kostenlos 
 testen
Bestellung
VGSPS mbH VGSPS mbH

Mit MiningTree auf der Suche nach verborgenen Schätzen Data-Mining-Technologien in PS-Explore

Was ist Data Mining und welchen Nutzen bietet es?

Der Erfolg eines Unternehmens hängt heute in zunehmendem Maße von der schnellen und fundierten Entscheidungsfindung durch das Management ab. Hierzu werden umfassende Datenpools benötigt.

In den Unternehmen werden Daten, z. B. Marktkennzahlen, Konkurrenz- und Kundendaten, gesammelt und zentral
archiviert. Dies geschieht mit der Vermutung, dass sich in den wachsenden Datenbergen lohnende, bisher noch nicht
entdeckte Gewinne verstecken könnten.

Das reine Sammeln von und der Zugriff auf Daten reicht jedoch nicht aus um konkrete Entscheidungen treffen zu können.
Die Daten sind lediglich Rohmaterial. Sie stammen aus internen Quellen (Produktinformationen, Absatz- und Umsatzdaten,
Kundendaten etc.) und externen (z. B. von Marktforschungsinstituten, Verbänden, aus Fachzeitschriften). Ein Nutzen aus
den vorhandenen Daten kann erst generiert werden, wenn diese so verknüpft werden, dass sie in Form von "Informationen"
und "Wissen" als Entscheidgrundlage genutzt werden können. Diesem Zwecke dienen die teilweise sehr verschiedenen
Methoden des Data Mining?

Der Prozess des Entdeckens von bislang unbekanntem Wissen, Mustern und Zusammenhängen in Daten wird als Data
Mining bezeichnet. Data Mining wendet dazu spezielle Algorithmen an, um neues Wissen aus den Daten zu extrahieren.
Hierbei kommen einzeln oder kombiniert Methoden der Statistik, der explorativen Datenanalyse und der künstlichen
Intelligenz zum Einsatz. Wichtig ist dabei, dass Data-Mining-Systeme selbständig die vorhandenen Datenberge
durchsuchen. Die Daten müssen nicht mehr mühsam per Hand untersucht werden. Die Data-Mining-Technologien suchen
systematisch einen Weg durch die Daten, um die verborgenen Erkenntnisse und Zusammenhänge aufzuzeigen. Data Mining wird so zur automatisierten Schatzsuche im Datenbergwerk.

Im PS-Explore-Datenanalysesystem steht für diese Zwecke das umfassende Softwaremodul MiningTree zur Verfügung.

Beispiel 1: Eine neue Vertriebsstrategie soll bestimmt werden mit dem Ziel, den Aussendienst ertragsoptimiert zu steuern.
Dabei müssen die hergeleiteten Handlungsregeln für den Aussendienst leicht nachvollziehbar sein. Eine MiningTree- Analyse kommt zum Einsatz und liefert einen Ergebnisbaum, welcher Kunden mit hoher Abschlusswahrscheinlichkeit von Kunden mit geringerer Abschlusswahrscheinlichkeit in verschiedenen Graduierungen unterscheidet.

Beispiel 2: Eine Versicherung nutzt die von MiningTree gelieferte Segmentierung in Kundengruppen um individuelle Angebote unterbreiten zu können.

Beispiel 3: Eine Bank nutzt ein durch MiningTree gewonnenes Modell zur Klassifikation “kreditwürdiger” Kunden.
 

PS-Explore/MiningTree das Power Tool für Ihr Data Mining Projekt

MiningTree ist das ideale Werkzeug, um schnell und einfach auch große Datenbestände zu durchforsten und in den Daten
Zusammenhänge aufzufinden, unbekannte Trends zu entdecken und homogene Untergruppen, sog. Segmente, zu               identifizieren.       

Durch die vollständige Verquickung von MiningTree mit allen anderen datenanalytischen Funktionen und Verfahren des
PS-Explore-Systems bietet Ihnen MiningTree bisher ungeahnte Möglichkeiten zur  Analyse Ihrer Daten. Dabei ist MiningTree extrem einfach zu bedienen - vom Start Ihrer Analyse bis zur professionellen Präsentation der Ergebnisse.

Die von MiningTree erstellten Baumdiagramme sind leicht zu interpretieren, weshalb sich MiningTree auch für
Nicht-Statistiker hervorragend eignet.

MiningTree kann in nahezu allen Bereichen problemlos eingesetzt werden. Hier einige Beispiele:

       Wirtschaftsunternehmen

             Marketing:                        Erkennen Sie die Marktsegmente mit dem höchsten Umsatzpotential!
             Außendienststeuerung:     Bei welchem Kundenprofil lohnt sich ein Außendienstbesuch?
             Direct Mailing:                  Erkennen Sie, wer am wahrscheinlichsten auf eine Mailing-Aktion reagiert!
             Standortcontrolling:           Entdecken Sie die Faktoren, die über den Erfolg einer Filiale entscheidenden!
             Credit Scoring:                  Bewerten Sie die Kreditwürdigkeit einzelner Kunden!
             Qualitätssicherung:           Welche Produktionsfaktoren beeinflussen die Güte eines Produktes?

       Forschung

              Medizin:                          Finden Sie Patienten, die am ehesten auf eine bestimmte Behandlung ansprechen!
              Sozialforschung:              Welche Maßnahmen erhöhen die Chancen einer Vermittlung bei Langzeitarbeitslosen?
              Wahlforschung:                Welche demografischen Merkmale bestimmen eine Parteipräferenz?
              Marktforschung:               Welche Zuschauergruppen bevorzugen eine bestimmte Fernsehserie?

       Öffentliche Verwaltung

              Wohnungswesen:            Welche Einflüsse bestimmen den Kaufpreis von Immobilien?
              Krankenhäuser:               Welche Faktoren beeinflussen die Verweildauer von Patienten?
              Umwelt:                          Welche Parameter bestimmen den Umweltzustand eines Gebietes?
              Finanzen:                        Entdeckung verborgener Einsparpotentiale.

Mit MiningTree treffen Sie fundiertere Entscheidungen als bisher, denn kein anderes Werkzeug bietet so klare
Aufschlüsselungen von Einflußfaktoren wie MiningTree´s Entscheidungsbaumtechnik und die seit langem bewährte und voll
in MiningTree integrierte multidimensionale Online-Analyse (
MOLAP).

MiningTree führt die Auswahl der Variablen sowie die Zusammenfassung von Klassen eines Merkmals vollkommen
automatisch nach sicheren statistischen Kriterien durch. Dadurch erreichen Sie eine hohe Genauigkeit Ihrer Analyse ohne
großen Zeitaufwand.

Durch die integrierte
Drill-Down-Technik können Sie stets in jedem aufgefundenen Segment auf die Ebene des Einzelfalls
gehen und gezielt individuelle Datenkonstellationen betrachten. Farbdiagramme und Tabellen machen es dabei einfach, die
gebildeten Segmente zu verstehen und zu bewerten.

Durch die Flexibilität von MiningTree erhöhen Sie Ihre Produktivität. Das integrierte Klassifikationsmodul erlaubt es Ihnen auf  Basis eines errechneten Modells neue Fälle Segmenten zuzuordnen und “Was-wäre-wenn?”- Analysen durchzuführen.
Folgeanalysen können ganz einfach durchgeführt werden, da MiningTree die Zugehörigkeit zu einem Segment in Ihren
jeweiligen Datenbestand fortschreibt und so spätere Auswertungen ermöglicht.

Sie können Daten aufgrund der gefunden Entscheidungsregeln eines Segments aus einer Datenbank selektieren, und so
z.B. mit dem integrierten Textsystem ProWord   von PS-Explore eine Selektion unmittelbar für ein Direct Mailing benutzen.

Wenn Sie ein  Modell erstellt haben, können Sie mit der integrierten PS-Explore-Grafik hochwertige Diagramme erstellen
und präsentationsfähige Listen und Kreuztabellen generieren.

Durch die vollständige Integration von MiningTree in das PS-Explore-Gesamtsystem erhalten Sie eine bislang unvorstellbare
Power der Datenanalyse und einen völlig neuen, effizienteren Weg, Ihre Daten zu analysieren und zu verstehen.
 

Methodische Vorgehensweise von MiningTree

MiningTree untersucht die Variation eines abhängigen Merkmals (Außenkriterium) und prüft, wie dieses sich durch andere
Merkmale (Einflußgrößen) am besten erklären läßt. Zu diesem Zweck wird die Untersuchungsgesamtheit mittels der
Einflußgrößen dergestalt in einzelne Gruppen, sog. Segmente, aufgeteilt, dass sich die entstehenden Teilgruppen durch
möglichst große Unterschiede im Außenkriterium auszeichnen.

Als Außenkriterium ist sowohl ein quantitatives als auch ein Alternativmerkmal möglich, also ein Merkmal, welches das
Vorliegen oder Nicht-Vorliegen einer bestimmten Eigenschaft bei den Einheiten der Untersuchungsgesamtheit festhält.

Die Vorgehensweise von MiningTree besteht im wesentlichen in einer Dichotomisierung der Untersuchungseinheiten anhand der zur Verfügung stehenden Einflußgrößen im Sinne der Erzeugung möglichst großer Differenzierungen beim
Außenkriterium. Es ist ein Prozess der sukzessiven Zweiteilung. Quantitative Merkmale werden durch verschiedene
Verfahren an einem Punkt deren Werteskala gespalten. Bei qualitativen Merkmalen werden die verschiedenen Klassen,
sofern nicht schon zwei Klassen vorliegen, so auf zwei Klassen aufgeteilt, dass eine möglichst große Differenzierung
hinsichtlich des Außenkriteriums erreicht wird. Über die Einbeziehung von Merkmalen in ein Modell wird anhand von
Signifikanztests entschieden. Ebenso kann die Einbeziehung von einzelnen Klassen in eine Dichotomisierung per
Signifikanztest gesteuert werden. Als Signifikanztest wird z.B. der chi²-Test benutzt.

Das Ergebnis der MiningTree-Analyse sind einerseits genau abgegrenzte Elementgruppen (Segmente), die sich durch
extrem hohe oder extrem niedrige Anteile des Außenkriteriums auszeichnen. Andererseits erhält man durch die sukzessive
Segmentbildung Informationen darüber, durch welche Einflußgrößen Unterschiede in der abhängigen Variable erklärt werden können.

Die von MiningTree vorgenommene Segmentationsanalyse besitzt einige entscheidende Vorteile gegenüber anderen
klassischen multivariaten Verfahren. MiningTree arbeitet nicht-parametrisch. Damit entfallen die sonst üblichen
Anforderungen an die Merkmale; wie etwa Normalverteiltheit. Auch ist keine funktionale Spezifikation des Modells
erforderlich. MiningTree ermöglicht die gleichzeitige Hineinnahme von qualitativen und quantitativen Variablen in ein Modell.
Das Verfahren ist außerdem robust gegen den Einfluß von Ausreißern. Anders als parametrische Modelle, die nur die
Aufdeckung einer einzigen dominanten Struktur der Daten erlauben, kann MiningTree auch multiple Strukturen analysieren.
MiningTree gestattet die Benutzung derselben Variable in verschiedenen Zweigen eines Baums und kann so die
Kontextabhängigkeit von Merkmalen berücksichtigen.


Eine Beispielanwendung von MiningTree

Im nachfolgenden Beispiel wird eine Anwendung von MiningTree auf eine Befragung von 2293 Personen hinsichtlich deren
Wahlabsichten beschrieben. Gefragt wurde nach der Präferenz hinsichtlich der Abgabe der Stimme für die CDU/CSU.

In der nachstehenden Abbildung wird der Einstieg in MiningTree über das PS-Explore-Arbeitsblatt gezeigt. Nachdem die zu
analysierenden Daten geladen wurden, wird das im Bild mit rotem Kreis gekennzeichnete Icon angeklickt.

Der Klick zu MininTree

Es erscheint folgendes Formular mit den verschiedenen Einstellungsmöglichkeiten für die MiningTree-Analyse:

PS-Explore/MiningTree

Oben links im Formular befindet sich das Listfeld zur Auswahl des Außenkriteriums. Darunter die Liste der auszuwählenden Einflußgrößen. Bei gedrückter Steuerungstaste können hier die interessierenden Einflußgrößen per Mausklick festgelegt werden. Für beide Eingabebereiche besteht im Falle quantitativer Merkmale die Möglichkeit per Klick mit der rechten Maustaste auf einen der Merkmalsnamen ein Pop-Up-Menü zu aktivieren, das es erlaubt den jeweiligen statistischen Kennwert auszuwählen, demgemäß die Aufteilung, der Split, in zwei Klassen durchgeführt werden soll.

Zusätzlich ist es möglich den Wert für die Spaltung, per Benutzerdefinition festzulegen. Standardmäßig wird das fence-Kriterium zum Split eines quantitativen Merkmals benutzt.

Die von MiningTree berechnete Segmentzugehörigkeit jedes in die Untersuchung einbezogenen Falles kann optional als
zusätzliche Spalte des Arbeitsblattes festgehalten werden. Somit ist es möglich die Segmentzugehörigkeit in späteren
Analysen mittels des PS-Explore-Statistiksystems (
StatSys) weiterzubenutzen. Ebenso kann man die               Segmentzugehörigkeit nutzen um im Verbund mit der Seriendruckfunktion von PS-Explore/ProWord, dem integrierten
Textsystem von PS-Explore, Direct Mailings durchzuführen.

Hat man mit MiningTree ein Modell bestimmt, so kann dieses benutzt werden, um neu auftretende Fälle mittels des
Klassifikationsmoduls von MiningTree einem Segment zuzuordnen. So kann etwa eine Bank mittels eines durch MiningTree
gewonnenen Models zur Kreditwürdigkeit von Kunden dieses benutzen, um das Risiko einer Kreditvergabe einzuschätzen.
 

Einordnung neuer Fälle in Segmente eines MiningTree-Modells

Ein weiterer Clou von MiningTree ist die Integration der multidimensionalen On-Line-Analyse (MOLAP). Mittels Doppelklick
auf einen ein Segment repräsentierenden Knoten des berechneten Baumdiagramms werden alle Fälle des Segments in der
On-Line-Analyse bereitgestellt. So ist es möglich ein Segment sofort näher zu untersuchen und per Drill-Down-Funktion
auch auf die Einzelfallebene zu gehen oder Listen und Kreuztabellen zu erstellen.

Der Ablauf der MiningTree-Analyse kann über ein paar elementare Optionen gesteuert werden. So ist es möglich Klassen eines Merkmals per Signifikanztest auf ihre Bedeutsamkeit für das Modell überprüfen zu lassen. Bei Nicht-Signifikanz erfolgt gegebenenfalls Ausschluß aus dem Modell. Ebenfalls können die einzelnen Einflußgrößen hinsichtlich ihrer Brauchbarkeit für das Modell getestet werden. Nicht immer liegen für einen Fall alle Daten vor. Standardmäßig wird ein unvollständig erhobener Fall aus der Analyse ausgeschlossen. Es ist jedoch auch möglich solche Fälle mit in die Analyse einzubeziehen und Fehlwertklassen berechnen zu lassen.

Als Abbruchkriterium des Segmentationsalgorithmus gilt im Prinzip - von den Signifikanztests einmal abgesehen - nur die
Segmentgröße. Diese Mindestgröße kann in Prozentanteilen der Gesamtstichprobe angegeben werden. Als Hauptergebnis einer MiningTree-Analyse erhält man stets ein sog. Baumdiagramm wie es nachstehend abgebildet ist:
 

Das Hauptergebnis von MiningTree: der Segmentationsbaum

In der Wurzel des Baumdiagramms wird das Außenkriterium angeführt. Der 1-Anteil meint die wertmäßig höhere
Ausprägung eines dichotomen oder dichotomisierten Merkmals, also i.d.R. 1 aus 0 und 1. 1 ist dann auch die Kodierung für
das Vorliegen des Außenkriteriums. In diesem Beispiel die Entscheidung für die CDU/CSU. Ein Anteil von 34,49% von 2293
Befragten würde sich als für die CDU/CSU entscheiden.

Jeder weitere Knoten des Baumes gibt das Merkmal an, welches als jeweils nächstes in die Bildung eines Zweiges
einbezogen wurde. Im Beispiel sind dies als erstes die Altersklassen. Jeder Knoten erhält eine Segmentnummer (SNr.). Zu
jedem Knoten wird im Diagramm fernerhin die Anzahl der in dieses Segment eingehenden Fälle (n) angegeben und der
prozentuale Anteil dieses Segmentes an der Gesamtstichprobe. Als wichtigste Information wird die
Präferenzwahrscheinlichkeit p(1) ausgewiesen, also die Wahrscheinlichkeit mit der Mitglieder des jeweiligen Segmentes das Außenkriterium besitzen; im Beispiel also CDU/CSU wählen würden. Schließlich werden noch die Klassen des Merkmals angegeben, welche in dem Segment zusammengezogen wurden.

Beispiel Segment 0: Die Wahrscheinlichkeit das Personen ab 60 Jahren CDU wählen beträgt 44,18%. Dies liegt etwa 10%
über dem Durchschnitt der Gesamtstichprobe. Das Segment 0 wird nun weiter untergliedert wobei die Religionszugehörig- keit als nächstbedeutsames Kriterium herangezogen wird. Danach folgen in diesem Zweig des Baumes die politische Sebsteinstufung, die wirtschaftliche Situation des Befragten und das Geschlecht.

Im oberen Bedienungspanel des Formulars von MiningTree findet man u.a. eine Schaltfläche mit der Möglichkeit alle
Präferenzwahrscheinlichkeiten p(1) der Endknoten des berechneten Baumdiagramms anzuzeigen. So läßt sich per
Mausklick das Segment mit der größten Präferenzwahrscheinlichkeit anzeigen und mit den anderen Segmenten visuell
vergleichen:

Die errechneten Präferenzwahrscheinlichkeiten auf einen Blick

Die höchste Präferenz (Segment 4), nämlich 73,91%, der CDU/CSU haben demnach Personen ab 60 Jahre,
römisch-katholischen oder evangelischen Bekenntnisses, die sich selbst als rechts oder unpolitisch einstufen.

Weitere Informationen zu einem Segment erhält man im übrigen per rechtem Mausklick auf einen Knoten des
Baumdiagramms. Darüber hinaus befinden sich im oberen Panel des Formulars von MiningTree diverse nützliche
Funktionen, so etwa die Möglichkeit ein berechnetes Modell zu speichern und erneut zu laden, ein Baumdiagramm zu
drucken oder in die Zwischenablage zu kopieren und diverse Gestaltungsoptionen.

Themensuche über Stichwortverzeichnis:

weiter zu den statistischen Analyseverfahren von PS-Explore

[VGSPS]  [News]  [QuerySys]  [DBMSys]  [StatSys] [ToolSys]  [MiningTree]  [kostenlos testen] [Downloads]   [Auszug Kundenliste]   [Kontakt]  [web-Suche]   [frühere VGSPS-Newsletter ]   [Bestellung]

Copyright 2000, VGSPS mbH.       Alle Rechte vorbehalten.       Haftungsausschluss (Disclaimer)