PS-Explore NC+ ViDa
Das
genial einfache System zur visuellen interaktiven Dateninspektion
Einleitung
PS-Explore
NC+ ViDa ist ein völlig neuartiges System zur visuellen interaktiven
Dateninspektion, das VGSPS GmbH in Zusammenarbeit mit verschiedenen
langjährigen Anwendern des PS-Explore-Systems entwickelt hat und nun zur
allgemeinen Nutzung innerhalb des neuen PS-Explore NC+ Systems freigibt.
Das
Hauptanliegen bei der Entwicklung von ViDa war es, ein System anzubieten, das
durchaus elaborierte statistische Verfahren nutzt,
dabei aber den praxisorientierten Anwender von der Mühsal des vorausgehenden
Erwerbs statistischer Terminologie und Fachkenntnisse befreit. Um dieses Ziel
zu erreichen wurde bei ViDa für die Ergebnispräsentation ausschließlich auf
grafische und hierbei solche Darstellungsmöglichkeiten fokussiert, die ohne
weiteres intuitiv interpretierbar und dennoch aussagekräftig und analytisch
weiterführend sind.
In
der Gesamtheit seiner vielfältigen Möglichkeiten stellt nun ViDa ein System
dar, welches für Praktiker unterschiedlicher Fachbereiche ganz hervorragend zur
systematischen Sondierung von Datenbeständen geeignet ist. Es kann dabei zur
Überprüfung und Sicherung von Hypothesen
über Datenkonstellationen und –strukturen
dienen als auch zur Aufschluss gebenden Exploration
von Daten.
Natürlich
kommt ein Analysesystem mit methodisch höheren Ansprüchen dabei nicht ohne
solide fachstatistische Verfahren aus, die Frage ist eben nur, wie man diese
Verfahren in der Präsentation der Ergebnisse so verkapselt, dass sie dem
statistischen Laien gar nicht erst zur Last werden.
Naturgemäß
kommt auch ViDa nicht aus ohne die Berechnung und Bestimmung von Lokations- und Streuungsmaßen und natürlich laufen an
verschiedenen Stellen Korrelations- und lineare oder non-lineare
Regressionsberechnungen ab. Ebenso werden statistische Verfahren zur Bestimmung
und Bewertung von Ausreißern eingesetzt. Matrix- und Clusteranalysen finden
ebenso Anwendung wie eine Reihe weiterer multivariater
Prozeduren.
Aber:
dies geschieht allein im Hintergrund und ohne, dass der Anwender dies zur
Kenntnis nehmen muss. Wie bei einem Fahrzeugnavigationssystem wird er durch den
Dschungel einer Großstadt von A nach B geleitet, wobei ihm zwar das Steuern
seines „Datenanalysefahrzeugs“ obliegt, doch braucht er dabei weder Kenntnisse
über Verbrennungsmotoren noch benötigt er Einsichten in die Einsteinsche
Relativitätstheorie, ohne welche eine zuverlässige Navigation via Satellit kaum
denkbar wäre.
Das
Steuern des Fahrzeugs entspricht dabei den inhaltlichen und fachlichen
Kenntnissen des Anwenders über sein Metier. Diese Kenntnisse sind die einzig
wichtige Voraussetzung zum Sehen, Verstehen und Interpretieren der mittels ViDa
aufgezeigten Sachverhalte und Zusammenhänge.
Die Beispieldaten
Zur
unten folgenden Erläuterung der Möglichkeiten von ViDa werden aus drei sehr
unterschiedlichen Fachbereichen entstammende Datenbestände herangezogen:
1) Granulometriedaten aus der Zementherstellung,
2) Daten aus der Kaufpreissammlung eines
Gutachterausschusses für
Grundstückswerte,
3) Die so genannten „Fisher Irisdaten“ als klassischer
Beispieldatensatz der statistischen Datenanalyse.
Der
Granulometriedatensatz enthält insbesondere
Messungen der Anteile, welche Zementstichproben in einem 40-stufigem
Klassifikationssystem von Körnungsgrößen ausweisen. Die Zementstichproben
beziehen sich dabei auf 6 verschiedene Zementsorten und deren jeweilige 2- und
28-Tage-Festigkeit. Darüber hinaus enthält der Datenbestand Informationen über
die Herkunft des Zements aus unterschiedlichen Zementmühlen, Informationen über
Mühleninspektion und verschiedene Sammelklassen zu den Zementkörnungen.
Die
Daten aus der Kaufpreissammlung
beziehen sich auf Kaufpreise von Wohneigentum und die jeweiligen
Randbedingungen eines jeden Kauffalles.
Die
Irisdaten beziehen sich auf die Blüten von drei Spezies von Irisblumen. Der
Statistiker und Biologe Sir Ronald Aylmer Fisher
(1936) benutzte diesen Datensatz
als Anwendungsbeispiel in der Diskriminanzanalyse. Der Datensatz besteht aus je 50 Stichproben
der Spezies Iris setosa,
Iris virginica und Iris versicolor. Hierbei wurden vier Merkmale jeder Irisblüte
gemessen, jeweils Länge und Breite von Kelch- und Blütenblatt.
Die
Granulometrie- und die Kaufpreisdaten sind propräritäre
Daten, die VGSPS freundlicherweise von Kunden zur Verfügung gestellt wurden.
Die Irisdaten sind allgemein zugängig und können von Interessenten an ViDa zum
Ausprobieren des Programmmoduls herangezogen werden (siehe zum Beispiel: http://en.wikipedia.org/wiki/Iris_flower_data_set).
Der Aufruf des Programmmoduls ViDa
Nach
Start des PS-Explore NC+ Systems lädt man die gewünschte Auswertungsdatei ins
Arbeitsblatt:

Sobald
die Datei im Arbeitsblatt angezeigt wird klickt man dass blaue Button (roter
Kreis) für die ViDa-Analyse an:

Hiernach
öffnet sich unmittelbar das Vida-Fenster, welches
zunächst nur vier Eingabemöglichkeiten über einem ansonsten grauen Fenster
anzeigt, welches später die diversen ViDa-Grafiken
enthalten wird. Die Eingabemöglichkeiten bestehen aus einem mit „?“
beschrifteten Schaltknopf (Hier mit rotem Kreis gekennzeichnet.) und drei
Listfelder, in denen man eine (Haupt-)Einflussgröße, eine Zielgröße (also die
erste Größe, von welcher man den Effekt der Haupteinflussgröße erforschen will)
und eine Fallidentifikation für die einzelnen Datensätze des Datenbestandes
auswählen kann:

Erste Schritte der ViDa-Analyse
mit Hilfsfunktion
Der ?-Knopf
aktiviert eine Hilfestellung, die über die gesamte Analysesitzung aktiv bleibt
und den Anwender mit Bedienungstipps und Hinweisen auf mögliche Zusammenhänge
zwischen den Merkmalen des Datensatzes und Unterschiede zwischen Untergruppen
versorgt. Einflussgrößen können im Fall von ViDa alle numerischen und
qualitativen Merkmale des Arbeitsblattes sein. Bei den Zielgrößen sind
numerische Merkmale zugelassen.
Wird
dies Hilfestellungsfunktion direkt bei Start des Moduls angeklickt, so öffnet
sich ein Dialog, welcher den Anwender im Auffinden von Untersuchungsmerkmalen
unterstützt. Diese Funktion ist insbesondere dann von Interesse, wenn ein
Datensatz zunächst einmal ohne vorherige Annahmen über mögliche Zusammenhänge
der Merkmale sondiert werden soll.
Nach
Anklicken des ?-Knopfes erscheint zunächst folgende
Infobox, die auffordert, eine Einfluss- und eine Zielgröße zu wählen. Hat man
keine explizit vorgegebene Einfluss- und Zielgröße, so kann man sich nun
mögliche Merkmale anzeigen lassen:

Da das System naturgemäß a
priori die Datenstruktur nicht kennt, wird bei Anklicken der Schaltfläche „Ja“
eine umfassender Analyseprozess angestoßen, bei dem Alle Merkmale hinsichtlich
deren Zusammenhang mit den anderen Merkmalen des Datensatzes untersucht werden.
Die Untersuchung der Zusammenhänge erstreckt sich dabei auf alle numerischen
und alle qualitativen Merkmale des Arbeitsblattes. Da dies bei großer Anzahl
von Merkmalen im Arbeitsblatt sehr aufwändig ist, empfiehlt es sich ggf. eine
Vorauswahl mittels der Definition eines so genannten Profils zu definieren.
Hierzu später mehr.
Bei Wahl der Schaltfläche
„Ja“ erscheint schließlich eine Auswahlliste mit Merkmalen, die in irgendeiner
Weise enger mit jeweils anderen Merkmalen zusammenhängen. Dies ist natürlich
zunächst ein numerisch feststellbarer Zusammenhang, der nicht notwendiger Weise
auch inhaltlich von Bedeutung sein muss:

Das Auswahlmenü bietet neben
der Hauptliste noch die Möglichkeit nur solche Merkmale anzeigen zu lassen, die
ganz besonders stark mit wenigstens einem anderen Merkmal des Datensatzes
zusammenhängen:

Hat man die gewünschte
Einflussgröße ausgesucht, dann erscheint die Frage, ob man auch einen Tipp für
die Auswahl der Zielgröße wünscht:

Falls mit „Ja“ geantwortet wird,
erscheint der entsprechende Folgedialog, anderenfalls wird zur selbsttätigen
Auswahl einer Zielgröße aufgefordert:

Bei Bestätigung der Auswahl
mit „OK“ erfolgt unmittelbar die Durchführung des
Verfahrens und die Anzeige entsprechender erster Analysegrafiken. Hierzu gehört
ein Streudiagramm im Fall, dass eine numerische Einflussgröße gewählt wurde,
ein Häufigkeitsdiagramm über die Einflussgröße und eine so genannte
Graustufenmatrix der Mittelwertdifferenzen. Insbesondere auf die Bedeutung der
letzteren Darstellung wird nachfolgend noch ausführlich eingegangen:

Sofern es sich bei der zu
untersuchenden Einflussgröße um ein qualitatives Merkmal handelt wird
naturgemäß kein Streudiagramm angezeigt und es bleibt bei der Darstellung von
Häufigkeitsdiagramm und Graustufenmatrix:

Die Hilfefunktion zeigt nach
Ausgabe der ersten Grafiken schrittweise und kontextsensitiv weitere Tipps und
Hinweise an, so dass insbesondere der Erst- und gelegentliche Anwender sich gut
im Programm zurechtfinden können. Die einzelnen durch die Hilfsfunktion
erwähnten Analysemöglichkeiten werden weiter unten noch eingehender erläutert.

Kurzer Überblick über das Bedienerpanels von ViDa
Das Bedienerpanel von ViDa ist
zweizeilig und bietet diverse Möglichkeiten Grafiken zu modifizieren und
insbesondere weitere Analysen kontextabhängig zu starten:

Die erste Zeile des Panels
wurde bereits oben erörtert und steht auch in enger Verbindung zur
Hilfefunktion des Systems. Hier geht es speziell um die Festlegung der
Hauptmerkmale der Analyse. Diese startet immer mit zwei Variablen, der zu
wählenden Einflussgröße und der Zielgröße. Sowohl Ziel- als auch Einflussgröße
können in der laufenden Analysesitzung beliebig und je nach gewonnenem
Erkenntnisstand über die Zusammenhänge eines Datensatzes (Arbeitsblattes)
geändert werden.
Im Prinzip gleicht der erste
Schritt dem, was man auch bei einer einfachen Regressionsanalyse macht, nämlich
der Auswahl einer Größe, von der man wissen möchte, inwieweit diese eine andere
Größe beeinflusst. Im Fall einer numerischen Einflussgröße wird ja auch unter
anderem ein Streudiagramm mit einer Funktion dargestellt, welche den
Zusammenhang zwischen den Merkmalen aufzeigt.
Im Gegensatz zu Standardprogrammen
für derartige Zwecke geht ViDa jedoch wesentlich weiter. So ist es sehr einfach
möglich das Vorhandensein und die Wirkung von Untergruppierungen eines
Datensatzes offen zu legen. Und natürlich können auch weitere Merkmale des
Datensatzes ad hoc für Erklärungen herangezogen werden. Doch zunächst sei hier eine summarische Erläuterung der zweiten Zeile des
Bedienerpanels und dessen Schaltknöpfen gegeben.
Druckfunktion für die verschiedenen Grafiken
der ViDa-Analyse. Bei Anklicken der Schaltfläche
öffnet sich ein Popup-Menü mit 3 Auswahlmöglichkeiten:

Es
können hier alle 3 angezeigten Grafiken, also das Streudiagramm, die
Graustufenmatrix und das Häufigkeits- oder Verteilungsdiagramm direkt auf den
Drucker geleitet werden. Bei der Option für das XY- oder Streudiagramm wird
noch zusätzlich ein so genanntes Boxplot zum Druck angeboten. Es handelt sich
hierbei um eine Grafik, die angezeigt wird, sobald man beginnt, die
Einflussgröße in Untergruppen oder Klassen zu teilen. Zum Sinn und Zweck der
Klassen- und Gruppenbildung werden wir im Verlauf dieser Erörterung noch mehr
erfahren.
Wichtiger als die Ausgabe auf Drucker ist
heutzutage immer mehr die Ausgabe für die digitale Weiterverarbeitung und
Weitergabe. Mit dem aus anderen PS-Explore-Anwendungen
bekannten Knopf für die Weitergabe nach Ergebnisse/Reports ist hierfür die
Grundlage gegeben. Bei Anklicken dieses Knopfes fließen alle Grafiken in die
Registerkarte für PS-Explore-Berichte im Rich-Text-
Format, das auch MS-Word-kompatibel ist.
Dieses ebenfalls
aus anderen PS-Explore-Anwendungen bekannte Button
dient der Überführung von neu errechneten Datenspalten in das zugrunde liegende
PS-Explore-Arbeitsblatt. Die hier überführbaren Daten sind die über die
Graustufenmatrix gewonnenen Gruppenzugehörigkeiten der einzelnen Fälle des
Datenbestandes. Auch hierzu später mehr.
Die mit „Matrix“ beschriftete
Funktionsgruppe von Schaltelementen bezieht sich auf die Darstellung der so
genannten Graustufenmatrix. Was es mit dieser Matrix auf sich hat, werden wir
noch ausführlich erörtern, hier soll zunächst nur interessieren, was mit den
Schaltern bewirkt wird.
Mit
dem ersten Wippschalter (links) lässt sich die dargestellte Graustufenmatrix vergrößern
oder verkleinern. Auf diese Weise kann eine Anpassung vorgenommen werden, wenn
die Matrix sehr viele Untergruppen ausweist, die nicht immer unbedingt komplett
im Grafikausschnitt liegen müssen.
Der
zweite Wippschalter erlaubt die Verschiebung der Matrix nach oben oder unten.
Der
dritte Wippschalter erlaubt es abweichend von der durch das Programm
selbsttätig durchgeführten Klassenbildung eine feste äquidistante
Klassenbildung auszuführen. Diese muss nach Einstellung mittels des
Wippschalters noch einmal zusätzlich über den „Haken-Knopf“ bestätigt werden.
Dieser Block von Schaltknöpfen dient der
Handhabung der Grafiken und der Behandlung von die „Optik“ störenden
Extremwerten (Ausreißern).
Mittels des Ausrufezeichen-Knopfes können in
den noch zu erörternden Boxplotgrafiken erklärende Texte eingeblendet werden.
Die ist insbesondere hilfreich, wenn die Grafiken später weitergegeben oder
veröffentlicht werden.
Der Matrix-Knopf sorgt dafür, dass in der
Graustufenmatrix benachbarte Zellen hinsichtlich deren Grauintensität
angeglichen werden. Dies soll ggf. helfen durch Kontrastierung die bestehenden
Strukturen besser sichtbar zu machen.
Die Graustufenmatrix besitzt eine Funktion
zur Klassenbildung bei der Einflussgröße. Mittels des Mauszeigers können in der
Matrix Linien eingeblendet werden, welche eine Klassenbildung innerhalb eines
Intervalls der Einflussgröße bewirkt. Der Pfeil-Knopf löscht diese Linien
komplett und gibt so den Weg frei für eine schnelle erneute Klassenbildung nach
anderen Gesichtspunkten.
Der x-Knopf bewirkt, dass in die Berechnung
der Graustufenmatrix nur solche Werte der Einflussgröße einbezogen werden, die
eindeutig nicht als Ausreißer zu bewerten sind. Hiermit eröffnet sich die
Möglichkeit Störeinflüsse per Mausklick direkt zu eliminieren.
Der x-Knopf mit dem gelben Boxplot im
Hintergrund entspricht von der Intention dem x-Knopf für die Graustufenmatrix.
Hierbei werden die Extremwerte in der Boxplotgrafik eliminiert.
Der Scheren-Knopf entspricht dem x-Knopf für
die Graustufenmatrix, nur das hier quasi ein Rundumschlag gegen Störwerte
vorgenommen wird. Hierbei werden die Regeln zur Bestimmung von Ausreißern
mehrfach (iterativ) auf die jeweils nach einer Elimination von Extremwerten
verbleibenden Werte angewandt. Dies kann, muss aber nicht unbedingt, zu einer
weiteren Reduzierung von Störwerten führen und somit eine noch klarere Sicht
auf die Dinge schaffen.
Der Scheren-Knopf mit Boxplot ist analog dem
Scherenknopf zu sehen, wobei hier wieder die Boxplotgrafik im Visier steht.
Dieser Block von Schaltelementen führt
zur so genannten multiplen Betrachtungsweise aller evtl. interessierender
Merkmale des Datensatzes.
Mittels dieses Knopfes wird jeweils für die Einflussgröße
als auch für die Zielgröße eine Liste der am stärksten mit diesen
korrespondierenden Merkmalen des Gesamtdatensatzes bestimmt.
Über den daneben befindlichen Wippschalter
wird eingestellt, wie viele korrespondiere Merkmale
maximal aufgelistet werden sollen.
Dieser Matrix-Kopf führt bei Anklicken zu der
Berechnung und Anzeige eines so genannten multiplen oder
Mehrfachstreudiagramms, in welchem alle mit der Einflussgröße und der Zielgröße
korrespondierenden Merkmale angezeigt werden können. Diese Grafikdarstellung
ist im Prinzip eine sehr umfangreiche eigene Analysemethode, die es erlaubt
sowohl numerische als auch qualitative Merkmale in einer Gesamtschau zu
betrachten und zu bewerten. Der Vorteil dieser Grafikart ist es u.a. auch, dass
sie anders als viele rein numerische multiple Auswertungsverfahren auch vom
Laien unmittelbar verstanden und interpretiert werden kann.
Die
beiden Listfelder rechts vom Streudiagramm-Knopf enthalten nach Betätigung des
Knopfes ganz links im Block
die gewünschten Liste
der korrespondierenden Merkmale.
Dieser Block von Schaltknöpfen dient der
Aktivierung von Verfahren zur grafischen Analyse von im Datensatz enthaltenen
qualitativen Merkmalen und fokussiert speziell den Zusammenhang zwischen
Einfluss- und Zielgröße im Hinblick auf die verschiedenen Klassen des
jeweiligen qualitativen Merkmals.
Anklicken dieses Knopfes bewirkt die
Auflistung der qualitativen Merkmale des Datenbestandes. Werden dann in der
angezeigten Merkmalsliste entsprechende Merkmale ausgewählt, so erscheint nach
Verlassen des Listfensters rechts unten im ViDa-Fenster
eine neue Grafik. Hier werden für alle gewählten Merkmale Balkendiagramme
angezeigt. Pro Merkmal wird ein Balkenpaar angezeigt. Der obere Balken zeigt
die stärkste Korrespondenz des qualitativen Merkmals innerhalb einer der
Klassen des Merkmals bezogen auf Einfluss- und Zielgröße an. Der untere Balken
steht für die Klasse des qualitativen Merkmals, welche die schwächste
Korrespondenz zwischen Einfluss- und Zielgröße besitzt.
Ein
Mausklick auf einen der Balken führt zur Anzeige der Korrespondenzwerte für
alle Klassen des jeweiligen Merkmals. Die Werte können zwischen 0 und 100
liegen, wobei 100 die stärkste Korrespondenz bedeutet. Mit der rechten
Maustaste kann man von der Einzeldarstellung der Klassenkorrespondenzen
zurückkehren zur vorhergehenden MinMax-Darstellung
der Korrespondenzen für alle interessierenden qualitativen Merkmale.
Hinweis:
Qualitative Merkmale die besonders starke Korrespondenzen zur Einflussgröße
besitzen werden bei vorhergehender Betätigung des
- Knopfes in
der Auswahlliste blau markiert. Es lohnt sich diese Merkmale genauer zu
betrachten.
Dieser Knopf wird nach vorheriger Betätigung
von
in der Regel versenkt dargestellt. Klick man
diesen Knopf an, so wird die grafische Darstellung der Korrespondenzen wieder
abgeschaltet.
Beispiel einer grafischen Analyse mit ViDa anhand der
Granulometrie-Daten: funktionale Zusammenhänge und
qualitative Daten
Mit Hilfe des oben bereits erwähnten
Datensatzes „Granulometrie“ sei im Folgenden eine erste ViDa-Analyse
demonstriert. Hierbei wird mit aktivierter Hilfefunktion gearbeitet. Die
Einfluss- sowie die Zielgröße werden im Beispiel hier nicht mittels
Hilfsfunktion gesucht und vorgeschlagen, sondern direkt eingestellt.
Betrachtet wird der
Zusammenhang zwischen den Merkmalen Blaine und der so
genannten 28-Tage-Festigkeit von Zement.
Der Blaine-Wert ist ein
standardisiertes Maß für den Grad der Feinvermahlung
von Zement.
Er wird angegeben als labortechnisch
mit dem Blaine-Gerät ermittelte spezifische
Oberfläche
(cm2/g). Standard-Portlandzement
CEM I 32,5 hat etwa einen Blaine-Wert von 3.000 bis
3.500. Der Blaine-Wert soll besonderen Einfluss auf
die Frühfestigkeit, die mit dem Zement erreicht werden kann haben.
Soll Zement auf erheblich
höhere Werte als 3.500 Blaine aufgemahlen
werden, so steigen die Anforderungen an die eingesetzten Mühlen und die Separations-Technik
überproportional. Frühhochfeste Zemente CEM I 42,5 oder CEM I 52,5 mit Blaine-Werten von 4.000 bis 5.500 kosten wesentlich mehr
als „normaler“ CEM I 32,5 aufgrund des hohen maschinellen und energetischen
Aufwandes zu ihrer Herstellung.
Nach Laden der
Granulometriedaten wird ViDa mittels der Schaltfläche
im Arbeitsblatt gestartet. Sofern die
Hilfsfunktion bereits eingeschaltet ist, erscheint eine Info-Box mit dem
Angebot einer Vorschlagsliste für interessante Analysemerkmale. Hier wird
dieser Vorschlag nicht gewählt und über die Listfelder „Einflussgröße“ und
„Zielgröße“ wird „Blaine“ und „28-Tage-Festigkeit“
direkt eingestellt.
Nach dem Einstellen der
Zielgröße erscheint sofort folgendes Fenster:

Streicht man dabei mit dem
Mauszeiger über die Graustufenmatrix, wird ein Analysetipp angezeigt, der
darauf hinweist, dass man das Einflussmerkmal in Klassen aufteilen kann, indem
man in der Matrix durch Mausklick Klassengrenzen einfügt. Wir werden uns dieser
Möglichkeit später noch im Detail zuwenden.
Im Fall eines numerischen
Merkmals wird im Grafikfenster oben links sofort ein xy-Diagramm
angezeigt, in welchem wir als x-Merkmal Blaine und
als y-Merkmal die 28-Tage-Festigkeit sehen. Die einzelnen Wertepaare des
Datenbestandes werden als blaue Kästchen angezeigt. Außerdem erscheint
automatisch eine an den Punkteschwarm angepasste Kurve, die den funktionalen
Zusammenhang der beiden Merkmale beschreibt.
Fährt man mit dem Mauszeiger
bei eingeschalteter Hilfsfunktion über das xy-Diagramm,
dann kann es sein, dass ein zusätzlicher Hinweis erscheint, der ggf. darauf hinweist,
dass der dargestellte Datenbestand inhomogen ist. Dies kann etwa dadurch
verursacht werden, dass mehrere Untergruppen in die Datenstichprobe eingehen.
In diesem Beispiel sieht man sogar sehr genau, dass rechtsseitig ein separater
Punkteschwarm existiert:

Es liegt nun nahe,
qualitative Merkmale des Datenbestandes ausfindig zu machen, die eine Erklärung
für das beobachtete Phänomen geben. Hier bieten sich mehrere Vorgehensweisen
an. Im xy-Diagramm sieht man, dass spätestens ab Blaine-Werten über 5000 Daten aus einer Untergruppe
einfließen, die getrennt betrachtet werden sollten.
Man kann nun in der
Graustufenmatrix jenes Teilintervall suchen, welches um 5000 liegt und dort
eine Klassengrenze einfügen. Um die Klassenbildung abzuschließen fügt man noch
eine zweite Linie per Mausklick auf den rechten Rand der Graustufenmatrix ein.
Es erscheint anstelle des xy-Diagramms nun eine so
genannte Boxplot-Darstellung, bei der gleich ein wichtiger Hinweis eingeblendet
wird, nämlich, dass die Werte der gebildeten Klassen asymmetrisch verteilt
sind:

In jedem Fall aber scheint
das rechte Boxplot irgendwie „etwas anderes“ darzustellen als das linke
Boxplot. Wir übergehen zunächst einmal die Frage, was hier im statistischen
Sinne zu sehen ist. Wir registrieren einfach, dass unser Verdacht, es könne
sich bei den Werten mit einem Blaine über 5000 um
eine separate Untergruppe handeln, grafisch augenfällig präsentiert.

Streichen wir mit dem
Mauszeiger über die rechte obere Grafik (Verteilung des klassierten Merkmals Blaine) so erhalten wir wieder einen Auswertungstipp,
nämlich, dass bei Anklicken einer der Säulen bzw. „Pfeile“ der Grafik sich eine
neue Analysemethode, die so genannte MOLAP, anbietet. Das dem
PS-Explore-Anwender wahrscheinlich bekannte MOLAP-Verfahren
stellt, die zur jeweiligen angeklickten Säule gehörigen Fälle des
Datenbestandes in einem gesonderten Arbeitsblatt bereit:

Bei Doppelklick auf eine
Spalte des hier dargestellten Arbeitsblattes erscheint sofort eine neue Grafik,
ein Säulendiagramm, welches, im Falle eines qualitativen Merkmals, die
Häufigkeiten in den einzelnen Klassen darstellt. Klicken wir auf Spalte Type
erhalten wir folgendes Bild:

Die Spalte Type enthält die
Zuordnung der einzelnen Fälle unseres Datenbestandes zu den verschiedenen hier
erfassten Zementsorten. Ganz klar zeigt sich, dass hier mit einem Sonderfall
ausschließlich Werte des Zementtyps CEM II / A-M repräsentiert werden.
Wir haben hier also über die
Klassenbildung per Graustufenmatrix und via Klassenhäufigkeitsdiagramm per
MOLAP genau die Fälle isoliert bzw. identifiziert, die zu einer ganz bestimmten
Zementsorte gehören. Wer die Möglichkeiten der MOLAP-Prozedur
kennt, weiß, dass er nun noch verschiedene statistische Untersuchungen über die
identifizierte Zementsorte durchführen kann.
In hier
vorgestellten Beispiel haben wir
eigentlich per Zufall oder Intuition herausgefunden, dass das Merkmal Type zur
Erklärung des xy-Diagramms und seiner besonderen
Darstellung der Wertepaare führt.
Welche Möglichkeiten gibt es nun noch, das gefundene
Phänomen näher zu untersuchen?
Statt der Klassenbildung in
der bisher noch „geheimnisvollen“ Graustufenmatrix wäre ein anderer Weg
möglich, auf welchen uns das Programm nebenbei zuvor schon hingewiesen hat:

Mittels des „Brillenknopfes“
im Funktionenpanel von ViDa hätte man zunächst einfach all jene Merkmale sich
aufzeigen lassen können, die mit der Einfluss- und/oder Zielgröße in
Zusammenhang stehen.
Klicken wir nun die „Brille“
einmal an und sehen, was uns ViDa zu erzählen hat:

Offenbar hat ViDa wenigstens
ein qualitatives Merkmal ausfindig gemacht, das uns eine Erklärung des bereits
auf anderem Wege gelüfteten „Geheimnisses“ der Zementsorte CEM II / A-M gibt.
Wir lassen uns also durch Klick auf Schaltfläche „Ja“ der sich geöffnet
habenden Info-Anzeige die Liste der qualitatives Merkmale anzeigen. Vorab
informierte uns ViDa, das besonders augenfällige Merkmale in der Liste blau
gekennzeichnet seien.
Tatsächlich zeigt sich nun
auch hier, dass die Zementsorte (Merkmal Type) Aufklärung des beobachteten
Phänomens liefert. Diese ist dabei unter den drei im Datenbestand vorhandenen
qualitativen Merkmalen die einzige wirklich interessierende Größe, denn andere
Merkmale sind nicht blau unterlegt:

Durch Mausklick setzen wir
nun ein Häkchen vor „Type“ und teilen ViDa so mit, dass wir Type im Hinblick
auf Blaine und 28-Tage-Festigkeit weiter untersuchen
möchten.
Es erscheint dann folgendes
Bild:

Neu ist unten rechts im ViDa-Fenster eine Balkengrafik, welche uns den Einstieg in
eine weitere Analyse des Phänomens eröffnet. Diese Grafik zeigt uns für alle
jeweils ausgewählten qualitativen Merkmale, in unserem Fall nur für das eine
Merkmal Type, die in den Untergruppen (hier Zementsorten) vorgefundenen
Zusammenhänge an. Genau genommen wird zunächst nur der Zusammenhang zwischen Blaine und 28-Tage-Festigkeit gezeigt, der der Zementsorte
mit stärkstem und jener mit schwächstem Zusammenhang der
Hauptuntersuchungsgrößen entspricht. Der Korrespondenzindex als Indikator liegt
hierbei zwischen 0 (kein Zusammenhang)
und 100 (stärkster Zusammenhang, 100%).
Auffallen sollte, dass in
der Fußnote des Diagramms die festgestellte Korrespondenz der Gesamtstichprobe
(also ohne Berücksichtigung der Zementsorte) angezeigt wird. Diese beläuft sich
auf 72%. Es scheint so, dass der Zusammenhang zwischen Blaine
und 28-Tage-Festigkeit nur künstlich erhöht wird und nach Aufteilung in
entsprechende Unterstichproben deutlich absinkt.
Wie dies im Detail über alle
Zementsorten aussieht, lässt sich durch Mausklick auf eine der
„Korrespondenzsäulen einer Gruppe feststellen. Klicken wir auf den blauen
Balken mit der Beschriftung 29, so erscheint eine neue Grafik, die nun die
Korrespondenzen aller Zementsorten anzeigt:

Am ehesten ist noch eine
Korrespondenz für CEM I 42,5 HS feststellbar, während CEM II / A-M nahezu keine
Korrespondenz aufweist.
Klickt man innerhalb der
Grafik rechts unten mit der rechten Maustaste, erscheint die Option „zurück“
über welche man zur vorhergehenden Min-Max-Grafik der
Korrespondenzen zurückgelangt:

Man beachte hier, dass nun
in der xy-Grafik links oben wieder das Streudiagramm
zu sehen ist, jedoch nun nicht mehr mit einer Funktion über den
Gesamtdatenbestand, sondern mit den jeweiligen Funktionen für die einzelnen
Zementsorten. Klickt man bereits im Korrespondenzdiagramm auf einen der
Klassenbalken der Zementsorten, dann erhält man z.B. folgende Darstellung:

Hier ist jeweils nur der zu
der angeklickten Klasse (CEM I 42,5) gehörige Punkteschwarm dargestellt. Am
Fuße des Diagramms sieht man zusätzlich noch die ermittelte Formel für die
Anpassungskurve eingeblendet. Die x-Skala bleibt dabei auf den
Gesamtwertebereich des Datenbestandes über alle Zementsorten eingestellt, damit
man einen Bezug zum Wertebereich auch der anderen Zementsorten behält.
Beispiel weiterer Analysemöglichkeiten von ViDa
anhand der Iris-Daten: Das Mehrfachdiagramm
Natürlich beschränkt sich ViDa
nicht allein auf die zusätzliche Einbringung von qualitativen Merkmalen in eine
zunächst zwei Analysemerkmale betreffende Analyse. Es ist vielmehr möglich
sowohl die zwei Hauptmerkmale (Einflussgröße und Zielgröße) als auch weitere
qualitative und numerische Merkmale in eine Gesamtschau aller Variablen
einzubringen. Zu diesem Zwecke ist es nicht einmal notwendig bestimmte
Einfluss- und Zielgrößen zu definieren.
Wir laden als Beispiel
einmal den Iris-Datensatz ins Arbeitsblatt und starten ViDa. Als einzustellende
Hauptmerkmale wählen wir willkürlich Blüte.B und Blüte.L. Sodann klicken wir auf das im Bild unten mit rotem
Kreis markierte Button. Im sich damit öffnenden
Fenster wählen wir die noch im Datenbestand verfügbaren
weiteren drei Merkmale aus und schließen das Fenster „Variablenauswahl“ über das x-Button:

Es öffnet sich dann
automatisch das neue Fenster „Mehrfachdiagramme“:

In „Mehrfachdiagramme“ sehen
wir nun alle 5 Merkmale des Datensatzes in paarweiser Kombination miteinander.
Im oberen Teil des Diagramms (obere Dreiecksmatrix) sehen wir verschiedene Streudiagramme und
Boxplot-Darstellungen. Die Diagonale von oben links nach unten rechts zeigt uns
Säulendiagramme der einzelnen fünf Merkmale. Im unteren Dreieck der Matrix
sehen wir grau eingefärbte Felder mit zweistelligen positiven und negativen
Zahlen.
Die Zahlen in den grauen
Feldern entsprechen den Korrespondenzwerten je zweier Merkmale und können
zwischen -100 und +100 liegen. 100 bedeutet 100%iger Zusammenhang zwischen zwei
Merkmalen, 0 bedeutet kein Zusammenhang und -100 steht für 100%igen umgekehrten
Zusammenhang. Die Intensität der Graufärbung entspricht der absoluten Höhe der
Korrespondenz. Die Säulendiagramme entsprechen im Falle numerischer Merkmale Histogrammen. Das zugrunde liegende Merkmal wurde dabei in
9 gleichgroße Intervalle geteilt. Liegt hingegen ein qualitatives Merkmal vor,
so werden jeweils die Häufigkeiten in den einzelnen Klassen des dargestellten
Merkmals wiedergegeben.
Die Streudiagramme im oberen
Matrixteil repräsentieren jeweils für die in der jeweiligen Zeile und Spalte am
Rand bezeichneten Merkmale deren Punkteschwarm im xy-Diagramm.
Die Boxplot-Darstellungen werden generiert, wenn ein numerisches mit einem
qualitativen Merkmal gekreuzt wird. Für jede Klasse des qualitativen Merkmals
wird ein Boxplot erzeugt, welches die Streuung der in dieser Klasse
vorliegenden Werte des numerischen Merkmals darstellt. Die gelben Rechtecke
eines Boxplots stellen die „inneren“ 50% der Werte des numerischen Merkmals dar.
Die senkrechten bzw. waagerechten Linien des Boxplots entsprechen jeweils dem
Streubereich der oberen und unteren 25% der Werte des Merkmals abzüglich der
Extremwerte, falls vorhanden. Extremwerte werden in den äußeren Bereichen eines
Boxplots als graue Punkte dargestellt dargestellt.
Handelt es sich um besonders auffällige Werte, so werden diese als Sterne
angezeigt.
Um das Diagramm nicht zu
überladen sind bestimmte Informationen durch Mausklick separat abrufbar
eingerichtet. Ein Mausklick auf ein Boxplot gibt zum Beispiel die
Klassenbezeichnung und die Stichprobengröße in der Klasse preis:

Entsprechendes gilt für
einen Klick auf eine Säule der Diagramme in der
Diagonalen:

[0,1 bis 0,37) mit n=41 bedeutet
z.B., dass in der angeklickten Säule 41 Werte untergebracht sind und diese
größer oder gleich 0,1 und kleiner als 0,37 sind. Man beachte ganz besonders,
dass die Werte der jeweils angeklickten Klasse ebenfalls in allen anderen
Streudiagrammen der Gesamtmatrix als rot eingefärbte Punkte gekennzeichnet
werden. Dies gilt auch, bei Anklicken von Säulen qualitativer Merkmale:

In diesem Fall lässt sich
sehr schön die Irisart Virginica mit ihren
Ausprägungen hinsichtlich der verschiedenen numerischen Merkmale in Abgrenzung
zu den Werten der anderen Spezies zeigen.
Neben der durchgehenden
Markierung einer bestimmten Klasse im xy-Diagramm
besteht auch die Möglichkeit einzelne Punkte des Diagramms anzuklicken und
Informationen abzufragen. Hierzu stellt man im Hauptpanel
von ViDa bei Identifikation ein dort im Listfeld angebotenes Merkmal ein, das
dann mit der entsprechenden Ausprägung (Wertetikett) angezeigt wird
Darüber hinaus wird ein in
einem xy-Diagramm angeklickter Punkt auch
gleichzeitig in allen weiteren xy-Diagrammen und in
den Boxplots gesondert durch ein Dreieckssymbol gekennzeichnet. Hierbei ist es
möglich auch mehrere Punkte anzuklicken:

Die hervorgehobenen Punkte
können durch nochmaliges Anklicken wieder als einfache Punkte dargestellt
werden. Die Technik des besonderen Hervorhebens einzelner Datenpunkte ist z.B.
sehr praktisch, wenn man Ausreißerwerte näher untersuchen möchte. Man gewinnt
hierdurch etwa die Information, ob ein Wert nur hinsichtlich eines bestimmten
Merkmals auffällig ist oder eher durchgängig auch über weitere Merkmale.
Weitere Analysemöglichkeiten der ViDa-Mehrfachdiagramme
anhand einer Kaufpreissammlung
Natürlich ist es auch
möglich in den Mehrfachdiagrammen nach einem ganz bestimmten Fall des
Arbeitsblattes zu suchen. Hierzu klickt man in einem Streudiagramm oder Boxplot
mit der rechten Maustaste um das kontextsensitive Popup-Menü aufzurufen. Man
hat dann die Wahl zwischen einer Volltextsuche über das komplette Arbeitsblatt
oder, sofern definiert, über den so genannten Primärschlüssel. Man gibt dann
den Suchbegriff ein und erhält bei erfolgreicher Suche den entsprechenden Fall
in den Mehrfachdiagrammzellen angezeigt.
Hier im Beispiel erfolgt
Klick mit rechter Maustaste über einem der Boxplots oder XY-Diagramme. Dann
über „Suche“ Auswahl der Primärschlüsselsuche.

Es öffnet sich dann ein
einzeiliges Eingabefenster, in welchem der Schlüssel eingegeben wird. Dann
Bestätigung mit „Enter“-Taste. In den einzelnen
Diagrammen sieht man dann den gewünschten Fall als Dreieck (hier hellblau)
angezeigt:

Diese Art der Anzeige
ermöglicht es sehr schnell und einfach, sich über die Position eines Falles im
Hinblick auf einen bestimmten Satz an interessierenden Merkmalen einen
gezielten Überblick zu verschaffen. Gezielte Informationen kann man dann durch
linken Mausklick in den verschiedenen Diagrammen abfragen. Hier wurde auf die
rechte Säule des Histogramms zu norm.Kaufpreis
geklickt und es erscheint der Wertebereich, in welchem der Fall liegt:

Im folgenden Beispiel wurde
die entsprechende Box im Diagramm zur Wohnlage angeklickt und man erhält das
Info zur Lagezugehörigkeit:

Nebenbei bemerkt: Die
Darstellung der Merkmale im Mehrfachdiagramm erfolgt so, dass jeweils zwei
miteinander stark korrespondierende Merkmale in der Matrix nebeneinander
stehen. Hierdurch lassen sich Strukturen in den Merkmalen noch besser erkennen.
Merkmale in einem Mehrfachdiagramm, die klare Zusammenhänge besitzen ordnen
sich dann so an, dass die dunkelgrauen Felder der Korrespondenzwerte entlang
der Diagonalen von links oben nach rechts unten stehen.
Noch ein Trick zum
interaktiven Umgang mit den Mehrfachdiagrammen:
Im nachstehenden Bild sehen
wir z.B.in der Merkmalskombination „WohnflächeGebäude“ x norm.Kaufpreis“ (rote Markierung)
einige Extremwerte, deren Existenz dazu führt, dass das Gros der Werte links
gedrängt erscheint und nur die wenigen Extremwerte einzeln sichtbar sind. Was
tun, damit man auch das Gros unter die Lupe nehmen kann?

Hier bietet sich ganz
einfach eine Zoom-Funktion an. Man klickt mit dem Mauszeigen oben links in dem
zu vergrößernden Bereich, hält die linke Maustaste gedrückt und zieht über dem
interessierenden Bereich ein Rechteck auf. Bei Loslassen der Maustaste erscheint
dann der fokussierte Bereich:

Rückgängig machen Sie den
Zoom durch aufziehen eines Rechtecks von rechts unten nach links oben. Die
Zoomtechnik funktioniert in allen Diagrammarten der Matrix.
Natürlich ist es auch
denkbar, dass im Mehrfachdiagramm zwei qualitative Merkmale verglichen werden
sollen. In einem solchen Fall bietet sich als Auswertung eine Kreuztabelle an.
Da eine Kreuztabelle als grafisches Element im Mehrfachdiagramm zu
unübersichtlich wäre, wird hier eine Umsetzung der Zellenhäufigkeiten der
jeweiligen Kreuztabelle in eine Graustufenmatrix durchgeführt. Bei Bedarf kann
man durch Mausklick auf diese Matrix die Ausgabe der eigentlichen Kreuztabelle
in einem gesonderten größeren Fenster anfordern.
Die Zeilen und Spalten der
Kreuztabelle werden im Übrigen automatisch hinsichtlich ihrer Zellenbesetzung
(Häufigkeit) „umsortiert“, so dass ähnlich besetzte Merkmalsausprägungen
nebeneinander stehen. Damit zeigen sich „Verwandtschaften“ zwischen Klassen der
kombinierten Merkmale deutlicher und geben Aufschluss über mögliche
Zusammenhänge:

Untersuchungen zur Stärke des Einflusses von
Merkmalen des ViDa-Mehrfachdiagrammes
Betrachtet man die Daten und
Merkmale des Mehrfachdiagrammes von ViDa, so stellt
sich vielleicht auch die Frage nach kausalen Einflüssen. Uns interessiert z.B.
nicht allein der Einfluss unserer beim Einstieg in Vida
zu wählenden Haupteinflussgröße Ursprungsbaujahr als Bestimmungsgröße des
normierten Kaufpreises. Da wir im Mehrfachdiagramm in der Regel meist schon
weitere Merkmale in die Betrachtung einbezogen haben, will man sicher auch
einmal schnell wissen, welchen Einfluss die zusätzlichen Merkmale auf den
Kaufpreis besitzen.

Unsere ursprüngliche Zielgröße
ist im Mehrfachdiagramm rot gekennzeichnet. Wenn wir auf den Namen der
Zielgröße doppelklicken, führt ViDa eine Analyse durch, bei der es den Einfluss
der verschiedenen anderen Merkmale der Matrix auf die Zielgröße untersucht. Es
ist dabei gleichgültig, ob die Zielgröße numerischer oder qualitativer Natur
ist. Die benutzten Verfahren zur Bestimmung des Einflusses gehören in den
Bereich der multivariaten statistischen Methoden und geben im Allgemeinen eine
gute Schätzung des Einflusses wieder. Übersichtlich dargestellt werden die
Ergebnisse der Berechnungen in einem einfachen Kreisdiagramm, welches die
Prozentanteile der Einflussmerkmale angibt:

Das Diagramm der
Einflussanteile besitzt ein Popup-Menü, mit dessen Hilfe die Grafik angepasst
werden und auf Drucker, in die Zwischenablage oder in den PS-Explore-Reportbereich
weitergegeben werden kann:

Die Legende des
Kreisdiagramms lässt sich auch abschalten. Die Merkmalsnamen erscheinen dann
zusammen mit den Prozentanteilen mit denen sie Einfluss auf die Zielgröße haben
direkt an den jeweils zugehörigen Kreissegmenten. Über die Option
Zusammenfassung können Sie kleinere Segmente in einem Zusammenfassen, was die
Übersichtlichkeit erhöhen kann.

Beachten Sie, dass die
Segmente entsprechend ihrer Größe absteigend sortiert gegen den Urzeigersinn
ins Kreisdiagramm eingefügt werden!
Die als „nicht erklärt“
ausgewiesenen Prozentanteile geben wieder, was die im Modell befindlichen
Merkmale nicht an Einfluss aufbringen. Dieser Anteil könnte reduziert werden,
wenn man weitere Merkmale in die Untersuchung einbezieht.
Das evtl. auftretende
Segment „kombinierte Einflüsse“ besagt, dass mehrere Merkmale der Betrachtung
im Verbund eine besondere Wirkung auf die Zielgröße besitzen. Z. B. können sich
zwei Merkmale, wenn sie in einer bestimmten Ausprägung auftauchen stärker
wirken als im „Normalfall“. Um die Natur solcher Wechselwirkungen zu ergründen
lohnt sich oft ein besonderer Blick auf die Mehrfachdiagrammmatrix.
Nicht nur die eigentliche
Zielgröße lässt sich allerdings im Hinblick auf den Einfluss der anderen
Merkmale durch Doppelklick auf den Spaltennamen der Matrix näher untersuchen.
Klicken wir z.B. auf den Titel Wohnlage, so erscheint folgendes Bild:

Bei der Berechnung dieses Diagramms
wurde gleichsam die Wohnlage zur Zielgröße „umfunktioniert“ und der „reine“
Einfluss der anderen Größen auf die Wohnlage betrachtet. Natürlich darf man
dies nicht notwendigerweise im Sinne eines Kausalmodells verstehen. Das
Diagramm besagt in diesem Fall einer qualitativen „Zielgröße“, dass man die
Wohnlage mit etwa 60%iger Sicherheit vorhersagen könnte, wenn man das
Ursprungsbaujahr, den Gebäudetyp, den Kaufpreis und die Flächen kennt.
Grafischbasierte Datenselektion in ViDa-Mehrfachdiagrammen
Weiter oben wurde bereits
auf die Verbindung von ViDa und MOLAP eingegangen. Wer die Vorzüge von MOLAP
zum Zwecke der visuell orientierten Datenselektion kennt, der wird auch sehr
schnell die grafischbasierten Datenselektionsmöglichkeiten von ViDa schätzen
lernen, denn hier bietet der „multiple Blick“ auf die Daten noch anschaulichere
und gezieltere Selektionsmöglichkeiten.
In MOLAP wird die Selektion
bekanntlich schrittweise aus jeweils einem Balken- bzw. Säulendiagramm heraus
vorgenommen. Hierdurch ist man zwar immer informiert über die in einer oder
mehreren Auswahlklassen eines Merkmals vorliegende Anzahl von Fällen, jedoch
sieht man nicht, wie sich ein Selektionsschritt im Verbund mit anderen
qualitativen und numerischen Merkmalen auswirkt. Dies ist aber gerade wichtig,
wenn man mit Hilfe einer Selektion eine homogene Gruppe von ähnlichen Fällen
auswählen möchte.
Genau dies ermöglicht die
Selektionsmöglichkeit von ViDa. Im Fall einer Kaufpreissammlung, wie sie bei
Gutachterausschüssen für Grundstückswerte geführt wird, kann ViDa so etwa in
außergewöhnlich einfacher und dazu eleganter Art bei der Bereitstellung von
Vergleichsfällen dienlichst sein. Oder im Falle einer Marketingaktion kann ViDa
so direkt die Auswahl einer Zielgruppe
ermöglichen.
Im Fall des hier gegebenen
Beispiels wird als erster Auswahlschritt aus dem Gesamtdatenbestand die Gruppe
der „guten Wohnlagen“ ausgewählt. Dies geschieht im Mehrfachdiagramm einfach
durch Klick auf die Wohnlagensäule der guten Wohnlagen.
Die Säule wird dann zur
besseren Kennzeichnung direkt rot dargestellt. Man kann zuvor verschiedene
Anzeigemodi wählen. Die beiden wichtigsten Modi sind der für die „Beibehaltung
der Gesamtanzeige“ und der Modus für die „Darstellung des selektierten
Datenbestandes.“ Der letzte Fall ist besonders interessant, wenn man in den
jeweiligen Selektionsschritten durch Klick auf den Titel der Zielmerkmalspalte
(norm.Kaufpreis) gleich auch das Kreisdiagramm mit den Einflussanteilen der
verschiedenen Merkmale des Diagramms betrachten will. Hier kann man ggf. die
„Verbesserung der Einflüsse“ unmittelbar anschauen und bewerten.
Im hier gezeigten Fall
lassen wir die Gesamtanzeige aktiv. Es gibt 113 Fälle in guter Wohnlage die man
im Hinblick auf Ursprungsbaujahr, WohnNutzfläche und
norm.Kaufpreis sogleich in den entsprechenden Streudiagrammen anschauen kann.

In der folgenden Abbildung
wurde die Selektion in Gebäudetyp mit Klick auf Klasse „Dreifamilienhaus“ und
Wohnnutzfläche von 86 bis 105 qm weiter eingegrenzt:

Mittels rechter Maustaste
kann man nun das Popup-Menü im ViDa-Mehrfachdiagramm
aktivieren und die Auswahl über „Selektion merken“ in das Arbeitsblatt
überführen:

Bei späterer Rückkehr ins
Arbeitsblatt findet man im Falle der hier benutzten Datei dann am rechten Rand des
Arbeitsblattes eine neue Spalte mit dem Titel „XYMult.SelVar.170“. Hier sind
die selektierten Fälle als 1 mit dem Wertetikett „ausgewählt“ gegenüber 0
(nicht ausgewählt) gekennzeichnet:

Natürlich kann man in ViDa
die Selektionen jederzeit rückgängig machen und neue Selektionen durchführen.
Mittels Popup-Menü und „Selektion aufheben“ wird die bestehende Selektion auf
einen Schlag rückgängig gemacht. Es ist jedoch auch genauso möglich, durch
Klick auf die jeweiligen Säulen in den Histogrammen
einzelne Selektionsschritte wieder aufzuheben.
Möglichkeiten der ViDa-Graustufenmatrix
dargestellt anhand einer Kaufpreissammlung
Die Graustufenmatrix wurde
bislang nur erwähnt, jedoch fehlen noch Hinweise zu ihrer Bedeutung und
Interpretation. Erklärt sei die Graustufenmatrix und
ihre Implikationen anhand der bereits vorgestellten Kaufpreissammlung eines
Gutachterausschusses für Grundstückswerte.
Nach Laden der
Kaufpreisdaten wurde hier zunächst per Hilfsfunktion ein Datencheck, wie schon
weiter oben gezeigt, durchgeführt. Dies führte zu einer längeren Liste an vom
System vorgeschlagenen potentiellen Analysevariablen. Zur Vorbereitung eines
Vorschlages muss das ViDa-System im Fall einer
Kaufpreissammlung eine erhebliche Zahl von Merkmalen und Datensätzen durchscannen
und bewerten. Die kann zu nicht gerade geringen Laufzeiten führen. Es ist daher
zu empfehlen ggf. doch schon eine gewisse Vorauswahl an sinnvollen Merkmalen zu
treffen. Hierbei kann die Definition von Spaltenprofilen sehr nützlich sein,
bei der alle überflüssigen Merkmale ausgeblendet werden und in der Folge von
ViDa unberücksichtigt bleiben.
Hier im Beispiel wurde dann
als eine der vorgeschlagenen Einflussgrößen das Merkmal Ursprungsbaujahr
gewählt. Es blieben dann 7 Merkmale, von denen das System meinte, diese seien
für eine weitere Untersuchung interessant:

Für die Darstellung des
Beispiels wurde nun das Merkmal norm.Kaufpreis (normierter Kaufpreis)
ausgesucht. Ohne Frage wird ein Zusammenhang zwischen Baujahr und Kaufpreis
einer Immobilie bestehen. Die Frage ist natürlich auch, welche Merkmale können
im Kontext einer Korrespondenz der beiden Merkmale noch eine Rolle spielen?
Ferner, wie schauen die funktionalen Zusammenhänge aus, gibt es bestimmte
nicht-lineare Relationen. Und auch: lässt sich etwa durch Klassenbildung (hier
über das Ursprungsbaujahr) eine Vereinfachung der Darstellung erreichen und
evtl. auch Zusammenhänge besser sichtbar machen?
Schauen wir uns zunächst
einmal die grafischen Darstellungen von ViDa ganz unbefangen an:

Das xy-Diagramm
ist im Prinzip klar und birgt wenig Überraschungen.
Ein fast horizontaler Verlauf der Kaufpreise bis etwa 1950. Danach ein
stärkerer Anstieg bis 2009. Hierdurch ergibt sich beim Versuch durch den
Punkteschwarm eine Anpassungslinie zu ziehen eine Kurve, also ein nicht
linearer Verlauf. Das Verteilungsdiagramm zeigt insgesamt 11 Baujahresklassen,
wobei die ersten 3 Klassen 1846 bis 1910 eher schwach besetzt sind. Warum hat
das Programm wohl ausgerechnet 11 Klassen gebildet?
Eine erste Erklärung gibt
das Diagramm der Graustufenmatrix. Ohne zu wissen, was die Graustufen der
Gesamtmatrix und die rosa bis rot gefärbten Zellen in der Diagonale von unten
links nach oben rechts bedeuten, wird man eine gewisse Struktur erkennen. Auch
hier werden 11 Klassen bzw. Spalten abgebildet. Die linke Spalte zeigt unten
eine hellrosa Zelle und darüber langsam von hellgrau bis schwarz verlaufende
Zellen. Die Spalten 2 bis 7 zeigen eine sehr ähnliche Tönung der Zellen im
Verlauf von unten nach oben. Spalte 8 gewinnt an Grauintensität jedoch erreicht
sie nicht das Dunkelgrau bis Schwarz der 3 rechts stehenden Spalten. Die
Rosafärbung der Diagonalzellen verhält sich recht analog zu denen der grauen
Elemente. Die letzte (11.) Spalte macht noch einen durchaus sichtbaren
Grausprung.
Dem optischen Eindruck nach
läge es nun nahe die 11 vom Programm vorgeschlagenen Klassen in 5 Klassen
zusammenzufassen. Dies können wir sehr einfach per Mausklick, indem wir mit dem
Mauszeiger in der Nähe oder direkt auf den Rand der jeweils in Frage kommenden
Spalte klicken.
Als Ergebnis unserer
Klassenbildung per Mausklick ergibt sich eine entsprechend sinnvolle Änderung
bei den anderen Diagrammen des ViDa-Fensters. Statt
des Streudiagramms sehen wir nun ein Mehrfachboxplot. Das Häufigkeitsdiagramm
trägt ebenfalls der Klassenbildung Rechnung, indem nun jeweils an den
Klassenmittelwerten (norm.Kaufpreis) über der x-Achse die Säulen zu den Klassen
eingezeichnet werden. Dabei entspricht die Säulenhöhe der Klassengröße
(Häufigkeiten).
Besonderes Interesse sollte
nun das Mehrfachboxplot wecken, denn hier sind wichtige Informationen über die
Beschaffenheit der von uns gebildeten Klassen zu finden. Die Boxplots selbst
sind in unserem Fall entlang der x-Achse von links nach rechts aufsteigend zu sehen.
Da die Klassenbildung über das Ursprungsbaujahr erfolgt ist bedeutet dies, dass
mit steigendem Baujahr auch der normierte Kaufpreis wächst. Dies ist nun nichts
atemberaubend Neues, denn dies zeigte uns ja bereits das xy-Diagramm
vor der Klassenbildung. Interessant ist vielmehr die Information unterhalb der
horizontalen Achse:

Hier findet man neben der
Angabe der unteren und oberen Intervallgrenze zu jedem Boxplot auch Symbole der
Art *> oder ***> etc.. Diese Symbole weisen hin auf feststellbare Unterschiede
zwischen den gebildeten Klassen zum Merkmal norm.Kaufpreis. *> rechts von
einer Intervallangabe bedeutet, dass der Unterschied zwischen der zugeordneten
Klasse bedeutsam ist, maximal sind drei Sterne erreichbar, wobei die Anzahl der
Sterne die Deutlichkeit oder Stärke des Unterschiedes im Merkmal
(norm.Kaufpreis) darstellt.
Eine Zeile unterhalb der
Intervall- und Bedeutsamkeitsangaben findet man noch 3 durch Schrägstrich
getrennte Zahlen. Der erste Wert entspricht dem Mittelwert der Fälle in dieser
Klasse bezogen auf die Untersuchungsgröße norm.Kaufpreis (
also die Einflussgröße). Der zweite Wert entspricht dem Median und der
dritte Wert ist die Klassengröße (Häufigkeit).
Die Boxplots selbst sind im
„Normalfall“ gelb ausgefüllt. Es können aber auch Töne zwischen rosa bis rot
vorkommen. Dies sind Alarmfarben die besagen, dass die Verteilung der Werte
innerhalb einer Klasse inhomogen ist. D.h. wenigstens, die Verteilung ist nicht
wirklich symmetrisch, was darauf hindeuten kann, dass die Klassen noch weiter
differenzierbare Untergruppen enthalten.
Es liegt nun nahe, mit den
Klassen ein wenig zu experimentieren, also zu schauen, was bei den Boxplots
geschieht, wenn man im Graustufendiagramm weitere Klassengrenzen einfügt oder
entfernt. Die Entfernung einer Linie geschieht dabei durch Mausklick auf
dieselbe. Wir fügen hier einmal eine Linie bei 1962 ein:

Das Boxplot 1897 bis 1972
wird nun direkt in 2 Boxplots geteilt. Im linken der beiden Boxplots liegt nun
(gelbe Farbe) offenbar eine symmetrische Verteilung vor, aber die Mittelwerte
und Mediane sind nicht als bedeutsam unterschieden gekennzeichnet. Falls daher
keine fachinhaltlichen Gründe dem entgegenstehen, kann man die Trennung wieder
rückgängig machen.
Es liegt evtl. nahe,
bestimmte Klassen bis auf Einzelfallebene zu untersuchen. Hier gibt es die oben
bereits erwähnte Möglichkeit im Verteilungsdiagramm oben recht auf eine der zu untersuchenden
Säulen zu klicken. Bei Klick mit der rechten Maustaste erscheint dann ein
Arbeitsblatt dieser Art:

Hier wurde mit rechts auf
die „Säule“ zum Intervall [1867 bis 1897) geklickt. Dadurch öffnet sich ein
Arbeitsblattfenster, welches uns die 7 Fälle dieser Klasse anzeigt; und zwar
mit den Spalten der Einflussgröße und der Zielgröße, sowie dem unter
Identifikation eingestellten Merkmal Wohnlage.
Klickt man statt mit rechter
mit der linken Maustaste, so öffnet sich der gesamte Datenbestand zu den Fällen
der Klasse in der bekannten MOLAP-Prozedur von
PS-Explore. Hier hat man vielfältige zusätzlich Auswertungs
und weitere Selektions- und Tabellierungsmöglichkeiten. Im Beispiel hier wurde
die Zellenstatistik über die Spalte norm.Kaufpreis aktiviert:

Neben numerischen Zielgrößen
ist es auch Möglich qualitative Merkmale als Einflussgrößen auszuwählen. Hier
sei nur ein Beispiel einer vielleicht nicht uninteressanten Anwendung gegeben.
Als Einflussgröße wird hier das Merkmal Gemarkung ausgewählt, als Zielgröße
bleibt der norm.Kaufpreis eingestellt:

In diesem Fall erscheint in
der Graustufenmatrix ebenfalls eine interessante Struktur. Die einzelnen
Klassen wurden nämlich automatisch so umgeordnet, dass Klassen mit ähnlichen
Graustufenmustern beieinander stehen. Hierdurch findet eine Gruppierung und
implizit eine Zusammenfassung der diversen Klassen statt, so dass man
Gemarkungen, die im normierten Kaufpreis ähnliche Werte haben, direkt
nebeneinander stehen.
Abschließende Erläuterungen
Im letzten Beispiel wird am
schnellsten offenbar, wobei es sich bei den Graustufenkodierungen genau
handelt. Wie im Kopf der Grafik angezeigt handelt es sich um
Mittelwertdifferenzen. Für jede der in die Untersuchung eingehenden Klassen
wird der Mittelwert berechnet. Sodann werden alle Differenzen einer jeweiligen
Klasse zu den anderen Klassen berechnet und schließlich eine entsprechend
intensive oder weniger intensive Graustufe ermittelt. Wahrnehmungspsychologisch weitaus besser und
übersichtlicher werden auf diese Weise die zentralen Zusammenhänge sicht- und
deutbar. Jede Zelle der Matrix entspricht dem paarweisen Vergleich zweier
Klassenmittelwerte. Im vorigen Beispiel also der durchschnittlichen Kaufpreise.
Eine weiße Zelle besagt, es gibt praktisch keinen Unterschied eine schwarze
Zelle zeigt den größten Mittelwertunterschied an. Die roten Zellen sind die
farbkodierten Mittelwerte in den einzelnen Klassen.
Was die Gemarkungen angeht,
so lassen sich auf der Basis der Graustufenmatrix nun Gruppen zusammenfassen:

Die Boxplotgrafik hierzu
zeigt in allen Fällen bedeutsame Unterschiede im Kaufpreis an. Natürlich können
fachinhaltliche Überlegungen zu anderen Zusammenfassungen der Klassen führen, diese
sollten hinsichtlich des Kaufpreises jedoch nicht allzu weit vom
Programmvorschlag entfernt liegen.
Sehr viel mehr gäbe es hier
noch zu zeigen, denn die erwähnten Möglichkeiten von ViDa sind noch nicht alle
beschrieben. Weitere Ausführungen hierzu und insbesondere Seminare und
Workshops, die in alle Tricks und Raffinessen des Systems einweihen, werden von
VGSPS GmbH ab Herbst angeboten (Info unter 0800 my
VGSPS).