PS-Explore NC+  ViDa

 

Das genial einfache System zur visuellen interaktiven Dateninspektion

 

 

Einleitung

 

PS-Explore NC+ ViDa ist ein völlig neuartiges System zur visuellen interaktiven Dateninspektion, das VGSPS GmbH in Zusammenarbeit mit verschiedenen langjährigen Anwendern des PS-Explore-Systems entwickelt hat und nun zur allgemeinen Nutzung innerhalb des neuen PS-Explore NC+ Systems freigibt.

 

Das Hauptanliegen bei der Entwicklung von ViDa war es, ein System anzubieten, das durchaus elaborierte statistische Verfahren nutzt, dabei aber den praxisorientierten Anwender von der Mühsal des vorausgehenden Erwerbs statistischer Terminologie und Fachkenntnisse befreit. Um dieses Ziel zu erreichen wurde bei ViDa für die Ergebnispräsentation ausschließlich auf grafische und hierbei solche Darstellungsmöglichkeiten fokussiert, die ohne weiteres intuitiv interpretierbar und dennoch aussagekräftig und analytisch weiterführend sind.

 

In der Gesamtheit seiner vielfältigen Möglichkeiten stellt nun ViDa ein System dar, welches für Praktiker unterschiedlicher Fachbereiche ganz hervorragend zur systematischen Sondierung von Datenbeständen geeignet ist. Es kann dabei zur Überprüfung und Sicherung von Hypothesen  über Datenkonstellationen und –strukturen dienen als auch zur Aufschluss gebenden Exploration von Daten.

 

Natürlich kommt ein Analysesystem mit methodisch höheren Ansprüchen dabei nicht ohne solide fachstatistische Verfahren aus, die Frage ist eben nur, wie man diese Verfahren in der Präsentation der Ergebnisse so verkapselt, dass sie dem statistischen Laien gar nicht erst zur Last werden.

 

Naturgemäß kommt auch ViDa nicht aus ohne die Berechnung und Bestimmung von Lokations- und Streuungsmaßen und natürlich laufen an verschiedenen Stellen Korrelations- und lineare oder non-lineare Regressionsberechnungen ab. Ebenso werden statistische Verfahren zur Bestimmung und Bewertung von Ausreißern eingesetzt. Matrix- und Clusteranalysen finden ebenso Anwendung wie eine Reihe weiterer multivariater Prozeduren.

 

Aber: dies geschieht allein im Hintergrund und ohne, dass der Anwender dies zur Kenntnis nehmen muss. Wie bei einem Fahrzeugnavigationssystem wird er durch den Dschungel einer Großstadt von A nach B geleitet, wobei ihm zwar das Steuern seines „Datenanalysefahrzeugs“ obliegt, doch braucht er dabei weder Kenntnisse über Verbrennungsmotoren noch benötigt er Einsichten in die Einsteinsche Relativitätstheorie, ohne welche eine zuverlässige Navigation via Satellit kaum denkbar wäre.

 

Das Steuern des Fahrzeugs entspricht dabei den inhaltlichen und fachlichen Kenntnissen des Anwenders über sein Metier. Diese Kenntnisse sind die einzig wichtige Voraussetzung zum Sehen, Verstehen und Interpretieren der mittels ViDa aufgezeigten Sachverhalte und Zusammenhänge.

 

Die Beispieldaten

 

Zur unten folgenden Erläuterung der Möglichkeiten von ViDa werden aus drei sehr unterschiedlichen Fachbereichen entstammende Datenbestände herangezogen:

 

1)     Granulometriedaten aus der Zementherstellung,

2)     Daten aus der Kaufpreissammlung eines

Gutachterausschusses für Grundstückswerte,

3)     Die so genannten „Fisher Irisdaten“  als klassischer

Beispieldatensatz der statistischen Datenanalyse.

 

 

Der Granulometriedatensatz enthält insbesondere Messungen der Anteile, welche Zementstichproben in einem 40-stufigem Klassifikationssystem von Körnungsgrößen ausweisen. Die Zementstichproben beziehen sich dabei auf 6 verschiedene Zementsorten und deren jeweilige 2- und 28-Tage-Festigkeit. Darüber hinaus enthält der Datenbestand Informationen über die Herkunft des Zements aus unterschiedlichen Zementmühlen, Informationen über Mühleninspektion und verschiedene Sammelklassen zu den Zementkörnungen.

 

Die Daten aus der Kaufpreissammlung beziehen sich auf Kaufpreise von Wohneigentum und die jeweiligen Randbedingungen eines jeden Kauffalles.

 

Die Irisdaten beziehen sich auf die Blüten von drei Spezies von Irisblumen. Der Statistiker und Biologe Sir Ronald Aylmer Fisher (1936) benutzte diesen Datensatz als  Anwendungsbeispiel  in der Diskriminanzanalyse.  Der Datensatz besteht aus je 50 Stichproben der Spezies Iris setosa, Iris virginica und Iris versicolor. Hierbei wurden vier Merkmale jeder Irisblüte gemessen, jeweils Länge und Breite von Kelch- und Blütenblatt.

 

Die Granulometrie- und die Kaufpreisdaten sind propräritäre Daten, die VGSPS freundlicherweise von Kunden zur Verfügung gestellt wurden. Die Irisdaten sind allgemein zugängig und können von Interessenten an ViDa zum Ausprobieren des Programmmoduls herangezogen werden (siehe zum Beispiel: http://en.wikipedia.org/wiki/Iris_flower_data_set).

 

 

Der Aufruf des Programmmoduls ViDa

 

Nach Start des PS-Explore NC+ Systems lädt man die gewünschte Auswertungsdatei ins Arbeitsblatt:

 

 

Sobald die Datei im Arbeitsblatt angezeigt wird klickt man dass blaue Button (roter Kreis) für die ViDa-Analyse an:

 

 

Hiernach öffnet sich unmittelbar das Vida-Fenster, welches zunächst nur vier Eingabemöglichkeiten über einem ansonsten grauen Fenster anzeigt, welches später die diversen ViDa-Grafiken enthalten wird. Die Eingabemöglichkeiten bestehen aus einem mit „?“ beschrifteten Schaltknopf (Hier mit rotem Kreis gekennzeichnet.) und drei Listfelder, in denen man eine (Haupt-)Einflussgröße, eine Zielgröße (also die erste Größe, von welcher man den Effekt der Haupteinflussgröße erforschen will) und eine Fallidentifikation für die einzelnen Datensätze des Datenbestandes auswählen kann:

 

 

 

 

Erste Schritte der ViDa-Analyse mit Hilfsfunktion

 

Der ?-Knopf aktiviert eine Hilfestellung, die über die gesamte Analysesitzung aktiv bleibt und den Anwender mit Bedienungstipps und Hinweisen auf mögliche Zusammenhänge zwischen den Merkmalen des Datensatzes und Unterschiede zwischen Untergruppen versorgt. Einflussgrößen können im Fall von ViDa alle numerischen und qualitativen Merkmale des Arbeitsblattes sein. Bei den Zielgrößen sind numerische Merkmale zugelassen.

 

Wird dies Hilfestellungsfunktion direkt bei Start des Moduls angeklickt, so öffnet sich ein Dialog, welcher den Anwender im Auffinden von Untersuchungsmerkmalen unterstützt. Diese Funktion ist insbesondere dann von Interesse, wenn ein Datensatz zunächst einmal ohne vorherige Annahmen über mögliche Zusammenhänge der Merkmale sondiert werden soll.

 

Nach Anklicken des ?-Knopfes erscheint zunächst folgende Infobox, die auffordert, eine Einfluss- und eine Zielgröße zu wählen. Hat man keine explizit vorgegebene Einfluss- und Zielgröße, so kann man sich nun mögliche Merkmale anzeigen lassen:

 

 

 

Da das System naturgemäß a priori die Datenstruktur nicht kennt, wird bei Anklicken der Schaltfläche „Ja“ eine umfassender Analyseprozess angestoßen, bei dem Alle Merkmale hinsichtlich deren Zusammenhang mit den anderen Merkmalen des Datensatzes untersucht werden. Die Untersuchung der Zusammenhänge erstreckt sich dabei auf alle numerischen und alle qualitativen Merkmale des Arbeitsblattes. Da dies bei großer Anzahl von Merkmalen im Arbeitsblatt sehr aufwändig ist, empfiehlt es sich ggf. eine Vorauswahl mittels der Definition eines so genannten Profils zu definieren. Hierzu später mehr.

 

Bei Wahl der Schaltfläche „Ja“ erscheint schließlich eine Auswahlliste mit Merkmalen, die in irgendeiner Weise enger mit jeweils anderen Merkmalen zusammenhängen. Dies ist natürlich zunächst ein numerisch feststellbarer Zusammenhang, der nicht notwendiger Weise auch inhaltlich von Bedeutung sein muss:

 

 

 

Das Auswahlmenü bietet neben der Hauptliste noch die Möglichkeit nur solche Merkmale anzeigen zu lassen, die ganz besonders stark mit wenigstens einem anderen Merkmal des Datensatzes zusammenhängen:

 

 

 

Hat man die gewünschte Einflussgröße ausgesucht, dann erscheint die Frage, ob man auch einen Tipp für die Auswahl der Zielgröße wünscht:

 

 

Falls mit „Ja“ geantwortet wird, erscheint der entsprechende Folgedialog, anderenfalls wird zur selbsttätigen Auswahl einer Zielgröße aufgefordert:

 

 

 

Bei Bestätigung der Auswahl mit „OK“ erfolgt unmittelbar die Durchführung des Verfahrens und die Anzeige entsprechender erster Analysegrafiken. Hierzu gehört ein Streudiagramm im Fall, dass eine numerische Einflussgröße gewählt wurde, ein Häufigkeitsdiagramm über die Einflussgröße und eine so genannte Graustufenmatrix der Mittelwertdifferenzen. Insbesondere auf die Bedeutung der letzteren Darstellung wird nachfolgend noch ausführlich eingegangen:

 

 

 

Sofern es sich bei der zu untersuchenden Einflussgröße um ein qualitatives Merkmal handelt wird naturgemäß kein Streudiagramm angezeigt und es bleibt bei der Darstellung von Häufigkeitsdiagramm und Graustufenmatrix:

 

 

 

Die Hilfefunktion zeigt nach Ausgabe der ersten Grafiken schrittweise und kontextsensitiv weitere Tipps und Hinweise an, so dass insbesondere der Erst- und gelegentliche Anwender sich gut im Programm zurechtfinden können. Die einzelnen durch die Hilfsfunktion erwähnten Analysemöglichkeiten werden weiter unten noch eingehender erläutert.

 

 

 

 

 

Kurzer Überblick über das Bedienerpanels von ViDa

 

 

Das Bedienerpanel von ViDa ist zweizeilig und bietet diverse Möglichkeiten Grafiken zu modifizieren und insbesondere weitere Analysen kontextabhängig zu starten:

 

 

Die erste Zeile des Panels wurde bereits oben erörtert und steht auch in enger Verbindung zur Hilfefunktion des Systems. Hier geht es speziell um die Festlegung der Hauptmerkmale der Analyse. Diese startet immer mit zwei Variablen, der zu wählenden Einflussgröße und der Zielgröße. Sowohl Ziel- als auch Einflussgröße können in der laufenden Analysesitzung beliebig und je nach gewonnenem Erkenntnisstand über die Zusammenhänge eines Datensatzes (Arbeitsblattes) geändert werden.

 

Im Prinzip gleicht der erste Schritt dem, was man auch bei einer einfachen Regressionsanalyse macht, nämlich der Auswahl einer Größe, von der man wissen möchte, inwieweit diese eine andere Größe beeinflusst. Im Fall einer numerischen Einflussgröße wird ja auch unter anderem ein Streudiagramm mit einer Funktion dargestellt, welche den Zusammenhang zwischen den Merkmalen aufzeigt.

 

Im Gegensatz zu Standardprogrammen für derartige Zwecke geht ViDa jedoch wesentlich weiter. So ist es sehr einfach möglich das Vorhandensein und die Wirkung von Untergruppierungen eines Datensatzes offen zu legen. Und natürlich können auch weitere Merkmale des Datensatzes ad hoc für Erklärungen herangezogen werden. Doch zunächst sei hier eine summarische Erläuterung der zweiten Zeile des Bedienerpanels und dessen Schaltknöpfen gegeben.

 

 

    Druckfunktion für die verschiedenen Grafiken der ViDa-Analyse. Bei Anklicken der Schaltfläche öffnet sich ein Popup-Menü mit 3 Auswahlmöglichkeiten:

 

 

 

Es können hier alle 3 angezeigten Grafiken, also das Streudiagramm, die Graustufenmatrix und das Häufigkeits- oder Verteilungsdiagramm direkt auf den Drucker geleitet werden. Bei der Option für das XY- oder Streudiagramm wird noch zusätzlich ein so genanntes Boxplot zum Druck angeboten. Es handelt sich hierbei um eine Grafik, die angezeigt wird, sobald man beginnt, die Einflussgröße in Untergruppen oder Klassen zu teilen. Zum Sinn und Zweck der Klassen- und Gruppenbildung werden wir im Verlauf dieser Erörterung noch mehr erfahren.

 

 

     Wichtiger als die Ausgabe auf Drucker ist heutzutage immer mehr die Ausgabe für die digitale Weiterverarbeitung und Weitergabe. Mit dem aus anderen PS-Explore-Anwendungen bekannten Knopf für die Weitergabe nach Ergebnisse/Reports ist hierfür die Grundlage gegeben. Bei Anklicken dieses Knopfes fließen alle Grafiken in die Registerkarte für PS-Explore-Berichte im Rich-Text- Format, das auch MS-Word-kompatibel ist.

 

 

    Dieses ebenfalls aus anderen PS-Explore-Anwendungen bekannte Button dient der Überführung von neu errechneten Datenspalten in das zugrunde liegende PS-Explore-Arbeitsblatt. Die hier überführbaren Daten sind die über die Graustufenmatrix gewonnenen Gruppenzugehörigkeiten der einzelnen Fälle des Datenbestandes. Auch hierzu später mehr.

 

 

          Die mit „Matrix“ beschriftete Funktionsgruppe von Schaltelementen bezieht sich auf die Darstellung der so genannten Graustufenmatrix. Was es mit dieser Matrix auf sich hat, werden wir noch ausführlich erörtern, hier soll zunächst nur interessieren, was mit den Schaltern bewirkt wird.

 

            Mit dem ersten Wippschalter (links) lässt sich die dargestellte Graustufenmatrix vergrößern oder verkleinern. Auf diese Weise kann eine Anpassung vorgenommen werden, wenn die Matrix sehr viele Untergruppen ausweist, die nicht immer unbedingt komplett im Grafikausschnitt liegen müssen.

 

            Der zweite Wippschalter erlaubt die Verschiebung der Matrix nach oben oder unten.

 

            Der dritte Wippschalter erlaubt es abweichend von der durch das Programm selbsttätig durchgeführten Klassenbildung eine feste äquidistante Klassenbildung auszuführen. Diese muss nach Einstellung mittels des Wippschalters noch einmal zusätzlich über den „Haken-Knopf“ bestätigt werden.

 

 

Dieser Block von Schaltknöpfen dient der Handhabung der Grafiken und der Behandlung von die „Optik“ störenden Extremwerten (Ausreißern).

                                              

    Mittels des Ausrufezeichen-Knopfes können in den noch zu erörternden Boxplotgrafiken erklärende Texte eingeblendet werden. Die ist insbesondere hilfreich, wenn die Grafiken später weitergegeben oder veröffentlicht werden.

 

    Der Matrix-Knopf sorgt dafür, dass in der Graustufenmatrix benachbarte Zellen hinsichtlich deren Grauintensität angeglichen werden. Dies soll ggf. helfen durch Kontrastierung die bestehenden Strukturen besser sichtbar zu machen.

 

   Die Graustufenmatrix besitzt eine Funktion zur Klassenbildung bei der Einflussgröße. Mittels des Mauszeigers können in der Matrix Linien eingeblendet werden, welche eine Klassenbildung innerhalb eines Intervalls der Einflussgröße bewirkt. Der Pfeil-Knopf löscht diese Linien komplett und gibt so den Weg frei für eine schnelle erneute Klassenbildung nach anderen Gesichtspunkten.

 

   Der x-Knopf bewirkt, dass in die Berechnung der Graustufenmatrix nur solche Werte der Einflussgröße einbezogen werden, die eindeutig nicht als Ausreißer zu bewerten sind. Hiermit eröffnet sich die Möglichkeit Störeinflüsse per Mausklick direkt zu eliminieren.

 

    Der x-Knopf mit dem gelben Boxplot im Hintergrund entspricht von der Intention dem x-Knopf für die Graustufenmatrix. Hierbei werden die Extremwerte in der Boxplotgrafik eliminiert.

 

    Der Scheren-Knopf entspricht dem x-Knopf für die Graustufenmatrix, nur das hier quasi ein Rundumschlag gegen Störwerte vorgenommen wird. Hierbei werden die Regeln zur Bestimmung von Ausreißern mehrfach (iterativ) auf die jeweils nach einer Elimination von Extremwerten verbleibenden Werte angewandt. Dies kann, muss aber nicht unbedingt, zu einer weiteren Reduzierung von Störwerten führen und somit eine noch klarere Sicht auf die Dinge schaffen.

 

    Der Scheren-Knopf mit Boxplot ist analog dem Scherenknopf zu sehen, wobei hier wieder die Boxplotgrafik im Visier steht.

 

 

 

         Dieser Block von Schaltelementen führt zur so genannten multiplen Betrachtungsweise aller evtl. interessierender Merkmale des Datensatzes.

 

   Mittels dieses Knopfes wird jeweils für die Einflussgröße als auch für die Zielgröße eine Liste der am stärksten mit diesen korrespondierenden Merkmalen des Gesamtdatensatzes bestimmt.

 

  Über den daneben befindlichen Wippschalter wird eingestellt, wie viele korrespondiere Merkmale maximal aufgelistet werden sollen.

 

  Dieser Matrix-Kopf führt bei Anklicken zu der Berechnung und Anzeige eines so genannten multiplen oder Mehrfachstreudiagramms, in welchem alle mit der Einflussgröße und der Zielgröße korrespondierenden Merkmale angezeigt werden können. Diese Grafikdarstellung ist im Prinzip eine sehr umfangreiche eigene Analysemethode, die es erlaubt sowohl numerische als auch qualitative Merkmale in einer Gesamtschau zu betrachten und zu bewerten. Der Vorteil dieser Grafikart ist es u.a. auch, dass sie anders als viele rein numerische multiple Auswertungsverfahren auch vom Laien unmittelbar verstanden und interpretiert werden kann.

 

 

Die beiden Listfelder rechts vom Streudiagramm-Knopf enthalten nach Betätigung des Knopfes ganz links im Block  die gewünschten Liste der korrespondierenden Merkmale.

 

 

 

        Dieser Block von Schaltknöpfen dient der Aktivierung von Verfahren zur grafischen Analyse von im Datensatz enthaltenen qualitativen Merkmalen und fokussiert speziell den Zusammenhang zwischen Einfluss- und Zielgröße im Hinblick auf die verschiedenen Klassen des jeweiligen qualitativen Merkmals.

 

 

   Anklicken dieses Knopfes bewirkt die Auflistung der qualitativen Merkmale des Datenbestandes. Werden dann in der angezeigten Merkmalsliste entsprechende Merkmale ausgewählt, so erscheint nach Verlassen des Listfensters rechts unten im ViDa-Fenster eine neue Grafik. Hier werden für alle gewählten Merkmale Balkendiagramme angezeigt. Pro Merkmal wird ein Balkenpaar angezeigt. Der obere Balken zeigt die stärkste Korrespondenz des qualitativen Merkmals innerhalb einer der Klassen des Merkmals bezogen auf Einfluss- und Zielgröße an. Der untere Balken steht für die Klasse des qualitativen Merkmals, welche die schwächste Korrespondenz zwischen Einfluss- und Zielgröße besitzt.

 

           Ein Mausklick auf einen der Balken führt zur Anzeige der Korrespondenzwerte für alle Klassen des jeweiligen Merkmals. Die Werte können zwischen 0 und 100 liegen, wobei 100 die stärkste Korrespondenz bedeutet. Mit der rechten Maustaste kann man von der Einzeldarstellung der Klassenkorrespondenzen zurückkehren zur vorhergehenden MinMax-Darstellung der Korrespondenzen für alle interessierenden qualitativen Merkmale.

 

           Hinweis: Qualitative Merkmale die besonders starke Korrespondenzen zur Einflussgröße besitzen werden bei vorhergehender Betätigung des - Knopfes in der Auswahlliste blau markiert. Es lohnt sich diese Merkmale genauer zu betrachten.

 

  Dieser Knopf wird nach vorheriger Betätigung von  in der Regel versenkt dargestellt. Klick man diesen Knopf an, so wird die grafische Darstellung der Korrespondenzen wieder abgeschaltet.

 

 

 

Beispiel einer grafischen Analyse mit ViDa anhand der Granulometrie-Daten: funktionale Zusammenhänge und qualitative Daten

 

 

Mit Hilfe des oben bereits erwähnten Datensatzes „Granulometrie“ sei im Folgenden eine erste ViDa-Analyse demonstriert. Hierbei wird mit aktivierter Hilfefunktion gearbeitet. Die Einfluss- sowie die Zielgröße werden im Beispiel hier nicht mittels Hilfsfunktion gesucht und vorgeschlagen, sondern direkt eingestellt.

 

Betrachtet wird der Zusammenhang zwischen den Merkmalen Blaine und der so genannten 28-Tage-Festigkeit von Zement.

 

Der Blaine-Wert ist ein standardisiertes Maß für den Grad der Feinvermahlung von Zement. Er wird angegeben als labortechnisch mit dem Blaine-Gerät ermittelte spezifische Oberfläche (cm2/g). Standard-Portlandzement CEM I 32,5 hat etwa einen Blaine-Wert von 3.000 bis 3.500. Der Blaine-Wert soll besonderen Einfluss auf die Frühfestigkeit, die mit dem Zement erreicht werden kann haben.

 

Soll Zement auf erheblich höhere Werte als 3.500 Blaine aufgemahlen werden, so steigen die Anforderungen an die eingesetzten Mühlen und die Separations-Technik überproportional. Frühhochfeste Zemente CEM I 42,5 oder CEM I 52,5 mit Blaine-Werten von 4.000 bis 5.500 kosten wesentlich mehr als „normaler“ CEM I 32,5 aufgrund des hohen maschinellen und energetischen Aufwandes zu ihrer Herstellung.

 

 

Nach Laden der Granulometriedaten wird ViDa mittels der Schaltfläche  im Arbeitsblatt gestartet. Sofern die Hilfsfunktion bereits eingeschaltet ist, erscheint eine Info-Box mit dem Angebot einer Vorschlagsliste für interessante Analysemerkmale. Hier wird dieser Vorschlag nicht gewählt und über die Listfelder „Einflussgröße“ und „Zielgröße“ wird „Blaine“ und „28-Tage-Festigkeit“ direkt eingestellt.

 

Nach dem Einstellen der Zielgröße erscheint sofort folgendes Fenster:

 

 

 

Streicht man dabei mit dem Mauszeiger über die Graustufenmatrix, wird ein Analysetipp angezeigt, der darauf hinweist, dass man das Einflussmerkmal in Klassen aufteilen kann, indem man in der Matrix durch Mausklick Klassengrenzen einfügt. Wir werden uns dieser Möglichkeit später noch im Detail zuwenden.

 

Im Fall eines numerischen Merkmals wird im Grafikfenster oben links sofort ein xy-Diagramm angezeigt, in welchem wir als x-Merkmal Blaine und als y-Merkmal die 28-Tage-Festigkeit sehen. Die einzelnen Wertepaare des Datenbestandes werden als blaue Kästchen angezeigt. Außerdem erscheint automatisch eine an den Punkteschwarm angepasste Kurve, die den funktionalen Zusammenhang der beiden Merkmale beschreibt.

 

 

Fährt man mit dem Mauszeiger bei eingeschalteter Hilfsfunktion über das xy-Diagramm, dann kann es sein, dass ein zusätzlicher Hinweis erscheint, der ggf. darauf hinweist, dass der dargestellte Datenbestand inhomogen ist. Dies kann etwa dadurch verursacht werden, dass mehrere Untergruppen in die Datenstichprobe eingehen. In diesem Beispiel sieht man sogar sehr genau, dass rechtsseitig ein separater Punkteschwarm existiert:

 

 

 

Es liegt nun nahe, qualitative Merkmale des Datenbestandes ausfindig zu machen, die eine Erklärung für das beobachtete Phänomen geben. Hier bieten sich mehrere Vorgehensweisen an. Im xy-Diagramm sieht man, dass spätestens ab Blaine-Werten über 5000 Daten aus einer Untergruppe einfließen, die getrennt betrachtet werden sollten.

 

Man kann nun in der Graustufenmatrix jenes Teilintervall suchen, welches um 5000 liegt und dort eine Klassengrenze einfügen. Um die Klassenbildung abzuschließen fügt man noch eine zweite Linie per Mausklick auf den rechten Rand der Graustufenmatrix ein. Es erscheint anstelle des xy-Diagramms nun eine so genannte Boxplot-Darstellung, bei der gleich ein wichtiger Hinweis eingeblendet wird, nämlich, dass die Werte der gebildeten Klassen asymmetrisch verteilt sind:

 

 

 

In jedem Fall aber scheint das rechte Boxplot irgendwie „etwas anderes“ darzustellen als das linke Boxplot. Wir übergehen zunächst einmal die Frage, was hier im statistischen Sinne zu sehen ist. Wir registrieren einfach, dass unser Verdacht, es könne sich bei den Werten mit einem Blaine über 5000 um eine separate Untergruppe handeln, grafisch augenfällig präsentiert.

 

 

 

Streichen wir mit dem Mauszeiger über die rechte obere Grafik (Verteilung des klassierten Merkmals Blaine) so erhalten wir wieder einen Auswertungstipp, nämlich, dass bei Anklicken einer der Säulen bzw. „Pfeile“ der Grafik sich eine neue Analysemethode, die so genannte MOLAP, anbietet. Das dem PS-Explore-Anwender wahrscheinlich bekannte MOLAP-Verfahren stellt, die zur jeweiligen angeklickten Säule gehörigen Fälle des Datenbestandes in einem gesonderten Arbeitsblatt bereit:

 

 

Bei Doppelklick auf eine Spalte des hier dargestellten Arbeitsblattes erscheint sofort eine neue Grafik, ein Säulendiagramm, welches, im Falle eines qualitativen Merkmals, die Häufigkeiten in den einzelnen Klassen darstellt. Klicken wir auf Spalte Type erhalten wir folgendes Bild:

 

 

Die Spalte Type enthält die Zuordnung der einzelnen Fälle unseres Datenbestandes zu den verschiedenen hier erfassten Zementsorten. Ganz klar zeigt sich, dass hier mit einem Sonderfall ausschließlich Werte des Zementtyps CEM II / A-M repräsentiert werden.

 

Wir haben hier also über die Klassenbildung per Graustufenmatrix und via Klassenhäufigkeitsdiagramm per MOLAP genau die Fälle isoliert bzw. identifiziert, die zu einer ganz bestimmten Zementsorte gehören. Wer die Möglichkeiten der MOLAP-Prozedur kennt, weiß, dass er nun noch verschiedene statistische Untersuchungen über die identifizierte Zementsorte durchführen kann.

 

In hier vorgestellten Beispiel haben wir eigentlich per Zufall oder Intuition herausgefunden, dass das Merkmal Type zur Erklärung des xy-Diagramms und seiner besonderen Darstellung der Wertepaare führt.

 

 

Welche Möglichkeiten gibt es nun noch, das gefundene Phänomen näher zu untersuchen?

 

Statt der Klassenbildung in der bisher noch „geheimnisvollen“ Graustufenmatrix wäre ein anderer Weg möglich, auf welchen uns das Programm nebenbei zuvor schon hingewiesen hat:

 

 

 

Mittels des „Brillenknopfes“ im Funktionenpanel von ViDa hätte man zunächst einfach all jene Merkmale sich aufzeigen lassen können, die mit der Einfluss- und/oder Zielgröße in Zusammenhang stehen.

 

Klicken wir nun die „Brille“ einmal an und sehen, was uns ViDa zu erzählen hat:

 

 

 

Offenbar hat ViDa wenigstens ein qualitatives Merkmal ausfindig gemacht, das uns eine Erklärung des bereits auf anderem Wege gelüfteten „Geheimnisses“ der Zementsorte CEM II / A-M gibt. Wir lassen uns also durch Klick auf Schaltfläche „Ja“ der sich geöffnet habenden Info-Anzeige die Liste der qualitatives Merkmale anzeigen. Vorab informierte uns ViDa, das besonders augenfällige Merkmale in der Liste blau gekennzeichnet seien.

 

Tatsächlich zeigt sich nun auch hier, dass die Zementsorte (Merkmal Type) Aufklärung des beobachteten Phänomens liefert. Diese ist dabei unter den drei im Datenbestand vorhandenen qualitativen Merkmalen die einzige wirklich interessierende Größe, denn andere Merkmale sind nicht blau unterlegt:

 

 

 

Durch Mausklick setzen wir nun ein Häkchen vor „Type“ und teilen ViDa so mit, dass wir Type im Hinblick auf Blaine und 28-Tage-Festigkeit weiter untersuchen möchten.

 

Es erscheint dann folgendes Bild:

 

 

 

Neu ist unten rechts im ViDa-Fenster eine Balkengrafik, welche uns den Einstieg in eine weitere Analyse des Phänomens eröffnet. Diese Grafik zeigt uns für alle jeweils ausgewählten qualitativen Merkmale, in unserem Fall nur für das eine Merkmal Type, die in den Untergruppen (hier Zementsorten) vorgefundenen Zusammenhänge an. Genau genommen wird zunächst nur der Zusammenhang zwischen Blaine und 28-Tage-Festigkeit gezeigt, der der Zementsorte mit stärkstem und jener mit schwächstem Zusammenhang der Hauptuntersuchungsgrößen entspricht. Der Korrespondenzindex als Indikator liegt hierbei zwischen 0 (kein Zusammenhang)  und 100 (stärkster Zusammenhang, 100%).

 

Auffallen sollte, dass in der Fußnote des Diagramms die festgestellte Korrespondenz der Gesamtstichprobe (also ohne Berücksichtigung der Zementsorte) angezeigt wird. Diese beläuft sich auf 72%. Es scheint so, dass der Zusammenhang zwischen Blaine und 28-Tage-Festigkeit nur künstlich erhöht wird und nach Aufteilung in entsprechende Unterstichproben deutlich absinkt.

 

Wie dies im Detail über alle Zementsorten aussieht, lässt sich durch Mausklick auf eine der „Korrespondenzsäulen einer Gruppe feststellen. Klicken wir auf den blauen Balken mit der Beschriftung 29, so erscheint eine neue Grafik, die nun die Korrespondenzen aller Zementsorten anzeigt:

 

 

 

 

Am ehesten ist noch eine Korrespondenz für CEM I 42,5 HS feststellbar, während CEM II / A-M nahezu keine Korrespondenz aufweist.

 

Klickt man innerhalb der Grafik rechts unten mit der rechten Maustaste, erscheint die Option „zurück“ über welche man zur vorhergehenden Min-Max-Grafik der Korrespondenzen zurückgelangt:

 

 

 

Man beachte hier, dass nun in der xy-Grafik links oben wieder das Streudiagramm zu sehen ist, jedoch nun nicht mehr mit einer Funktion über den Gesamtdatenbestand, sondern mit den jeweiligen Funktionen für die einzelnen Zementsorten. Klickt man bereits im Korrespondenzdiagramm auf einen der Klassenbalken der Zementsorten, dann erhält man z.B. folgende Darstellung:

 

 

 

Hier ist jeweils nur der zu der angeklickten Klasse (CEM I 42,5) gehörige Punkteschwarm dargestellt. Am Fuße des Diagramms sieht man zusätzlich noch die ermittelte Formel für die Anpassungskurve eingeblendet. Die x-Skala bleibt dabei auf den Gesamtwertebereich des Datenbestandes über alle Zementsorten eingestellt, damit man einen Bezug zum Wertebereich auch der anderen Zementsorten behält.

 

 

 

Beispiel weiterer Analysemöglichkeiten von ViDa anhand der Iris-Daten: Das Mehrfachdiagramm

 

Natürlich beschränkt sich ViDa nicht allein auf die zusätzliche Einbringung von qualitativen Merkmalen in eine zunächst zwei Analysemerkmale betreffende Analyse. Es ist vielmehr möglich sowohl die zwei Hauptmerkmale (Einflussgröße und Zielgröße) als auch weitere qualitative und numerische Merkmale in eine Gesamtschau aller Variablen einzubringen. Zu diesem Zwecke ist es nicht einmal notwendig bestimmte Einfluss- und Zielgrößen zu definieren.

 

Wir laden als Beispiel einmal den Iris-Datensatz ins Arbeitsblatt und starten ViDa. Als einzustellende Hauptmerkmale wählen wir willkürlich Blüte.B und Blüte.L. Sodann klicken wir auf das im Bild unten mit rotem Kreis markierte Button. Im sich damit öffnenden Fenster wählen wir die noch im Datenbestand verfügbaren weiteren drei Merkmale aus und schließen das Fenster „Variablenauswahl“ über das x-Button:

 

 

 

 

Es öffnet sich dann automatisch das neue Fenster „Mehrfachdiagramme“:

 

 

 

 

In „Mehrfachdiagramme“ sehen wir nun alle 5 Merkmale des Datensatzes in paarweiser Kombination miteinander. Im oberen Teil des Diagramms (obere Dreiecksmatrix)  sehen wir verschiedene Streudiagramme und Boxplot-Darstellungen. Die Diagonale von oben links nach unten rechts zeigt uns Säulendiagramme der einzelnen fünf Merkmale. Im unteren Dreieck der Matrix sehen wir grau eingefärbte Felder mit zweistelligen positiven und negativen Zahlen.

 

Die Zahlen in den grauen Feldern entsprechen den Korrespondenzwerten je zweier Merkmale und können zwischen -100 und +100 liegen. 100 bedeutet 100%iger Zusammenhang zwischen zwei Merkmalen, 0 bedeutet kein Zusammenhang und -100 steht für 100%igen umgekehrten Zusammenhang. Die Intensität der Graufärbung entspricht der absoluten Höhe der Korrespondenz. Die Säulendiagramme entsprechen im Falle numerischer Merkmale Histogrammen. Das zugrunde liegende Merkmal wurde dabei in 9 gleichgroße Intervalle geteilt. Liegt hingegen ein qualitatives Merkmal vor, so werden jeweils die Häufigkeiten in den einzelnen Klassen des dargestellten Merkmals wiedergegeben.

 

Die Streudiagramme im oberen Matrixteil repräsentieren jeweils für die in der jeweiligen Zeile und Spalte am Rand bezeichneten Merkmale deren Punkteschwarm im xy-Diagramm. Die Boxplot-Darstellungen werden generiert, wenn ein numerisches mit einem qualitativen Merkmal gekreuzt wird. Für jede Klasse des qualitativen Merkmals wird ein Boxplot erzeugt, welches die Streuung der in dieser Klasse vorliegenden Werte des numerischen Merkmals darstellt. Die gelben Rechtecke eines Boxplots stellen die „inneren“ 50% der Werte des numerischen Merkmals dar. Die senkrechten bzw. waagerechten Linien des Boxplots entsprechen jeweils dem Streubereich der oberen und unteren 25% der Werte des Merkmals abzüglich der Extremwerte, falls vorhanden. Extremwerte werden in den äußeren Bereichen eines Boxplots als graue Punkte dargestellt dargestellt. Handelt es sich um besonders auffällige Werte, so werden diese als Sterne angezeigt.

 

Um das Diagramm nicht zu überladen sind bestimmte Informationen durch Mausklick separat abrufbar eingerichtet. Ein Mausklick auf ein Boxplot gibt zum Beispiel die Klassenbezeichnung und die Stichprobengröße in der Klasse preis:

 

 

 

 

Entsprechendes gilt für einen Klick auf eine Säule der Diagramme in der Diagonalen:

 

 

 

[0,1 bis 0,37) mit n=41 bedeutet z.B., dass in der angeklickten Säule 41 Werte untergebracht sind und diese größer oder gleich 0,1 und kleiner als 0,37 sind. Man beachte ganz besonders, dass die Werte der jeweils angeklickten Klasse ebenfalls in allen anderen Streudiagrammen der Gesamtmatrix als rot eingefärbte Punkte gekennzeichnet werden. Dies gilt auch, bei Anklicken von Säulen qualitativer Merkmale:

 

 

 

 

In diesem Fall lässt sich sehr schön die Irisart Virginica mit ihren Ausprägungen hinsichtlich der verschiedenen numerischen Merkmale in Abgrenzung zu den Werten der anderen Spezies zeigen.

 

Neben der durchgehenden Markierung einer bestimmten Klasse im xy-Diagramm besteht auch die Möglichkeit einzelne Punkte des Diagramms anzuklicken und Informationen abzufragen. Hierzu stellt man im Hauptpanel von ViDa bei Identifikation ein dort im Listfeld angebotenes Merkmal ein, das dann mit der entsprechenden Ausprägung (Wertetikett) angezeigt wird

 

Darüber hinaus wird ein in einem xy-Diagramm angeklickter Punkt auch gleichzeitig in allen weiteren xy-Diagrammen und in den Boxplots gesondert durch ein Dreieckssymbol gekennzeichnet. Hierbei ist es möglich auch mehrere Punkte anzuklicken:

 

 

 

 

Die hervorgehobenen Punkte können durch nochmaliges Anklicken wieder als einfache Punkte dargestellt werden. Die Technik des besonderen Hervorhebens einzelner Datenpunkte ist z.B. sehr praktisch, wenn man Ausreißerwerte näher untersuchen möchte. Man gewinnt hierdurch etwa die Information, ob ein Wert nur hinsichtlich eines bestimmten Merkmals auffällig ist oder eher durchgängig auch über weitere Merkmale.

 

 

Weitere Analysemöglichkeiten der ViDa-Mehrfachdiagramme anhand einer Kaufpreissammlung

 

 

Natürlich ist es auch möglich in den Mehrfachdiagrammen nach einem ganz bestimmten Fall des Arbeitsblattes zu suchen. Hierzu klickt man in einem Streudiagramm oder Boxplot mit der rechten Maustaste um das kontextsensitive Popup-Menü aufzurufen. Man hat dann die Wahl zwischen einer Volltextsuche über das komplette Arbeitsblatt oder, sofern definiert, über den so genannten Primärschlüssel. Man gibt dann den Suchbegriff ein und erhält bei erfolgreicher Suche den entsprechenden Fall in den Mehrfachdiagrammzellen angezeigt.

 

 

Hier im Beispiel erfolgt Klick mit rechter Maustaste über einem der Boxplots oder XY-Diagramme. Dann über „Suche“ Auswahl der Primärschlüsselsuche.

 

 

 

Es öffnet sich dann ein einzeiliges Eingabefenster, in welchem der Schlüssel eingegeben wird. Dann Bestätigung mit „Enter“-Taste. In den einzelnen Diagrammen sieht man dann den gewünschten Fall als Dreieck (hier hellblau) angezeigt:

 

 

 

 

Diese Art der Anzeige ermöglicht es sehr schnell und einfach, sich über die Position eines Falles im Hinblick auf einen bestimmten Satz an interessierenden Merkmalen einen gezielten Überblick zu verschaffen. Gezielte Informationen kann man dann durch linken Mausklick in den verschiedenen Diagrammen abfragen. Hier wurde auf die rechte Säule des Histogramms zu norm.Kaufpreis geklickt und es erscheint der Wertebereich, in welchem der Fall liegt:

 

 

Im folgenden Beispiel wurde die entsprechende Box im Diagramm zur Wohnlage angeklickt und man erhält das Info zur Lagezugehörigkeit:

 

 

 

Nebenbei bemerkt: Die Darstellung der Merkmale im Mehrfachdiagramm erfolgt so, dass jeweils zwei miteinander stark korrespondierende Merkmale in der Matrix nebeneinander stehen. Hierdurch lassen sich Strukturen in den Merkmalen noch besser erkennen. Merkmale in einem Mehrfachdiagramm, die klare Zusammenhänge besitzen ordnen sich dann so an, dass die dunkelgrauen Felder der Korrespondenzwerte entlang der Diagonalen von links oben nach rechts unten stehen.

 

 

Noch ein Trick zum interaktiven Umgang mit den Mehrfachdiagrammen:

 

Im nachstehenden Bild sehen wir z.B.in der Merkmalskombination „WohnflächeGebäude“ x norm.Kaufpreis“ (rote Markierung) einige Extremwerte, deren Existenz dazu führt, dass das Gros der Werte links gedrängt erscheint und nur die wenigen Extremwerte einzeln sichtbar sind. Was tun, damit man auch das Gros unter die Lupe nehmen kann?

 

 

 

Hier bietet sich ganz einfach eine Zoom-Funktion an. Man klickt mit dem Mauszeigen oben links in dem zu vergrößernden Bereich, hält die linke Maustaste gedrückt und zieht über dem interessierenden Bereich ein Rechteck auf. Bei Loslassen der Maustaste erscheint dann der fokussierte Bereich:

 

 

 

Rückgängig machen Sie den Zoom durch aufziehen eines Rechtecks von rechts unten nach links oben. Die Zoomtechnik funktioniert in allen Diagrammarten der Matrix.

 

 

 

 

Natürlich ist es auch denkbar, dass im Mehrfachdiagramm zwei qualitative Merkmale verglichen werden sollen. In einem solchen Fall bietet sich als Auswertung eine Kreuztabelle an. Da eine Kreuztabelle als grafisches Element im Mehrfachdiagramm zu unübersichtlich wäre, wird hier eine Umsetzung der Zellenhäufigkeiten der jeweiligen Kreuztabelle in eine Graustufenmatrix durchgeführt. Bei Bedarf kann man durch Mausklick auf diese Matrix die Ausgabe der eigentlichen Kreuztabelle in einem gesonderten größeren Fenster anfordern.

Die Zeilen und Spalten der Kreuztabelle werden im Übrigen automatisch hinsichtlich ihrer Zellenbesetzung (Häufigkeit) „umsortiert“, so dass ähnlich besetzte Merkmalsausprägungen nebeneinander stehen. Damit zeigen sich „Verwandtschaften“ zwischen Klassen der kombinierten Merkmale deutlicher und geben Aufschluss über mögliche Zusammenhänge:

 

 

 

 

Untersuchungen zur Stärke des Einflusses von Merkmalen des ViDa-Mehrfachdiagrammes

 

Betrachtet man die Daten und Merkmale des Mehrfachdiagrammes von ViDa, so stellt sich vielleicht auch die Frage nach kausalen Einflüssen. Uns interessiert z.B. nicht allein der Einfluss unserer beim Einstieg in Vida zu wählenden Haupteinflussgröße Ursprungsbaujahr als Bestimmungsgröße des normierten Kaufpreises. Da wir im Mehrfachdiagramm in der Regel meist schon weitere Merkmale in die Betrachtung einbezogen haben, will man sicher auch einmal schnell wissen, welchen Einfluss die zusätzlichen Merkmale auf den Kaufpreis besitzen.

 

 

 

Unsere ursprüngliche Zielgröße ist im Mehrfachdiagramm rot gekennzeichnet. Wenn wir auf den Namen der Zielgröße doppelklicken, führt ViDa eine Analyse durch, bei der es den Einfluss der verschiedenen anderen Merkmale der Matrix auf die Zielgröße untersucht. Es ist dabei gleichgültig, ob die Zielgröße numerischer oder qualitativer Natur ist. Die benutzten Verfahren zur Bestimmung des Einflusses gehören in den Bereich der multivariaten statistischen Methoden und geben im Allgemeinen eine gute Schätzung des Einflusses wieder. Übersichtlich dargestellt werden die Ergebnisse der Berechnungen in einem einfachen Kreisdiagramm, welches die Prozentanteile der Einflussmerkmale angibt:

 

 

 

 

Das Diagramm der Einflussanteile besitzt ein Popup-Menü, mit dessen Hilfe die Grafik angepasst werden und auf Drucker, in die Zwischenablage oder in den PS-Explore-Reportbereich weitergegeben werden kann:

 

 

 

Die Legende des Kreisdiagramms lässt sich auch abschalten. Die Merkmalsnamen erscheinen dann zusammen mit den Prozentanteilen mit denen sie Einfluss auf die Zielgröße haben direkt an den jeweils zugehörigen Kreissegmenten. Über die Option Zusammenfassung können Sie kleinere Segmente in einem Zusammenfassen, was die Übersichtlichkeit erhöhen kann.

 

 

 

Beachten Sie, dass die Segmente entsprechend ihrer Größe absteigend sortiert gegen den Urzeigersinn ins Kreisdiagramm eingefügt werden!

 

Die als „nicht erklärt“ ausgewiesenen Prozentanteile geben wieder, was die im Modell befindlichen Merkmale nicht an Einfluss aufbringen. Dieser Anteil könnte reduziert werden, wenn man weitere Merkmale in die Untersuchung einbezieht.

 

Das evtl. auftretende Segment „kombinierte Einflüsse“ besagt, dass mehrere Merkmale der Betrachtung im Verbund eine besondere Wirkung auf die Zielgröße besitzen. Z. B. können sich zwei Merkmale, wenn sie in einer bestimmten Ausprägung auftauchen stärker wirken als im „Normalfall“. Um die Natur solcher Wechselwirkungen zu ergründen lohnt sich oft ein besonderer Blick auf die Mehrfachdiagrammmatrix.

 

Nicht nur die eigentliche Zielgröße lässt sich allerdings im Hinblick auf den Einfluss der anderen Merkmale durch Doppelklick auf den Spaltennamen der Matrix näher untersuchen. Klicken wir z.B. auf den Titel Wohnlage, so erscheint folgendes Bild:

 

 

 

 

Bei der Berechnung dieses Diagramms wurde gleichsam die Wohnlage zur Zielgröße „umfunktioniert“ und der „reine“ Einfluss der anderen Größen auf die Wohnlage betrachtet. Natürlich darf man dies nicht notwendigerweise im Sinne eines Kausalmodells verstehen. Das Diagramm besagt in diesem Fall einer qualitativen „Zielgröße“, dass man die Wohnlage mit etwa 60%iger Sicherheit vorhersagen könnte, wenn man das Ursprungsbaujahr, den Gebäudetyp, den Kaufpreis und die Flächen kennt.

 

 

 

Grafischbasierte Datenselektion in ViDa-Mehrfachdiagrammen

 

Weiter oben wurde bereits auf die Verbindung von ViDa und MOLAP eingegangen. Wer die Vorzüge von MOLAP zum Zwecke der visuell orientierten Datenselektion kennt, der wird auch sehr schnell die grafischbasierten Datenselektionsmöglichkeiten von ViDa schätzen lernen, denn hier bietet der „multiple Blick“ auf die Daten noch anschaulichere und gezieltere Selektionsmöglichkeiten.

 

In MOLAP wird die Selektion bekanntlich schrittweise aus jeweils einem Balken- bzw. Säulendiagramm heraus vorgenommen. Hierdurch ist man zwar immer informiert über die in einer oder mehreren Auswahlklassen eines Merkmals vorliegende Anzahl von Fällen, jedoch sieht man nicht, wie sich ein Selektionsschritt im Verbund mit anderen qualitativen und numerischen Merkmalen auswirkt. Dies ist aber gerade wichtig, wenn man mit Hilfe einer Selektion eine homogene Gruppe von ähnlichen Fällen auswählen möchte.

 

Genau dies ermöglicht die Selektionsmöglichkeit von ViDa. Im Fall einer Kaufpreissammlung, wie sie bei Gutachterausschüssen für Grundstückswerte geführt wird, kann ViDa so etwa in außergewöhnlich einfacher und dazu eleganter Art bei der Bereitstellung von Vergleichsfällen dienlichst sein. Oder im Falle einer Marketingaktion kann ViDa so direkt  die Auswahl einer Zielgruppe ermöglichen.

 

Im Fall des hier gegebenen Beispiels wird als erster Auswahlschritt aus dem Gesamtdatenbestand die Gruppe der „guten Wohnlagen“ ausgewählt. Dies geschieht im Mehrfachdiagramm einfach durch Klick auf die Wohnlagensäule der guten Wohnlagen.

 

Die Säule wird dann zur besseren Kennzeichnung direkt rot dargestellt. Man kann zuvor verschiedene Anzeigemodi wählen. Die beiden wichtigsten Modi sind der für die „Beibehaltung der Gesamtanzeige“ und der Modus für die „Darstellung des selektierten Datenbestandes.“ Der letzte Fall ist besonders interessant, wenn man in den jeweiligen Selektionsschritten durch Klick auf den Titel der Zielmerkmalspalte (norm.Kaufpreis) gleich auch das Kreisdiagramm mit den Einflussanteilen der verschiedenen Merkmale des Diagramms betrachten will. Hier kann man ggf. die „Verbesserung der Einflüsse“ unmittelbar anschauen und bewerten.

 

Im hier gezeigten Fall lassen wir die Gesamtanzeige aktiv. Es gibt 113 Fälle in guter Wohnlage die man im Hinblick auf Ursprungsbaujahr, WohnNutzfläche und norm.Kaufpreis sogleich in den entsprechenden Streudiagrammen anschauen kann.

 

 

 

In der folgenden Abbildung wurde die Selektion in Gebäudetyp mit Klick auf Klasse „Dreifamilienhaus“ und Wohnnutzfläche von 86 bis 105 qm weiter eingegrenzt:

 

 

Mittels rechter Maustaste kann man nun das Popup-Menü im ViDa-Mehrfachdiagramm aktivieren und die Auswahl über „Selektion merken“ in das Arbeitsblatt überführen:

 

 

Bei späterer Rückkehr ins Arbeitsblatt findet man im Falle der hier benutzten Datei dann am rechten Rand des Arbeitsblattes eine neue Spalte mit dem Titel „XYMult.SelVar.170“. Hier sind die selektierten Fälle als 1 mit dem Wertetikett „ausgewählt“ gegenüber 0 (nicht ausgewählt) gekennzeichnet:

 

 

Natürlich kann man in ViDa die Selektionen jederzeit rückgängig machen und neue Selektionen durchführen. Mittels Popup-Menü und „Selektion aufheben“ wird die bestehende Selektion auf einen Schlag rückgängig gemacht. Es ist jedoch auch genauso möglich, durch Klick auf die jeweiligen Säulen in den Histogrammen einzelne Selektionsschritte wieder aufzuheben.

 

 

 

Möglichkeiten der ViDa-Graustufenmatrix dargestellt anhand einer Kaufpreissammlung

 

Die Graustufenmatrix wurde bislang nur erwähnt, jedoch fehlen noch Hinweise zu ihrer Bedeutung und Interpretation. Erklärt sei die Graustufenmatrix und ihre Implikationen anhand der bereits vorgestellten Kaufpreissammlung eines Gutachterausschusses für Grundstückswerte.

 

Nach Laden der Kaufpreisdaten wurde hier zunächst per Hilfsfunktion ein Datencheck, wie schon weiter oben gezeigt, durchgeführt. Dies führte zu einer längeren Liste an vom System vorgeschlagenen potentiellen Analysevariablen. Zur Vorbereitung eines Vorschlages muss das ViDa-System im Fall einer Kaufpreissammlung eine erhebliche Zahl von Merkmalen und Datensätzen durchscannen und bewerten. Die kann zu nicht gerade geringen Laufzeiten führen. Es ist daher zu empfehlen ggf. doch schon eine gewisse Vorauswahl an sinnvollen Merkmalen zu treffen. Hierbei kann die Definition von Spaltenprofilen sehr nützlich sein, bei der alle überflüssigen Merkmale ausgeblendet werden und in der Folge von ViDa unberücksichtigt bleiben.

 

Hier im Beispiel wurde dann als eine der vorgeschlagenen Einflussgrößen das Merkmal Ursprungsbaujahr gewählt. Es blieben dann 7 Merkmale, von denen das System meinte, diese seien für eine weitere Untersuchung interessant:

 

 

 

 

Für die Darstellung des Beispiels wurde nun das Merkmal norm.Kaufpreis (normierter Kaufpreis) ausgesucht. Ohne Frage wird ein Zusammenhang zwischen Baujahr und Kaufpreis einer Immobilie bestehen. Die Frage ist natürlich auch, welche Merkmale können im Kontext einer Korrespondenz der beiden Merkmale noch eine Rolle spielen? Ferner, wie schauen die funktionalen Zusammenhänge aus, gibt es bestimmte nicht-lineare Relationen. Und auch: lässt sich etwa durch Klassenbildung (hier über das Ursprungsbaujahr) eine Vereinfachung der Darstellung erreichen und evtl. auch Zusammenhänge besser sichtbar machen?

 

Schauen wir uns zunächst einmal die grafischen Darstellungen von ViDa ganz unbefangen an:

 

 

 

Das xy-Diagramm ist im Prinzip klar und birgt wenig Überraschungen. Ein fast horizontaler Verlauf der Kaufpreise bis etwa 1950. Danach ein stärkerer Anstieg bis 2009. Hierdurch ergibt sich beim Versuch durch den Punkteschwarm eine Anpassungslinie zu ziehen eine Kurve, also ein nicht linearer Verlauf. Das Verteilungsdiagramm zeigt insgesamt 11 Baujahresklassen, wobei die ersten 3 Klassen 1846 bis 1910 eher schwach besetzt sind. Warum hat das Programm wohl ausgerechnet 11 Klassen gebildet?

 

Eine erste Erklärung gibt das Diagramm der Graustufenmatrix. Ohne zu wissen, was die Graustufen der Gesamtmatrix und die rosa bis rot gefärbten Zellen in der Diagonale von unten links nach oben rechts bedeuten, wird man eine gewisse Struktur erkennen. Auch hier werden 11 Klassen bzw. Spalten abgebildet. Die linke Spalte zeigt unten eine hellrosa Zelle und darüber langsam von hellgrau bis schwarz verlaufende Zellen. Die Spalten 2 bis 7 zeigen eine sehr ähnliche Tönung der Zellen im Verlauf von unten nach oben. Spalte 8 gewinnt an Grauintensität jedoch erreicht sie nicht das Dunkelgrau bis Schwarz der 3 rechts stehenden Spalten. Die Rosafärbung der Diagonalzellen verhält sich recht analog zu denen der grauen Elemente. Die letzte (11.) Spalte macht noch einen durchaus sichtbaren Grausprung.

 

Dem optischen Eindruck nach läge es nun nahe die 11 vom Programm vorgeschlagenen Klassen in 5 Klassen zusammenzufassen. Dies können wir sehr einfach per Mausklick, indem wir mit dem Mauszeiger in der Nähe oder direkt auf den Rand der jeweils in Frage kommenden Spalte klicken.

 

Als Ergebnis unserer Klassenbildung per Mausklick ergibt sich eine entsprechend sinnvolle Änderung bei den anderen Diagrammen des ViDa-Fensters. Statt des Streudiagramms sehen wir nun ein Mehrfachboxplot. Das Häufigkeitsdiagramm trägt ebenfalls der Klassenbildung Rechnung, indem nun jeweils an den Klassenmittelwerten (norm.Kaufpreis) über der x-Achse die Säulen zu den Klassen eingezeichnet werden. Dabei entspricht die Säulenhöhe der Klassengröße (Häufigkeiten).

 

Besonderes Interesse sollte nun das Mehrfachboxplot wecken, denn hier sind wichtige Informationen über die Beschaffenheit der von uns gebildeten Klassen zu finden. Die Boxplots selbst sind in unserem Fall entlang der x-Achse von links nach rechts aufsteigend zu sehen. Da die Klassenbildung über das Ursprungsbaujahr erfolgt ist bedeutet dies, dass mit steigendem Baujahr auch der normierte Kaufpreis wächst. Dies ist nun nichts atemberaubend Neues, denn dies zeigte uns ja bereits das xy-Diagramm vor der Klassenbildung. Interessant ist vielmehr die Information unterhalb der horizontalen Achse:

 

 

 

Hier findet man neben der Angabe der unteren und oberen Intervallgrenze zu jedem Boxplot auch Symbole der Art  *> oder ***> etc.. Diese Symbole weisen hin auf feststellbare Unterschiede zwischen den gebildeten Klassen zum Merkmal norm.Kaufpreis. *> rechts von einer Intervallangabe bedeutet, dass der Unterschied zwischen der zugeordneten Klasse bedeutsam ist, maximal sind drei Sterne erreichbar, wobei die Anzahl der Sterne die Deutlichkeit oder Stärke des Unterschiedes im Merkmal (norm.Kaufpreis) darstellt.

 

Eine Zeile unterhalb der Intervall- und Bedeutsamkeitsangaben findet man noch 3 durch Schrägstrich getrennte Zahlen. Der erste Wert entspricht dem Mittelwert der Fälle in dieser Klasse bezogen auf die Untersuchungsgröße norm.Kaufpreis ( also die Einflussgröße). Der zweite Wert entspricht dem Median und der dritte Wert ist die Klassengröße (Häufigkeit).

 

Die Boxplots selbst sind im „Normalfall“ gelb ausgefüllt. Es können aber auch Töne zwischen rosa bis rot vorkommen. Dies sind Alarmfarben die besagen, dass die Verteilung der Werte innerhalb einer Klasse inhomogen ist. D.h. wenigstens, die Verteilung ist nicht wirklich symmetrisch, was darauf hindeuten kann, dass die Klassen noch weiter differenzierbare Untergruppen enthalten.

 

Es liegt nun nahe, mit den Klassen ein wenig zu experimentieren, also zu schauen, was bei den Boxplots geschieht, wenn man im Graustufendiagramm weitere Klassengrenzen einfügt oder entfernt. Die Entfernung einer Linie geschieht dabei durch Mausklick auf dieselbe. Wir fügen hier einmal eine Linie bei 1962 ein:

 

 

 

 

Das Boxplot 1897 bis 1972 wird nun direkt in 2 Boxplots geteilt. Im linken der beiden Boxplots liegt nun (gelbe Farbe) offenbar eine symmetrische Verteilung vor, aber die Mittelwerte und Mediane sind nicht als bedeutsam unterschieden gekennzeichnet. Falls daher keine fachinhaltlichen Gründe dem entgegenstehen, kann man die Trennung wieder rückgängig machen.

 

Es liegt evtl. nahe, bestimmte Klassen bis auf Einzelfallebene zu untersuchen. Hier gibt es die oben bereits erwähnte Möglichkeit im Verteilungsdiagramm oben recht auf eine der zu untersuchenden Säulen zu klicken. Bei Klick mit der rechten Maustaste erscheint dann ein Arbeitsblatt dieser Art:

 

 

 

Hier wurde mit rechts auf die „Säule“ zum Intervall [1867 bis 1897) geklickt. Dadurch öffnet sich ein Arbeitsblattfenster, welches uns die 7 Fälle dieser Klasse anzeigt; und zwar mit den Spalten der Einflussgröße und der Zielgröße, sowie dem unter Identifikation eingestellten Merkmal Wohnlage.

 

Klickt man statt mit rechter mit der linken Maustaste, so öffnet sich der gesamte Datenbestand zu den Fällen der Klasse in der bekannten MOLAP-Prozedur von PS-Explore. Hier hat man vielfältige zusätzlich Auswertungs und weitere Selektions- und Tabellierungsmöglichkeiten. Im Beispiel hier wurde die Zellenstatistik über die Spalte norm.Kaufpreis aktiviert:

 

 

 

 

Neben numerischen Zielgrößen ist es auch Möglich qualitative Merkmale als Einflussgrößen auszuwählen. Hier sei nur ein Beispiel einer vielleicht nicht uninteressanten Anwendung gegeben. Als Einflussgröße wird hier das Merkmal Gemarkung ausgewählt, als Zielgröße bleibt der norm.Kaufpreis eingestellt:

 

 

 

 

In diesem Fall erscheint in der Graustufenmatrix ebenfalls eine interessante Struktur. Die einzelnen Klassen wurden nämlich automatisch so umgeordnet, dass Klassen mit ähnlichen Graustufenmustern beieinander stehen. Hierdurch findet eine Gruppierung und implizit eine Zusammenfassung der diversen Klassen statt, so dass man Gemarkungen, die im normierten Kaufpreis ähnliche Werte haben, direkt nebeneinander stehen.

 

 

Abschließende Erläuterungen

 

Im letzten Beispiel wird am schnellsten offenbar, wobei es sich bei den Graustufenkodierungen genau handelt. Wie im Kopf der Grafik angezeigt handelt es sich um Mittelwertdifferenzen. Für jede der in die Untersuchung eingehenden Klassen wird der Mittelwert berechnet. Sodann werden alle Differenzen einer jeweiligen Klasse zu den anderen Klassen berechnet und schließlich eine entsprechend intensive oder weniger intensive Graustufe ermittelt.  Wahrnehmungspsychologisch weitaus besser und übersichtlicher werden auf diese Weise die zentralen Zusammenhänge sicht- und deutbar. Jede Zelle der Matrix entspricht dem paarweisen Vergleich zweier Klassenmittelwerte. Im vorigen Beispiel also der durchschnittlichen Kaufpreise. Eine weiße Zelle besagt, es gibt praktisch keinen Unterschied eine schwarze Zelle zeigt den größten Mittelwertunterschied an. Die roten Zellen sind die farbkodierten Mittelwerte in den einzelnen Klassen.

 

Was die Gemarkungen angeht, so lassen sich auf der Basis der Graustufenmatrix nun Gruppen zusammenfassen:

 

 

 

Die Boxplotgrafik hierzu zeigt in allen Fällen bedeutsame Unterschiede im Kaufpreis an. Natürlich können fachinhaltliche Überlegungen zu anderen Zusammenfassungen der Klassen führen, diese sollten hinsichtlich des Kaufpreises jedoch nicht allzu weit vom Programmvorschlag entfernt liegen.

 

 

Sehr viel mehr gäbe es hier noch zu zeigen, denn die erwähnten Möglichkeiten von ViDa sind noch nicht alle beschrieben. Weitere Ausführungen hierzu und insbesondere Seminare und Workshops, die in alle Tricks und Raffinessen des Systems einweihen, werden von VGSPS GmbH ab Herbst angeboten (Info unter 0800 my VGSPS).