Stand: 20.11.2002
Diese Internet-Seite wurde direkt und per Knopfdruck mit dem PS-Explore NC System erstellt. Der Entsprechende Programmteil hierfür
ist im Modul PS-Explore/QuerySys enthalten. Mit PS-Explore NC/QuerySys recherchieren und analysieren Sie nicht nur, sondern
generieren Ihre Ergebnisse auch sofort Internetfähig.
Skalierung ordinaler und nominaler Merkmale mit dem PS-Explore NC System
Die überwiegende Zahl der multivariaten Verfahren, wie etwa Regressions-, Matrix-, Faktorenanalyse, benötigen quantitative Daten, also
Daten die entlang einer kontinuierlichen Maßskala abgebildet werden können, z.B. Entfernungen, Gewichte, Preise, Umsätze etc.. Oft
liegen jedoch Daten nur als Rangwerte vor (schlecht, mittel, gut u.ä.) oder auch nur als rein kategorielle Daten (Süd, Ost, West, Nord).
Solche Daten können unter bestimmten Voraussetzungen jedoch auf ein höheres Datenniveau gehoben werden. Die Methoden hierzu
werden unter dem Begriff Skalierungsverfahren zusammengefasst.
Die in PS-Explore NC implementierten Ansätze sind die der „marginalen Normalisierung“, der „Lancaster-Skalierung“ und der sog.
„Calibration Patterns“ (Eich-Tafeln).
Skalierung ordinaler Merkmale mittels des Verfahrens der marginalen Skalierung
Bei der "marginalen Skalierung" werden den Rangzahlen eines ordinalen Merkmals Werte derart zugeordnet, dass eine möglichst
gute Annäherung des skalierten Merkmals an die Standardnormalverteilung erzielt wird. Hat man ein Merkmal mit k Klassen, so wird,
anschaulich gesprochen, die Fläche unter der Dichtefunktion der Standardnormalverteilung in k Stücke aufgeteilt, deren Größe der
relativen Häufigkeit der k Merkmalsklassen entspricht.
Verfahrenstechnisch bestimmt man also zunächst die relativen und hieraus dann die kumulierten Häufigkeiten, aus denen dann die
Quantile der Standardnormalverteilung berechnet werden. Aus diesen wiederum werden schließlich die Werte der Dichtefunktion
der Standardnormalverteilung bestimmt. Die Division der Differenz zwischen je zwei benachbarten Werten durch die zugehörige
Häufigkeit ergeben schließlich die gesuchten Skalenwerte.
Der Aufruf des hier beschriebenen Verfahrens in PS-Explore NC wird von der Hauptbefehlsleiste des Programms aus über
"Analyse/Report - Datenanalyse - Skalierungsverfahren - ordinale Merkmale" vorgenommen. Das Verfahren wird dann unmittelbar
ausgeführt und zwar für das Merkmal in dessen Spalte des Arbeitsblattes der Arbeitsblatt-Cursor steht. Sollte es sich dabei nicht
um ein ordinales Merkmal handeln, wird zuvor vom Programm eine Warnung ausgegeben, bzw. im Falle von Textspalten wird
jede weitere Berechnung unterdrückt.

Im hier gewählten Beispiel wurde die in der PS-Explore-Installation enthaltene Beispieldatei "Wahlabsicht" benutzt um die Spalte
"eigene wirtschaftliche Situation" zu skalieren.
Das sich bei Anwahl des Verfahrens öffnende Fenster zeigt die Tabelle mit den verschiedenen Klassen (Kode) und ggf. den zu-
geordneten Klartexten ("sehr schlecht" bis "sehr gut") sowie den errechneten Skalenwerten und den absoluten und relativen ein-
fachen und kumulierten Häufigkeiten. Die Skalenwerte haben ursprünglich die Streung 1 und den Mittelwert 0. Um in der Praxis
etwas "anschaulichere" Werte zu erhalten ist es möglich eine Lineartransformation der berechneten Werte einzustellen. Im hier
abgebildeten Beispiel wurde die Streuung 10 und der Mittelwert 100 gewählt, d.h. die zunächst errechneten Skalenwerte werden
mit 10 multipliziert und es wird dann 100 addiert.

Um den Effekt der Skalierung etwas anschaulicher zu präsentieren, werden für das zu skalierende Merkmal zusätzlich noch ein Säulendia-
gramm generiert und eine Abbildung der Skalenwerte entlang einer x-Achse. Durch letztere gewinnt man einen optischen Eindruck von
der Lage der errechneten Skalenwerte zueinander.
Die Tabelle und die Grafiken können über das Druckersymbol direkt als ad-hoc-Druck ausgegeben werden. Das daneben befindliche
Seitensymbol erlaubt die Einfügung der Ergebnisse in die Registerkarte "Ergebnisse/Reports".
Die sog. Check-Box rechts der Wippschalter für die Einstellung von Streuung und Mittelwert ermöglicht es, die "Polung" der errechneten
Skalenwerte umzuschalten. Im hier benutzten Beispiel hat die Bewertung "sehr gut" ursprünglich den kleinsten Skalenwert 76,53 erhalten.
Da man semantisch "sehr gut" eher den höchsten Skalenwert zuzuordnen geneigt sein wird und "sehr schlecht" den niedrigsten, bietet
die Check-Box hier ein einfaches Mittel an die Skala umzukehren.
Schlussendlich muss man natürlich in der Lage sein, die berechneten Skalenwerte zwecks Weiterverarbeitung auch ins Arbeitsblatt zu
überführen. Dies erlauben die beiden rechts in der Bildleiste des Formulars befindlichen Symbole. Mit dem ersten Symbol kann man
die Ursprungsspalte des Merkmals mit den berechneten Skalenwerten überschreiben. Mit dem zweiten Symbol veranlasst man die
Einfügung einer neuen Spalte mit den Skalenwerten direkt links von der Ursprungsspalte. Bei der neuen Spalte handelt es sich genau-
genommen ja um ein quantitatives Merkmal.
Für quantitative Merkmale sind ursprünglich keine Wertetiketten vorgesehen. Gleichwohl kann es aber einer späteren Interpretation von
Ergebnissen wie etwa der Matrixanalyse dienlich sein, wenn der ursprüngliche inhaltliche Bezug problemlos wiederhergestellt werden kann.
Aus diesem Grunde sind skalierte Merkmale zwar rein quantitativen Merkmalen gleichgestellt, jedoch werden ggf. vorhandene Wert-
etiketten im Data Dictionary mitgeführt und erscheinen dementsprechend bei Aufruf des Spaltentiteleditors:

Wird daher ein skaliertes Merkmal wie hier "EigWirtSit" in der Matrixanalyse mitbenutzt, dann erscheint in der Graustufen-
tabelle der Einzelfälle nicht der Skalenwert, sondern sinnvollerweise der urspüngliche Text, also etwa "sehr gut" statt 124,36.
Bei der Tabelle der Clusterzentren ist eine solche Zuordnung i.a. nicht möglich, da die dortigen Mittelwerte nicht notwendiger-
weise gleich einem der Skalenwerte sein werden. In diesem Fall wird dann das Wertetikett ausgewiesen, das dem jeweiligen
Mittelwert am nächsten liegt.
Skalierung nominaler Merkmale mittels des Verfahrens der Lancaster-Skalierung
Bei ordinalen Daten liegt die Reihenfolge der Ausprägungen bereits fest, sodass die marginale Normalisierung hier ein ein-
faches Mittel der Skalierung darstellt. Bei nominalen Merkmalen fehlt jedoch eine Rangordnung, weshalb hier zu anderen
Mitteln gegriffen werden muss.
Das Lancaster-Verfahren zieht zur Skalierung eines Merkmals ein zweites Merkmal hinzu. Hierbei werden dann beide
Merkmale so transformiert, dass eine möglichst gute Anpassung an eine normierte bivariate Standardnormalverteilung
mit dem Erwartungswert 0 und der Kovarianzmatrix:
|
1 |
r |
|
r |
1 |
erreicht wird (r = Korrelation der beiden Merkmale).
Verfahrenstechnisch wird zur Durchführung der Lancaster-Skalierung zunächst die entsprechende Kontingenztafel der
beiden Merkmale bestimmt. Sodann wird aus den Zellen- und Randhäufigkeiten eine Gewichtungsmatrix Q bestimmt und
hieraus ein beliebige Eigenvektor benutzt, der die Grundlage zur Bestimmung der Skalenwerte bildet. (Eine genaue
Beschreibung des Verfahrens findet man bei HARTUNG, J./ELPELT, B., Multivariate Statistik, Oldenburg Verlag, 1992,
S.284-286.)
Der Aufruf des Verfahrens geschieht entweder über den oben bereits beschriebenen Weg bei Anwahl der Option
"nominale Merkmale" oder über die Bildleiste des Arbeitsblattes mittels Anklicken des in der nachstehenden Abbildung
mit rotem Kreis gekennzeichneten Buttons.

Auch hier wird das Merkmal in das Verfahren hineingenommen, in dessen Spalte der Arbeitsblatt-Cursor steht. Das zweite Merkmal
kann dann im Formular (Fenster) des Verfahrens selbst gewählt werden.

Der Aufbau des Formulars für die Lancaster-Skalierung ist ähnlich dem der marginalen Skalierung. Zusätzlich gibt es noch eine
zweite Tabelle mit Häufigkeiten und Skalenwerten für das zweite Merkmal und ebenso eine zweite Abbildung für die grafische
Darstellung der Skalenwerte des zweiten Merkmals.
Um die Berechnung der Skalenwerte anzustoßen muss zunächst das zweite Merkmal ausgewählt werden. Dem zweiten Merkmal
kommt dabei die Bedeutung einer Kriteriumsvariablen zu, denn die Ausprägung der Skalenwerte des ersten Merkmals hängt ja
auch von der Häufigkeitsverteilung des zweiten Merkmals ab.Welches Kriteriumsmerkmal von auswählt, wird dabei von der inhalt-
lichen Fragestellung der durchzufühhrenden Untersuchung abhängen.
Im folgenden Beispiel soll der Einfluss verschiedener Merkmale von Eigentumswohnungen auf den Kaufpreis ermittelt werden.
Hierbei sind quantitative Merkmale gegeben, wie etwa "Baujahr" und "Entfernung zum Zentrum" aber auch qualitative Merkmale
wie "Wohnlage" und "Gebäudeart". Wenn es nun gelänge, die qualitativen Merkmale in brauchbarer Weise zu skalieren, könnte
man diese zusammen mit den quantitativen Merkmalen in einer multivariaten Regressionsanalyse benutzen. Als Kriteriumsvariable
der Skalierung wird man natürlich ein Merkmal verwenden, das in direktem Zusammenhang mit dem Kaufpreis steht. Beispielsweise
könnte man Kaufpreisklassen bilden und diese dann als Kriteriumsmerkmal an das Skalierungsverfahren übergeben.
Hier wird vorgeschlagen den Kaufpreis beim Median zu teilen um so ein Merkmal zu generieren, das zwei Klassen mit gleich
starker Belegung besitzt. Der Median kann über die ad-hoc-Funktion "Zellenstatistik" direkt im Arbeitsblatt abgefragt werden.
Hierzu klickt man in die Spalte "Gesamtkaufpreis" und dann auf das in nachstehender Abbildung markierte grüne Symbol.
Es öffnet sich dann eine Anzeige mit deskriptiven Statistiken. Der Median wird angezeigt, wenn man in diesem Formular
mit dem Mauszeiger auf das Boxplot am Fuß des Formulars zeigt.

Sodann schließt man dieses Formular und klickt auf das Symbol für die Rekodierungsfunktion:

Hier stellt man mittels des Wippschalters oben links im Rekodierungsformular auf 2 Klassen ein und trägt als Untergrenze für die obere
Klasse den Median 240500 ein. Nach Anklicken der OK-Schaltfläche findet man dann im Arbeitsblatt die neue Spalte mit den beiden
Kaufpreisklassen vor. Standardmäßig wird diese neue Spalte "Klasse.Gesamtkaufpreis" betitelt. Mit rechtem Mausklick auf diese Beschriftung
der Arbeitsblattspalte öffnet sich eine Eingabe bzw. Änderungsmöglichkeit für die Standardbezeichnung und man wählt hier z.B. die etwas
weniger "sperrige" Beschriftung "Kaufpreisklassen".
Natürlich ist es auch möglich eine Aufteilung des Kriteriumsmerkmals in mehr als zwei Klassen vorzunehmen. Im Hinblick auf die Güte
einer Skalierung braucht dies jedoch praktisch nicht unbedingt bedeutsamen Einfluß zu haben. Ggf. kann man auch leicht eine 2-klassige
Aufteilung gegen eine mehrklassige Aufteilung einer quantitativen Variable mittels des Wilks-Test von PS-Explore NC überprüfen.
Bei mehrklassigen Aufteilungen muss man ggf. in Kauf nehmen, dass die in den Klassen implizierte Rangordnung entlang der
ursprünglichen quantitativen Skala des Merkmals teilweise nicht erhalten bleibt.
Nun sind alle Vorbereitungen für die Skalierung der qualitativen Merkmale "Wohnlage", "Garage" und "Gebäudeart" getroffen. Wenn wir
nun das Verfahren für die Lancaster-Skalierung mit dem Arbeitsblatt-Cursor in der jeweiligen Spalte des zu skalierenden nominalen
Merkmals aufrufen, müssen wir im entsprechenden Feld oben im sich öffnenden Formular nur noch das Kriteriumsmerkmal auswählen:

Und schon werden die Skalierungen tabellarisch wie grafisch angezeigt:

Im Fall des Merkmals "Wohnlage" unserer Beispieldatei ist die Skalierung natürlich etwas "langweilig", mithin
sogar überflüssig, da wir hier ohnehin nur zwei Wohnlagenklassen haben.
Im Fall des Merkmals "Garage" ist das Ergebnis schon etwas interessanter:

Hier können wir nun die Ergebnisse der Skalierung für "Garage" unmittelbar als Spalte ins Arbeitsblatt einfügen
(roter Kreis).
Beim Blick auf die Skalenwerte stellen wir jedoch fest, dass eine Umkehrung der Skala evtl. inhaltlich
plausibler erscheinen wird, da Objekte ohne Garage sonst einen höheren Skalenwert erhielten als solche
mit Garage. Mathematisch würde dies zwar bei Verwendung der skalierten Merkmale keinen Unterschied
ausmachen, jedoch erscheint diese Zuordnung semantisch paradox, da man annehmen darf, dass
Objekte mit Garage auch einen höheren Kaufpreis erzielen.
Vor Übertragung der Werte ins Arbeitsblatt klicken wir daher auf die Check-Box für die Umkehrung der
Skala, welche damit sofort durchgeführt wird:

In entsprechender Weise verfahren wir nun noch für das Merkmal "Gebäudeart":

Die zuvor getroffene Einstellung der Check-Box bleibt bei erneutem Aufruf des Verfahrens erhalten. Die
Skala für "Gebäudeart" ist also bereits invertiert, jedoch sind die Skalenwerte hier so bestimmt worden,
dass sie in der Tabelle nicht in auf- oder absteigender Sortierung erscheinen. Um hier eine entsprechende
Sortierung zu erhalten führen wir mit der Maus einfach einen Doppelklick auf die Spaltenüberschrift
"Skalenwert" in der Tabelle aus:

Mittels eines einfachen Klicks auf die Spaltenüberschrift würden wir entsprechend eine absteigende Sortierfolge
erhalten.
Mit Blick auf die berechneten Skalenwerte stellen wir fest, dass hinsichtlich der Kriteriumsvariable "Kaufpreisklasse"
bzw. des dahinterstehenden Kaufpreises die Objekte "Einfamilienhäuser mit Einliegerwohnung" höher rangieren
als Einfamilienhäuser und diese wiederum höher als Objekte in Zweifamilienhäusern.
Dies hätten wir auch ohne den aufwändigeren Apparat der Lancaster-Skalierung feststellen können, z.B. indem
wir über das MOLAP-Verfahren die Mittelwerte der Kaufpreise bezogen auf die Gebäudearten hätten berechnen
lassen:

Zu diesem Zwecke brauchen wir, wie in vorstehender Abbildung angedeutet, die Spalte "Gebäudeart" im Arbeitsblatt mittels der Maus nur in Position
rechts des Gesamtkaufpreises ziehen und auf das MOLAP-Symbol klicken. Sofort erhalten wir die entsprechende grafische Darstellung mit
den Mittelwerten der Gebäudearten, die wir mittels der Sortieroption des Popup-Menüs (mit rechter Maustaste auf Grafik klicken) schnell noch in Sortierfolge bringen.
Hierbei sehen wir, dass sich die Mittelwerte und die Anordnung der Gebäudeklassen ziemlich konform zu unseren Skalenwerten der Lancaster-Skalierung
verhalten, was dem mathematischen Laien vielleicht etwas hilft auch ohne die formale Beschäftigung mit den elaborierteren statistischen Methoden
des Skalierungsverfahrens Vertrauen in die Sache zu gewinnen.
Die Güteprüfung einer Skalierung
Das Ziel eines Skalierungsverfahrens ist es, Skalenwerte für ordinale und nominale Merkmale zu finden, die eine möglichst gute Unterscheidung
(Diskriminierung) zwischen den verschiedenen Klassen der Kriteriumsvariable erlauben. Als Test auf signifikante Unterschiede zwischen den
Stufen der Kriteriumsvariable scheidet der t- oder der F-Test jedoch aus, da die Skalierung bereits so erfolgte, dass maximale Unterschiede
zwischen den Stufen der Kriteriumsvariable bezogen auf die benutzten nominalen Merkmale erzielt wurden.
Hingegen könnten wir den Wilks-Test (siehe Handbuchbeschreibung hierzu) verwenden. Über die Voraussetzungen zur Verwendung dieses
Verfahrens sei auf die entsprechende Literatur verwiesen (etwa HARTUNG/ELPELT, Multivariate Statistik, München, 1992).
Nach Durchführung der Lancaster-Skalierung für die drei nominalen Beispielmerkmale unseres hier benutzten Datensatzes enthält das
Arbeitsblatt zuusätzlich die 3 Spalten "LS.Wohnlag", "LS.Garag" und "LS.Gebäudea". Diese Namen werden vom Programm automatisch
vergeben und können nach Belieben umbenannt werden.
Wir finden den Wilks-Test über die Hauptbefehlsleiste des Arbeitsblattes wie in nachstehender Abbildung:

Nach Aufruf des Testverfahrens erscheint das entsprechende Formular, in welchem wir sogleich die skalierten Merkmale (LS.) per Mausklick
auf die entsprechenden Check-Boxen auswählen und das Kriteriummerkmal "Gesamtkaufpreisklassen" im Listfeld "Gruppenvariable" einstellen.
Sodann klicken wir auf die Schaltfläche "Berechnen" und erhalten den Wilks-Test mit Lambda und approximiertem F-Wert für Lambda. Die
ausgewiesene Signifikanz bezeiht sich auf das 5%-Niveau.

Wilks Lambda kann zwischen 0 und 1 liegen, wobei wir Werte gegen 0 anstreben um die Nullhypothese sicher ablehnen zu können.
In unserem Fall erhalten wir zwar ein signifikantes Lambda dessen betragliche Größe jedoch eher enttäuschend ist.
Der Vollständigkeit wegen sei hier noch die Lösung für eine Aufteilung der Kaufpreise in 5 Klassen angegeben. Lamda verbessert
sich hier um etwa 0,1 Punkte, was ebenfalls noch einiges vom Idealziel entfernt ist. Allerdings kann man in der Tabelle der Mittelwerte
der skalierten Merkmale einen eindeutigen aufsteigenden Trend der Werte von links nach rechts erkennen. Die Skalenwerte
der 3 Merkmale steigen also im Durchschnitt mit den Kaufpreisen an, was z.B. eine Einbeziehung der Variablen in einer
multiplen Regressionsanalyse nahelegt.
|
Wilks-Test |
||||||
|
|
Gesamt- mittelwert |
gruppiert nach GesamtkaufpreisKl5 |
||||
|
|
|
101.000,00 bis 159.800,00 |
> 159.800,00 bis 218.600,00 |
> 218.600,00 bis 277.400,00 |
> 277.400,00 bis 336.200,00 |
> 336.200,00 bis 395.000,00 |
|
|
|
|
|
|
|
|
|
LS.Ga5 |
100,01 |
91,26 |
97,17 |
101,13 |
103,78 |
104,85 |
|
LS.Gb5 |
99,99 |
97,45 |
96,93 |
99,68 |
101,92 |
106,19 |
|
LS.WL5 |
100,00 |
93,66 |
98,42 |
101,14 |
102,62 |
101,85 |
|
|
|
|
|
|
|
|
|
Wilks Lambda |
0,7113 |
|
|
|
|
|
|
approx. F |
8,3343 |
signifikant |
|
|
|
|
|
|
|
|
|
|
|
|
|
Freiheitsgrade |
12 und 728 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Anzahl Fälle |
282 |
|
|
|
|
|
|
gültige Fälle |
282 |
|
|
|
|
|
Die Verwendung skalierter Merkmale in einem multivariaten Verfahren
Das Ziel der Skalierung qualitativer Daten wird zumeist in dem Bestreben liegen, die entsprechenden Merkmale in einem multivariaten
Verfahren zu benutzen, welchen sonst auf wenigstens intervallskalierte Größen beschränkt bliebe.
Die multiple Regressionsanalyse von PS-Explore NC ist z.B. schnell aus dem Arbeitsblatt heraus aufgerufen:

Im nachstehenden Diagramm sieht man bei schrittweiser Regression, dass nur die 3 skalierten Merkmale
alleine mit dem Gesamtkaufpreis eine multiple Korrelation von 0,266 erreichen. Die 3 Merkmale beeinflussen
für sich genommen also den Gesamtkaufpreis zu etwa 7%.
|
|
Das Bestimmtheitsmaß erreicht schließlich mit Hineinnahme der zur Verfügung stehenden quantitativen
Merkmale einen Wert von fast 70%, wobei schließlich ein quantitatives Merkmal (Entfernung zum Zentrum)
und ein skaliertes Merkmal (LS.Wohnlag) schlußendlich an der Signifikanzgrenze scheitern.
|
Multiple lineare Regression |
||||||
|
Zielgröße |
Gesamt- kaufpreis |
|
|
|
|
|
|
Regressionskonstante |
-1253688.449 |
|
|
|
|
|
|
multiple Korrelation |
0.8348 |
|
|
|
|
|
|
adjustiertes r² |
0.6869 |
|
|
|
|
|
|
Bestimmtheitsmaß |
69.69% |
|
|
|
|
|
|
F-Test (5%-Niveau) |
69.486* |
|
|
|
|
|
|
Standardfehler |
38141.443 |
|
|
|
|
|
|
Stichprobenumfang |
282 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Merkmal |
Reg.Koef. |
std.Reg.Koef. |
part.Korr. |
Varianzanteil |
Zuwachs in r² |
Standardfehler |
|
|
|
|
|
|
|
|
|
LS.Wohnlag |
98.6255 |
0.0145 |
0.0242 |
0.02% |
0.064 |
246.544 |
|
LS.Garag |
1132.7752* |
0.1665 |
0.2643 |
2.28% |
0.204 |
250.594 |
|
LS.Gebäudea |
512.1867* |
0.0753 |
0.1274 |
0.50% |
0.266 |
241.711 |
|
Baujahr |
361.1640* |
0.1205 |
0.1375 |
0.58% |
0.408 |
157.780 |
|
Bodenrichtwert |
422.7934* |
0.1736 |
0.2869 |
2.72% |
0.454 |
85.587 |
|
Entfernung zum Zentrum |
23.6717 |
0.0059 |
0.0101 |
0.00% |
0.456 |
142.570 |
|
Gesamtfläche |
30.5707* |
0.0950 |
0.1570 |
0.77% |
0.480 |
11.657 |
|
Gesamtwohnfläche |
468.5316* |
0.2754 |
0.4085 |
6.07% |
0.607 |
63.470 |
|
Normalherstellungskosten |
22255.2553* |
0.4699 |
0.4783 |
8.99% |
0.697 |
2477.410 |
Wir werden später bei der Besprechung des Verfahrens zur Kovarianzanalyse sehen, dass dieses Ergebnis
hier kaum noch eine empirisch bedeutsame Verbesserung erfahren kann.
---------------------------------------------------------------------------------------------------------------------------------------------------------