Stand: 20.11.2002

 

 

Diese Internet-Seite wurde direkt und per Knopfdruck mit dem PS-Explore NC System erstellt. Der Entsprechende Programmteil hierfür

ist im Modul PS-Explore/QuerySys enthalten. Mit  PS-Explore NC/QuerySys recherchieren und analysieren Sie nicht nur, sondern

generieren Ihre Ergebnisse auch sofort Internetfähig.

 

 

 

Skalierung ordinaler und nominaler Merkmale mit dem PS-Explore NC System

 

Die überwiegende Zahl der multivariaten Verfahren, wie etwa Regressions-, Matrix-, Faktorenanalyse, benötigen quantitative Daten, also

Daten die entlang einer kontinuierlichen Maßskala abgebildet werden können, z.B. Entfernungen, Gewichte, Preise, Umsätze etc.. Oft

liegen jedoch Daten nur als Rangwerte vor (schlecht, mittel, gut u.ä.) oder auch nur als rein kategorielle Daten (Süd, Ost, West, Nord).

Solche Daten können unter bestimmten Voraussetzungen jedoch auf ein höheres Datenniveau gehoben werden. Die Methoden hierzu

werden unter dem Begriff Skalierungsverfahren zusammengefasst.

 

Die in PS-Explore NC implementierten Ansätze sind die der „marginalen Normalisierung“, der „Lancaster-Skalierung“ und der sog.

„Calibration Patterns“ (Eich-Tafeln).

 

 

Skalierung ordinaler Merkmale mittels des Verfahrens der marginalen Skalierung

 

Bei der "marginalen Skalierung" werden den Rangzahlen eines ordinalen Merkmals Werte derart zugeordnet, dass eine möglichst

gute Annäherung des skalierten Merkmals an die Standardnormalverteilung erzielt wird. Hat man ein Merkmal mit k Klassen, so wird,

anschaulich gesprochen, die Fläche unter der Dichtefunktion der Standardnormalverteilung in k Stücke aufgeteilt, deren Größe der

relativen Häufigkeit der k Merkmalsklassen entspricht.

 

Verfahrenstechnisch bestimmt man also zunächst die relativen und hieraus dann die kumulierten Häufigkeiten, aus denen dann die

Quantile der Standardnormalverteilung berechnet werden. Aus diesen wiederum werden schließlich die Werte der Dichtefunktion

der Standardnormalverteilung bestimmt. Die Division der Differenz zwischen je zwei benachbarten Werten durch die zugehörige

Häufigkeit ergeben schließlich die gesuchten Skalenwerte.

 

Der Aufruf des hier beschriebenen Verfahrens in PS-Explore NC wird von der Hauptbefehlsleiste des Programms aus über

"Analyse/Report - Datenanalyse - Skalierungsverfahren - ordinale Merkmale" vorgenommen. Das Verfahren wird dann unmittelbar

ausgeführt und zwar für das Merkmal in dessen Spalte des Arbeitsblattes der Arbeitsblatt-Cursor steht. Sollte es sich dabei nicht

um ein ordinales Merkmal handeln, wird zuvor vom Programm eine Warnung ausgegeben, bzw. im Falle von Textspalten wird

jede weitere Berechnung unterdrückt.

 

 

Im hier gewählten Beispiel wurde die in der PS-Explore-Installation enthaltene Beispieldatei "Wahlabsicht" benutzt um die Spalte

"eigene wirtschaftliche Situation" zu skalieren.

 

Das sich bei Anwahl des Verfahrens öffnende Fenster zeigt die Tabelle mit den verschiedenen Klassen (Kode) und ggf. den zu-

geordneten Klartexten ("sehr schlecht" bis "sehr gut") sowie den errechneten Skalenwerten und den absoluten und relativen ein-

fachen und kumulierten Häufigkeiten. Die Skalenwerte haben ursprünglich die Streung 1 und den Mittelwert 0. Um in der Praxis

etwas "anschaulichere" Werte zu erhalten ist es möglich eine Lineartransformation der berechneten Werte einzustellen. Im hier

abgebildeten Beispiel wurde die Streuung 10 und der Mittelwert 100 gewählt, d.h. die zunächst errechneten Skalenwerte werden

mit 10 multipliziert und es wird dann 100 addiert.

 

 

Um den Effekt der Skalierung etwas anschaulicher zu präsentieren, werden für das zu skalierende Merkmal zusätzlich noch ein Säulendia-

gramm generiert und eine Abbildung der Skalenwerte entlang einer x-Achse. Durch letztere gewinnt man einen optischen Eindruck von

der Lage der errechneten Skalenwerte zueinander.

 

Die Tabelle und die Grafiken können über das Druckersymbol direkt als ad-hoc-Druck ausgegeben werden. Das daneben befindliche

Seitensymbol erlaubt die Einfügung der Ergebnisse in die Registerkarte "Ergebnisse/Reports".

 

Die sog. Check-Box rechts der Wippschalter für die Einstellung von Streuung und Mittelwert ermöglicht es, die "Polung" der errechneten

Skalenwerte umzuschalten. Im hier benutzten Beispiel hat die Bewertung "sehr gut" ursprünglich den kleinsten Skalenwert 76,53 erhalten.

Da man semantisch "sehr gut" eher den höchsten Skalenwert zuzuordnen geneigt sein wird und "sehr schlecht" den niedrigsten, bietet

die Check-Box hier ein einfaches Mittel an die Skala umzukehren.

 

Schlussendlich muss man natürlich in der Lage sein, die berechneten Skalenwerte zwecks Weiterverarbeitung auch ins Arbeitsblatt zu

überführen. Dies erlauben die beiden rechts in der Bildleiste des Formulars befindlichen Symbole. Mit dem ersten Symbol kann man

die Ursprungsspalte des Merkmals mit den berechneten Skalenwerten überschreiben. Mit dem zweiten Symbol veranlasst man die

Einfügung einer neuen Spalte mit den Skalenwerten direkt links von der Ursprungsspalte. Bei der neuen Spalte handelt es sich genau-

genommen ja um ein quantitatives Merkmal.

 

Für quantitative Merkmale sind ursprünglich keine Wertetiketten vorgesehen. Gleichwohl kann es aber einer späteren Interpretation von

Ergebnissen wie etwa der Matrixanalyse dienlich sein, wenn der ursprüngliche inhaltliche Bezug problemlos wiederhergestellt werden kann.

Aus diesem Grunde sind skalierte Merkmale zwar rein quantitativen Merkmalen gleichgestellt, jedoch werden ggf. vorhandene Wert-

etiketten im Data Dictionary mitgeführt und erscheinen dementsprechend bei Aufruf des Spaltentiteleditors:

 

 

 

Wird daher ein skaliertes Merkmal wie hier "EigWirtSit" in der Matrixanalyse mitbenutzt, dann erscheint in der Graustufen-

tabelle der Einzelfälle nicht der Skalenwert, sondern sinnvollerweise der urspüngliche Text, also etwa "sehr gut" statt 124,36.

Bei der Tabelle der Clusterzentren ist eine solche Zuordnung i.a. nicht möglich, da die dortigen Mittelwerte nicht notwendiger-

weise gleich einem der Skalenwerte sein werden. In diesem Fall wird dann das Wertetikett ausgewiesen, das dem jeweiligen

Mittelwert am nächsten liegt.

 

 

 

Skalierung nominaler Merkmale mittels des Verfahrens der Lancaster-Skalierung

 

Bei ordinalen Daten liegt die Reihenfolge der Ausprägungen bereits fest, sodass die marginale Normalisierung hier ein ein-

faches Mittel der Skalierung darstellt. Bei nominalen Merkmalen fehlt jedoch eine Rangordnung, weshalb hier zu anderen

Mitteln gegriffen werden muss.

 

Das Lancaster-Verfahren zieht zur Skalierung eines Merkmals ein zweites Merkmal hinzu. Hierbei werden dann beide

Merkmale so transformiert, dass eine möglichst gute Anpassung an eine normierte bivariate Standardnormalverteilung

mit dem Erwartungswert 0 und der Kovarianzmatrix:

 

1

r

r

1

 

erreicht wird (r = Korrelation der beiden Merkmale).

 

Verfahrenstechnisch wird zur Durchführung der Lancaster-Skalierung zunächst die entsprechende Kontingenztafel der

beiden Merkmale bestimmt. Sodann wird aus den Zellen- und Randhäufigkeiten eine Gewichtungsmatrix Q bestimmt und

hieraus ein beliebige Eigenvektor benutzt, der die Grundlage zur Bestimmung der Skalenwerte bildet. (Eine genaue

Beschreibung des Verfahrens findet man bei HARTUNG, J./ELPELT, B., Multivariate Statistik, Oldenburg Verlag, 1992,

S.284-286.)

 

Der Aufruf des Verfahrens geschieht entweder über den oben bereits beschriebenen Weg bei Anwahl der Option

"nominale Merkmale" oder über die Bildleiste des Arbeitsblattes mittels Anklicken des in der nachstehenden Abbildung

mit rotem Kreis gekennzeichneten Buttons.

 

 

Auch hier wird das Merkmal in das Verfahren hineingenommen, in dessen Spalte der Arbeitsblatt-Cursor steht. Das zweite Merkmal

kann dann im Formular (Fenster) des Verfahrens selbst gewählt werden.

 

 

 

Der Aufbau des Formulars für die Lancaster-Skalierung ist ähnlich dem der marginalen Skalierung. Zusätzlich gibt es noch eine

zweite Tabelle mit Häufigkeiten und Skalenwerten für das zweite Merkmal und ebenso eine zweite Abbildung für die grafische

Darstellung der Skalenwerte des zweiten Merkmals.

 

Um die Berechnung der Skalenwerte anzustoßen muss zunächst das zweite Merkmal ausgewählt werden. Dem zweiten Merkmal

kommt dabei die Bedeutung einer Kriteriumsvariablen zu, denn die Ausprägung der Skalenwerte des ersten Merkmals hängt ja

auch von der Häufigkeitsverteilung des zweiten Merkmals ab.Welches Kriteriumsmerkmal von auswählt, wird dabei von der inhalt-

lichen Fragestellung der durchzufühhrenden Untersuchung abhängen.

 

Im folgenden Beispiel soll der Einfluss verschiedener Merkmale von Eigentumswohnungen auf den Kaufpreis ermittelt werden.

Hierbei sind quantitative Merkmale gegeben, wie etwa "Baujahr" und "Entfernung zum Zentrum" aber auch qualitative Merkmale

wie "Wohnlage" und "Gebäudeart". Wenn es nun gelänge, die qualitativen Merkmale in brauchbarer Weise zu skalieren, könnte

man diese zusammen mit den quantitativen Merkmalen in einer multivariaten Regressionsanalyse benutzen. Als Kriteriumsvariable

der Skalierung wird man natürlich ein Merkmal verwenden, das in direktem Zusammenhang mit dem Kaufpreis steht. Beispielsweise

könnte man Kaufpreisklassen bilden und diese dann als Kriteriumsmerkmal an das Skalierungsverfahren übergeben.

 

Hier wird vorgeschlagen den Kaufpreis beim Median zu teilen um so ein Merkmal zu generieren, das zwei Klassen mit gleich

starker Belegung besitzt. Der Median kann über die ad-hoc-Funktion "Zellenstatistik" direkt im Arbeitsblatt abgefragt werden.

Hierzu klickt man in die Spalte "Gesamtkaufpreis" und dann auf das in nachstehender Abbildung markierte grüne Symbol.

Es öffnet sich dann eine Anzeige mit deskriptiven Statistiken. Der Median wird angezeigt, wenn man in diesem Formular

mit dem Mauszeiger auf das Boxplot am Fuß des Formulars zeigt.

 

 

 

Sodann schließt man dieses Formular und klickt auf das Symbol für die Rekodierungsfunktion:

 

 

Hier stellt man mittels des Wippschalters oben links im Rekodierungsformular auf 2 Klassen ein und trägt als Untergrenze für die obere

Klasse den Median 240500 ein. Nach Anklicken der OK-Schaltfläche findet man dann im Arbeitsblatt die neue Spalte mit den beiden

Kaufpreisklassen vor. Standardmäßig wird diese neue Spalte "Klasse.Gesamtkaufpreis" betitelt. Mit rechtem Mausklick auf diese Beschriftung

der Arbeitsblattspalte öffnet sich eine Eingabe bzw. Änderungsmöglichkeit für die Standardbezeichnung und man wählt hier z.B. die etwas

weniger "sperrige" Beschriftung "Kaufpreisklassen".

 

Natürlich ist es auch möglich eine Aufteilung des Kriteriumsmerkmals in mehr als zwei Klassen vorzunehmen. Im Hinblick auf die Güte

einer Skalierung braucht dies jedoch praktisch nicht unbedingt bedeutsamen Einfluß zu haben. Ggf. kann man auch leicht eine 2-klassige

Aufteilung gegen eine mehrklassige Aufteilung einer quantitativen Variable mittels des Wilks-Test von PS-Explore NC überprüfen.

Bei mehrklassigen Aufteilungen muss man ggf. in Kauf nehmen, dass die in den Klassen implizierte Rangordnung entlang der

ursprünglichen quantitativen Skala des Merkmals teilweise nicht erhalten bleibt.

 

Nun sind alle Vorbereitungen für die Skalierung der qualitativen Merkmale "Wohnlage", "Garage" und "Gebäudeart" getroffen. Wenn wir

nun das Verfahren für die Lancaster-Skalierung mit dem Arbeitsblatt-Cursor in der jeweiligen Spalte des zu skalierenden nominalen

Merkmals aufrufen, müssen wir im entsprechenden Feld oben im sich öffnenden Formular nur noch das Kriteriumsmerkmal auswählen:

 

 

Und schon werden die Skalierungen tabellarisch wie grafisch angezeigt:

 

 

Im Fall des Merkmals "Wohnlage" unserer Beispieldatei ist die Skalierung natürlich etwas "langweilig", mithin

sogar überflüssig, da wir hier ohnehin nur zwei Wohnlagenklassen haben.

 

Im Fall des Merkmals "Garage" ist das Ergebnis schon etwas interessanter:

 

 

Hier können wir nun die Ergebnisse der Skalierung für "Garage" unmittelbar als Spalte ins Arbeitsblatt einfügen

(roter Kreis).

 

Beim Blick auf die Skalenwerte stellen wir jedoch fest, dass eine Umkehrung der Skala evtl. inhaltlich

plausibler erscheinen wird, da Objekte ohne Garage sonst einen höheren Skalenwert erhielten als solche

mit Garage. Mathematisch würde dies zwar bei Verwendung der skalierten Merkmale keinen Unterschied

ausmachen, jedoch erscheint diese Zuordnung semantisch paradox, da man annehmen darf, dass

Objekte mit Garage auch einen höheren Kaufpreis erzielen.

 

Vor Übertragung der Werte ins Arbeitsblatt klicken wir daher auf die Check-Box für die Umkehrung der

Skala, welche damit sofort durchgeführt wird:

 

 

In entsprechender Weise verfahren wir nun noch für das Merkmal "Gebäudeart":

 

 

Die zuvor getroffene Einstellung der Check-Box bleibt bei erneutem Aufruf des Verfahrens erhalten. Die

Skala für "Gebäudeart" ist also bereits invertiert, jedoch sind die Skalenwerte hier so bestimmt worden,

dass sie in der Tabelle nicht in auf- oder absteigender Sortierung erscheinen. Um hier eine entsprechende

Sortierung zu erhalten führen wir mit der Maus einfach einen Doppelklick auf die Spaltenüberschrift

"Skalenwert" in der Tabelle aus:

 

 

Mittels eines einfachen Klicks auf die Spaltenüberschrift würden wir entsprechend eine absteigende Sortierfolge

erhalten.

 

Mit Blick auf die berechneten Skalenwerte stellen wir fest, dass hinsichtlich der Kriteriumsvariable "Kaufpreisklasse"

bzw. des dahinterstehenden Kaufpreises die Objekte "Einfamilienhäuser mit Einliegerwohnung" höher rangieren

als Einfamilienhäuser und diese wiederum höher als Objekte in Zweifamilienhäusern.

 

Dies hätten wir auch ohne den aufwändigeren Apparat der Lancaster-Skalierung feststellen können, z.B. indem

wir über das MOLAP-Verfahren die Mittelwerte der Kaufpreise bezogen auf die Gebäudearten hätten berechnen

lassen:

 

 

Zu diesem Zwecke brauchen wir, wie in vorstehender Abbildung angedeutet, die Spalte "Gebäudeart" im Arbeitsblatt mittels der Maus nur in Position

rechts des Gesamtkaufpreises ziehen und auf das MOLAP-Symbol klicken. Sofort erhalten wir die entsprechende grafische Darstellung mit

den Mittelwerten der Gebäudearten, die wir mittels der Sortieroption des Popup-Menüs (mit rechter Maustaste auf Grafik klicken) schnell noch in Sortierfolge bringen.

 

Hierbei sehen wir, dass sich die Mittelwerte und die Anordnung der Gebäudeklassen ziemlich konform zu unseren Skalenwerten der Lancaster-Skalierung

verhalten, was dem mathematischen Laien vielleicht etwas hilft auch ohne die formale Beschäftigung mit den elaborierteren statistischen Methoden

des Skalierungsverfahrens Vertrauen in die Sache zu gewinnen.

 

 

Die Güteprüfung einer Skalierung

 

Das Ziel eines Skalierungsverfahrens ist es, Skalenwerte für ordinale und nominale Merkmale zu finden, die eine möglichst gute Unterscheidung

(Diskriminierung) zwischen den verschiedenen Klassen der Kriteriumsvariable erlauben. Als Test auf signifikante Unterschiede zwischen den

Stufen der Kriteriumsvariable scheidet der t- oder der F-Test jedoch aus, da die Skalierung bereits so erfolgte, dass maximale Unterschiede

zwischen den Stufen der Kriteriumsvariable bezogen auf die benutzten nominalen Merkmale erzielt wurden.

 

Hingegen könnten wir den Wilks-Test (siehe Handbuchbeschreibung hierzu) verwenden. Über die Voraussetzungen zur Verwendung dieses

Verfahrens sei auf die entsprechende Literatur verwiesen (etwa HARTUNG/ELPELT, Multivariate Statistik, München, 1992).

 

Nach Durchführung der Lancaster-Skalierung für die drei nominalen Beispielmerkmale unseres hier benutzten Datensatzes enthält das

Arbeitsblatt zuusätzlich die 3 Spalten "LS.Wohnlag", "LS.Garag" und "LS.Gebäudea". Diese Namen werden vom Programm automatisch

vergeben und können nach Belieben umbenannt werden.

 

Wir finden den Wilks-Test über die Hauptbefehlsleiste des Arbeitsblattes wie in nachstehender Abbildung:

 

 

Nach Aufruf des Testverfahrens erscheint das entsprechende Formular, in welchem wir sogleich die skalierten Merkmale (LS.) per Mausklick

auf die entsprechenden Check-Boxen auswählen und das Kriteriummerkmal "Gesamtkaufpreisklassen" im Listfeld "Gruppenvariable" einstellen.

Sodann klicken wir auf die Schaltfläche "Berechnen" und erhalten den Wilks-Test mit Lambda und approximiertem F-Wert für Lambda. Die

ausgewiesene Signifikanz bezeiht sich auf das 5%-Niveau.

 

 

Wilks Lambda kann zwischen 0 und 1 liegen, wobei wir Werte gegen 0 anstreben um die Nullhypothese sicher ablehnen zu können.

In unserem Fall erhalten wir zwar ein signifikantes Lambda dessen betragliche Größe jedoch eher enttäuschend ist.

 

Der Vollständigkeit wegen sei hier noch die Lösung für eine Aufteilung der Kaufpreise in 5 Klassen angegeben. Lamda verbessert

sich hier um etwa 0,1 Punkte, was ebenfalls noch einiges vom Idealziel entfernt ist. Allerdings kann man in der Tabelle der Mittelwerte

der skalierten Merkmale einen eindeutigen aufsteigenden Trend der Werte von links nach rechts erkennen. Die Skalenwerte

der 3 Merkmale steigen also im Durchschnitt mit den Kaufpreisen an, was z.B. eine Einbeziehung der Variablen in einer

multiplen Regressionsanalyse nahelegt.

 

 

Wilks-Test

 

Gesamt- mittelwert

gruppiert nach GesamtkaufpreisKl5

 

 

101.000,00

bis 159.800,00

> 159.800,00

bis 218.600,00

> 218.600,00

bis 277.400,00

> 277.400,00

bis 336.200,00

> 336.200,00

bis 395.000,00

 

 

 

 

 

 

 

LS.Ga5

100,01

91,26

97,17

101,13

103,78

104,85

LS.Gb5

99,99

97,45

96,93

99,68

101,92

106,19

LS.WL5

100,00

93,66

98,42

101,14

102,62

101,85

 

 

 

 

 

 

 

Wilks Lambda

0,7113

 

 

 

 

 

approx. F

8,3343

signifikant

 

 

 

 

 

 

 

 

 

 

 

Freiheitsgrade

12 und 728

 

 

 

 

 

 

 

 

 

 

 

 

Anzahl Fälle

282

 

 

 

 

 

gültige Fälle

282

 

 

 

 

 

 

 

Die Verwendung skalierter Merkmale in einem multivariaten Verfahren

 

Das Ziel der Skalierung qualitativer Daten wird zumeist in dem Bestreben liegen, die entsprechenden Merkmale in einem multivariaten

Verfahren zu benutzen, welchen sonst auf wenigstens intervallskalierte Größen beschränkt bliebe.

 

Die multiple Regressionsanalyse von PS-Explore NC ist z.B. schnell aus dem Arbeitsblatt heraus aufgerufen:

 

 

 

Im nachstehenden Diagramm sieht man bei schrittweiser Regression, dass nur die 3 skalierten Merkmale

alleine mit dem Gesamtkaufpreis eine multiple Korrelation von 0,266 erreichen. Die 3 Merkmale beeinflussen

für sich genommen also den Gesamtkaufpreis zu etwa 7%.

 

 

Das Bestimmtheitsmaß erreicht schließlich mit Hineinnahme der zur Verfügung stehenden quantitativen

Merkmale einen Wert von fast 70%, wobei schließlich ein quantitatives Merkmal (Entfernung zum Zentrum)

und ein skaliertes Merkmal (LS.Wohnlag) schlußendlich an der Signifikanzgrenze scheitern.

 

Multiple lineare Regression

Zielgröße

Gesamt- kaufpreis

 

 

 

 

 

Regressionskonstante

-1253688.449

 

 

 

 

 

multiple Korrelation

0.8348

 

 

 

 

 

adjustiertes r²

0.6869

 

 

 

 

 

Bestimmtheitsmaß

69.69%

 

 

 

 

 

F-Test (5%-Niveau)

69.486*

 

 

 

 

 

Standardfehler

38141.443

 

 

 

 

 

Stichprobenumfang

282

 

 

 

 

 

 

 

 

 

 

 

 

Merkmal

Reg.Koef.

std.Reg.Koef.

part.Korr.

Varianzanteil

Zuwachs in r²

Standardfehler

 

 

 

 

 

 

 

LS.Wohnlag

98.6255

0.0145

0.0242

0.02%

0.064

246.544

LS.Garag

1132.7752*

0.1665

0.2643

2.28%

0.204

250.594

LS.Gebäudea

512.1867*

0.0753

0.1274

0.50%

0.266

241.711

Baujahr

361.1640*

0.1205

0.1375

0.58%

0.408

157.780

Bodenrichtwert

422.7934*

0.1736

0.2869

2.72%

0.454

85.587

Entfernung zum Zentrum

23.6717

0.0059

0.0101

0.00%

0.456

142.570

Gesamtfläche

30.5707*

0.0950

0.1570

0.77%

0.480

11.657

Gesamtwohnfläche

468.5316*

0.2754

0.4085

6.07%

0.607

63.470

Normalherstellungskosten

22255.2553*

0.4699

0.4783

8.99%

0.697

2477.410

 

Wir werden später bei der Besprechung des Verfahrens zur Kovarianzanalyse sehen, dass dieses Ergebnis

hier kaum noch eine empirisch bedeutsame Verbesserung erfahren kann.

 

 

 

---------------------------------------------------------------------------------------------------------------------------------------------------------