Die Ausreißeranalyse
in PS-Explore NC/StatSys
Verfahrensbeschreibung
Die
Ausreißeranalyse in PS-Explore NC/StatSys bietet neben der Identifikation von
Ausreißern nach der „Boxplotregel“ von Tukey vier weitere klassische
Testverfahren an:
1)
den David-Hartley-Pearson-Test,
2) den Grubbs-Test,
3) den Dixon-Test,
4) den Grubbs-Beck-Test.
Bei
der Auswertung von Datenreihen können einzelne Werte von den übrigen Werten
einer Reihe stark abweichen. Solche ausreißerverdächtigen Werte können das
Ergebnis von Untersuchungen unter Umständen verfälschen. Lassen sich extreme
Werte nicht klar von vorneherein als Mess-, Rechen-, Schreib- oder
Datenerfassungsfehler nachweisen und korrigieren, so sind statistische
Testverfahren zu empfehlen, die über den Ausschluss der Extremwerte aus der
weiteren Analyse entscheiden. Insbesondere sind dann statistische
Ausreißertests zu verwenden, wenn das starke Abweichen von Einzelwerten
fachinhaltlich nicht begründet werden kann.
Weist
ein Test nach, dass eine zufällige Abweichung nicht anzunehmen ist, wird der
herausfallende Einzelwert als Ausreißer bezeichnet und aus der weiteren
Untersuchung ausgeschlossen.
Die
o.g. vier Testverfahren basieren auf der Normalverteilungsannahme für die
Grundgesamtheit der Stichprobe. Es liegt dabei eine Stichprobe von n
Einzelwerten x
(i = 1, 2, …, n) vor.
Die
Nullhypothese H
lautet: Der in Frage stehende Extremwert, d.h. das
Minimum oder Maximum einer Messreihe stammt aus derselben Normalverteilung wie
die übrigen Werte der Stichprobe.
Die
Alternativhypothese H
lautet: Der in Frage
stehende Extremwert der Stichprobe ist ein Ausreißer, d.h. er stammt nicht aus
derselben Normalverteilung wie die anderen Werte der Stichprobe.
Der
David-Hartley-Pearson-Test überprüft, ob der Streubereich der Einzelwerte
hinsichtlich deren Standardabweichung größer ist als bei der Normalverteilung.
Der Grubbs-Test kontrolliert, ob der Abstand des Extremwertes vom Mittelwert im
Vergleich mit der Standardnormalverteilung größer ist als bei dieser zu
erwarten. Der auf kleine Stichproben (<= 29) beschränkte Dixon-Test schließt
einzelne Extremwerte bei der Berechnung der Teststatistik aus.
Streng
genommen ist die wiederholte Anwendung von Ausreißertests auf dieselbe
Messreihe nicht zulässig. Hier bietet der Grubbs-Beck-Test die Möglichkeit zu
überprüfen, ob die beiden kleinsten oder größten Werte einer Datenreihe als
Ausreißerpaar zu bewerten sind.
Während
die vier vorgenannten Testverfahren aufsetzen auf inferenzstatistisches
Vorgehen setzt der auf die „Boxplotregel“ von Tukey zurückgehende Test auf
Ansätze der explorativen Datenanalyse auf. Hier stehen weniger
mathematisch-statistische Überlegungen im Vordergrund als vielmehr
praxisorientierte Vorgehensweisen, die helfen sollen, die „Spreu vom Weizen“ zu
scheiden.
Der
David-Hartley-Pearson-Test
Die
Nullhypothese H
, der kleinste oder der größte Wert einer Datenreihe gehört
zur Stichprobe, wird zum Niveau
verworfen, wenn gilt:
Q = R / s
> Q![]()
R
ist dabei die Spannweite, also die Differenz zwischen größtem und kleinsten
Wert der Datenreihe, s ist die Standardabweichung, Q
steht für die Quantile
des David-Hartley-Pearson-Tests.
Wird
die Nullhypothese verworfen, wird der kleinste bzw. größte Wert als Ausreißer
betrachtet und zwar derjenige dieser beiden Werte, welcher am weitesten vom
Mittelwert entfernt liegt. Bei gleichweiter Entfernung sind beide Werte als
Ausreißer zu betrachten.
Der
Grubbs-Test
Beim
Grubbs-Test wird jeweils für das Maximum und das Minimum der Datenreihe eine
Testgröße bestimmt und mit den von n abhängigen kritischen Werten des
Grubbs-Test verglichen. Die Nullhypothese, dass das Minimum (min) kein Ausreißer
ist, wird hier zum Niveau
verworfen, wenn gilt:
T
= (
- min) / s >
T![]()
Entsprechend
gilt für das Maximum (max):
T
= (max -
) / s > T![]()
entspricht dabei dem
Mittelwert der Datenreihe, s der Standardabweichung, T![]()
steht
für den von n abhängigen kritischen Wert des Grubbs-Tests.
Der
Dixon-Test
Die
Prüfwerte des auf kleine Stichproben (<= 29) ausgerichteten Dixon-Tests
werden in Abhängigkeit von der Stichprobengröße verschieden berechnet. Für die
aufsteigend sortierte Datenreihe gelten folgende Prüfwerte r:
n
= 3, 4, …, 7: r
= (x
- x
) / (x
- x
)
bzw. r
= (x
- x
) / (x
- x
)
n
= 8, 9, 10: r
= (x
- x
) / (x
- x
)
bzw. r
= (x
- x
) / (x
- x
)
n
= 11, 12, 13: r
= (x
- x
) / (x
- x
)
bzw. r
= (x
- x
) / (x
- x
)
n
= 14, 15, …, 29: r
= (x
- x
) / (x
- x
)
bzw. r
= (x
- x
) / (x
- x
)
Die
Nullhypothese wird hierbei verworfen, wenn die Prüfgröße den kritischen Wert
des Dixon-Tests übersteigt.
Der
Grubbs-Beck-Test
Während
die vorstehend beschriebenen Testverfahren jeweils überprüfen, ob der kleinste
oder größte Wert einer Datenreihe als Ausreißer zu bewerten sind, erlaubt
dieser Test die Bewertung von Ausreißerpaaren, also Minimum und zweitkleinster
Wert bzw. Maximum und zweitgrößter Wert.
Hierbei
wird überprüft, ob
S
/ S
< s![]()
bzw.
S
/ S
< s![]()
Hierbei
ist s
der kritische Wert des
Grubbs-Beck-Tests für die Stichprobengröße n bei Signifikanzniveau
. Ferner ist:
S
= ![]()
S
= ![]()
S
= ![]()
,
und
sind die jeweiligen
Mittelwerte der in die Berechnungen eingehenden Werte.
Anmerkung:
Das PS-Explore-System hält die Tabellen mit den jeweiligen kritischen Werten
der o.g. Tests vor und führt die verschiedenen Tests durch. Die vertafelten
Werte findet man etwa in: DIN-Taschenbuch 224, Qualitätssicherung und
angewandte Statistik, Verfahren 1, Beuth Verlag, Berlin, Köln, 1989.
Programmbeschreibung
Der
Aufruf der Verfahren zur Ausreißeranalyse erfolgt bei geladenem Arbeitsblatt
entweder durch Drücken der F6-Taste oder über die Hauptbefehlsleiste des
Autopiloten über Analyse/Report | Datenanalyse | Ausreißeranalyse:

Nach
Anwahl der Ausreißeranalyse öffnet sich das entsprechende Formular zur
Spezifikation der verschiedenen Testverfahren. Die angebotenen Testverfahren sind
bis auf den Test nach Tukey hinsichtlich der Stichprobengröße begrenzt. Dabei
gilt für David-Hartley-Pearson ein n <= 1000, Grubbs n <= 147, Dixon
<= 29 und Grubbs-Beck <= 100.
Das
Formular bietet linksseitig verschiedene Einstellungsmöglichkeiten an:

Als
Analysemerkmale werden alle quantitativen Variablen des Arbeitsblattes
angeboten. Die qualitativen Merkmale des Arbeitsblattes werden als
Gruppenvariablen angeboten, d.h. diese Merkmale spezifizieren Untergruppen für
die die Ausreißertests jeweils gesondert durchgeführt werden. Die Einstellung
<keine> bedeutet, dass die Test nur über die Gesamtstichprobe ausgeführt
werden.
Um
die Ausreißer ggf. auch im Arbeitsblatt auffinden zu können ist es zusätzlich
möglich eine beliebige Spalte des Arbeitsblattes als Identifikationsmerkmal
auszuwählen. Im Normalfall sollte dies eine eindeutige Fallidentifikation
erlauben. Wird die Einstellung <keine> beibehalten, so erscheint in der
Ergebnispräsentation zu den Tests die laufende Nummer des Arbeitsblattes als
Identifikation.
Die
Testverfahren werden nach Möglichkeit zunächst alle automatisch ausgewählt.
Überschreitet die Stichprobengröße die zulässige Obergrenze eines Verfahrens,
so wird der Test automatisch deaktiviert und ist nicht anwählbar.
Um
die Schaltfläche „Berechnen“ zu aktivieren muss zunächst im Feld
„Analysemerkmale“ wenigstens ein Merkmal ausgewählt werden. Es ist möglich die
Klassifikation der Datenreihen als „normale“ Werte und einfache oder extreme
Ausreißer in Form einer neuen Spalte ins Arbeitsblatt einzufügen. Dies
geschieht mittels des Buttons
links oben in dem Bedienungspanel des
Ergebnis-bereiches. Diese Funktion ist allerdings nur aktivierbar, wenn im
Bereich „Analysemerkmale“ nur ein einziges Merkmal ausgewählt wurde.
Die
anderen Buttons
des Bedienungspanels entsprechen den selben
Funktionen wie im t- und im Wilks-Test, d.h. man kann hiermit die Ausgabe der
Ergebnisse auf den Drucker, in die Registerkarte „Ergebnisse/Reports“, in die
Zwischenablage von Windows und in eine Datei veranlassen. Wird das T-Button
angewählt, erhält eine nach „Ergebnisse/Reports“ eingestellte Tabelle noch
zusätzliche Angaben im Titel (Uhrzeit, Dateiname etc.).
Nach
Auswahl der Analysemerkmale und Klick auf die Berechnen-Schaltfläche werden die
Tests unmittelbar ausgeführt und im Formular rechtsseitig angezeigt:

Nachstehend
findet man das Ergebnis zu einer Datenreihe mit 24 Werten. Dabei wurde keine
Gruppenvariable und keine Fallidentifikation gewählt jedoch alle fünf Verfahren
berechnet. In diesem Fall hat die Ergebnistabelle 9 Spalten. Zu jedem
Testverfahren wird die Stichprobengröße angegeben die laufende Nummer des
kleinsten und größten Wertes der Datenreihe als Identifikation, sowie die zu
den Verfahren oben beschriebenen Prüfwerte und der jeweilige kritische Wert.
Die
Signifikanztests erfolgen zunächst auf dem 5%-Niveau. Wird dieses Niveau
erreicht, erfolgt zusätzlich ein Test auf dem 1%-Niveau. Auf dem 5%-Niveau als
Ausreißer identifizierte Werte erhalten eine Markierung mit dem Zeichen >.
Wird auch das 1%-Niveau erreicht, wird das Zeichen doppelt vor den Wert gesetzt
(>>). Ganz rechts in der Tabelle stehen die kritischen Werte gegen die
die Prüfwerte getestet werden. Wird das 1%-Niveau erreicht, werden die
kritischen Werte für das 5%- (links) und das 1%-Niveau (rechts) ausgegeben.

Beim
David-Hartley-Pearson-Test wird de facto nur eine Prüfgröße für Maximum und
Minimum berechnet. Der Vollständigkeit wegen wird dieser Wert in beiden
Prüfwert-Spalten notiert. Da der Grubbs-Beck-Test Ausreißerpaare testet, findet
man in der entsprechenden Zeile des Tests auch die Angaben zu beiden Werten
eines Paares.
Eine
weitere Besonderheit stellt der Test nach der Boxplot-Regel von Tukey dar. Hier
gibt es keinen kritischen Wert im Sinne der anderen Tests. Vielmehr werden alle
Werte als Ausreißer betrachtet, die jeweils mehr als 1,5-mal Quartilabstand vom
unteren bzw. oberen Quartil nach links bzw. rechts entfernt liegen. In der
Spalte „kritischer Wert“ wird das durch die Boxplot-Regel definierte Intervall
in eckigen Klammern angegeben, außerhalb dessen Werte als Ausreißer betrachtet
werden.
Da
bei der Boxplot-Regel auch mehr als ein oder zwei Ausreißer auftreten können,
wird unterhalb der Tabelle mit den allgemeinen Prüfergebnissen noch eine genaue
Liste aller Ausreißer nach Tukey angefügt. Da bei Tukey keine Prüfgrößen
berechnet werden, bleiben in der entsprechenden Zeile in den Spalten für die
Prüfwerte der anderen Testverfahren die jeweiligen Zellen leer.
Abschließend
hier noch ein Beispiel für eine Ergebnistabelle, in der auch Untergruppen und
eine Fallidentifikation benutzt wurden. Da die Gesamtstichprobe 282 Werte
enthält wurden hier automatisch nur die Tests nach David-Hartley-Pearson und
nach Tukey ausgeführt. Alle Tests wurden jeweils für die Gesamtstichprobe und
für die im Gruppenmerkmal „Gebäudeart“ enthaltenen 3 Untergruppen ausgeführt.
Die Spalte mit dem Identifikationsmerkmal trägt als Überschrift den Namen des
gewählten Merkmals „lfd.Nr.“.

Da
auch in diesem Beispiel nur ein Merkmal zur Analyse herangezogen wurde, konnte
mittels der oben erwähnten Einfüge-Option eine Spalte mit der Klassifikation
der Einzelwerte als „normal“ oder „Ausreißer“ direkt ins Arbeitsblatt gestellt
werden. Der Name der generierten Spalte „Ausreißer.Gesamtwohnfläch.12“ wird
automatisch erzeugt und kann mit den bekannten Funktionen des Arbeitsblattes
anschließend leicht geändert werden.
Im
Beispiel unten wurde per Doppelklick auf die Spalte mit den
Ausreißer-klassifikationen die MOLAP-Funktion des Arbeitsblattes aktiviert. Auf
diese Weise kann man sofort anzeigen lassen wie viel Ausreißer identifiziert
wurden. Durch Klick auf den grünen Balken der MOLAP-Anzeige wird sofort eine
Selektion der Ausreißer möglich, die man sich über die Drill-Down-Schaltfläche
in einem separaten Arbeitsblatt anzeigen lassen kann.
Da
bei der Analyse der Ausreißer ein Gruppenmerkmal (Gebäudeart) benutzt wurde,
ist auch die in der „Ausreißerspalte“ abgelegte Klassifikation bezogen auf die
jeweilige Untergruppe. Die in der Spalte abgelegten Kodierungen der Ausreißer
liegen zwischen 0 und 3. Dabei erhalten alle Fälle, die im Analysemerkmal keine
Angabe besitzen (Fehlwerte) eine 0, Nicht-Ausreißer erhalten eine 1. Werte die
nach Tukey als sog. Außenwerte (einfache Ausreißer) bezeichnet werden erhalten
eine 2 und die sog. Fernwerte (extreme Ausreißer) sind mit 3 kodiert. Die den
Kodes zugeordneten Klartexte entsprechen der Tukeyschen Namensgebung. Wurden
die Ausreißer auch von den anderen Verfahren als Ausreißer identifiziert, so
bedeutet der Kode 2, dass der Wert auf dem 5%-Niveau identifiziert wurde, der
Kode 3 entspricht dem 1%-Niveau.

“ältere” News: www.vgsps.de/html/news1.html