Die Ausreißeranalyse in PS-Explore NC/StatSys

 

Verfahrensbeschreibung

 

Die Ausreißeranalyse in PS-Explore NC/StatSys bietet neben der Identifikation von Ausreißern nach der „Boxplotregel“ von Tukey vier weitere klassische Testverfahren an:

 

1)    den David-Hartley-Pearson-Test,

2)    den Grubbs-Test,

3)    den Dixon-Test,

4)    den Grubbs-Beck-Test.

 

 

Bei der Auswertung von Datenreihen können einzelne Werte von den übrigen Werten einer Reihe stark abweichen. Solche ausreißerverdächtigen Werte können das Ergebnis von Untersuchungen unter Umständen verfälschen. Lassen sich extreme Werte nicht klar von vorneherein als Mess-, Rechen-, Schreib- oder Datenerfassungsfehler nachweisen und korrigieren, so sind statistische Testverfahren zu empfehlen, die über den Ausschluss der Extremwerte aus der weiteren Analyse entscheiden. Insbesondere sind dann statistische Ausreißertests zu verwenden, wenn das starke Abweichen von Einzelwerten fachinhaltlich nicht begründet werden kann.

 

Weist ein Test nach, dass eine zufällige Abweichung nicht anzunehmen ist, wird der herausfallende Einzelwert als Ausreißer bezeichnet und aus der weiteren Untersuchung  ausgeschlossen.

 

Die o.g. vier Testverfahren basieren auf der Normalverteilungsannahme für die Grundgesamtheit der Stichprobe. Es liegt dabei eine Stichprobe von n Einzelwerten x (i = 1, 2, …, n) vor.

 

Die Nullhypothese H lautet:  Der in Frage stehende Extremwert, d.h. das Minimum oder Maximum einer Messreihe stammt aus derselben Normalverteilung wie die übrigen Werte der Stichprobe.

 

Die Alternativhypothese H lautet: Der in Frage stehende Extremwert der Stichprobe ist ein Ausreißer, d.h. er stammt nicht aus derselben Normalverteilung wie die anderen Werte der Stichprobe.

 

Der David-Hartley-Pearson-Test überprüft, ob der Streubereich der Einzelwerte hinsichtlich deren Standardabweichung größer ist als bei der Normalverteilung. Der Grubbs-Test kontrolliert, ob der Abstand des Extremwertes vom Mittelwert im Vergleich mit der Standardnormalverteilung größer ist als bei dieser zu erwarten. Der auf kleine Stichproben (<= 29) beschränkte Dixon-Test schließt einzelne Extremwerte bei der Berechnung der Teststatistik aus.

 

Streng genommen ist die wiederholte Anwendung von Ausreißertests auf dieselbe Messreihe nicht zulässig. Hier bietet der Grubbs-Beck-Test die Möglichkeit zu überprüfen, ob die beiden kleinsten oder größten Werte einer Datenreihe als Ausreißerpaar zu bewerten sind.

 

Während die vier vorgenannten Testverfahren aufsetzen auf inferenzstatistisches Vorgehen setzt der auf die „Boxplotregel“ von Tukey zurückgehende Test auf Ansätze der explorativen Datenanalyse auf. Hier stehen weniger mathematisch-statistische Überlegungen im Vordergrund als vielmehr praxisorientierte Vorgehensweisen, die helfen sollen, die „Spreu vom Weizen“ zu scheiden.

 

 

Der David-Hartley-Pearson-Test

 

Die Nullhypothese H, der kleinste oder der größte Wert einer Datenreihe gehört zur Stichprobe, wird zum Niveau  verworfen, wenn gilt:

 

 

                                       Q = R / s > Q

 

R ist dabei die Spannweite, also die Differenz zwischen größtem und kleinsten Wert der Datenreihe, s ist die Standardabweichung, Q steht für die Quantile des David-Hartley-Pearson-Tests.

 

Wird die Nullhypothese verworfen, wird der kleinste bzw. größte Wert als Ausreißer betrachtet und zwar derjenige dieser beiden Werte, welcher am weitesten vom Mittelwert entfernt liegt. Bei gleichweiter Entfernung sind beide Werte als Ausreißer zu betrachten.

 

 

Der Grubbs-Test

 

Beim Grubbs-Test wird jeweils für das Maximum und das Minimum der Datenreihe eine Testgröße bestimmt und mit den von n abhängigen kritischen Werten des Grubbs-Test verglichen. Die Nullhypothese, dass das Minimum (min) kein Ausreißer ist, wird hier zum Niveau  verworfen, wenn gilt:

 

 

                                       T  =  ( - min) / s   >  T

 

Entsprechend gilt für das Maximum (max):

 

 

                                       T  =  (max - ) / s   >  T

 

 entspricht dabei dem Mittelwert der Datenreihe, s der Standardabweichung, T

steht für den von n abhängigen kritischen Wert des Grubbs-Tests.

 


Der Dixon-Test

 

Die Prüfwerte des auf kleine Stichproben (<= 29) ausgerichteten Dixon-Tests werden in Abhängigkeit von der Stichprobengröße verschieden berechnet. Für die aufsteigend sortierte Datenreihe gelten folgende Prüfwerte r:

 

 

n = 3, 4, …, 7:        r  =  (x- x) / (x- x)

 

          bzw.             r  =  (x- x) / (x- x)

 

n = 8, 9, 10:            r  =  (x- x) / (x- x)

 

          bzw.             r  =  (x- x) / (x- x)

 

 

n = 11, 12, 13:        r  =  (x- x) / (x- x)

 

          bzw.             r  =  (x - x) / (x- x)

 

 

n = 14, 15, …, 29:   r =  (x- x) / (x- x)

 

          bzw.             r =  (x - x) / (x - x)

 

 

Die Nullhypothese wird hierbei verworfen, wenn die Prüfgröße den kritischen Wert des Dixon-Tests übersteigt.

 

 

Der Grubbs-Beck-Test

 

Während die vorstehend beschriebenen Testverfahren jeweils überprüfen, ob der kleinste oder größte Wert einer Datenreihe als Ausreißer zu bewerten sind, erlaubt dieser Test die Bewertung von Ausreißerpaaren, also Minimum und zweitkleinster Wert bzw. Maximum und zweitgrößter Wert.

 

Hierbei wird überprüft, ob

 

                              S / S <  s

 

          bzw.

                              S / S <  s

 

Hierbei ist s der kritische Wert des Grubbs-Beck-Tests für die Stichprobengröße n bei Signifikanzniveau . Ferner ist:


                              S =

 

 

 

                              S =

 

 

                             

                              S =

 

 

,  und  sind die jeweiligen Mittelwerte der in die Berechnungen eingehenden Werte.

 

 

Anmerkung: Das PS-Explore-System hält die Tabellen mit den jeweiligen kritischen Werten der o.g. Tests vor und führt die verschiedenen Tests durch. Die vertafelten Werte findet man etwa in: DIN-Taschenbuch 224, Qualitätssicherung und angewandte Statistik, Verfahren 1, Beuth Verlag, Berlin, Köln, 1989.

 

 

 

Programmbeschreibung

 

Der Aufruf der Verfahren zur Ausreißeranalyse erfolgt bei geladenem Arbeitsblatt entweder durch Drücken der F6-Taste oder über die Hauptbefehlsleiste des Autopiloten über Analyse/Report | Datenanalyse | Ausreißeranalyse:

 

 

 

Nach Anwahl der Ausreißeranalyse öffnet sich das entsprechende Formular zur Spezifikation der verschiedenen Testverfahren. Die angebotenen Testverfahren sind bis auf den Test nach Tukey hinsichtlich der Stichprobengröße begrenzt. Dabei gilt für David-Hartley-Pearson ein n <= 1000, Grubbs n <= 147, Dixon <= 29 und Grubbs-Beck <= 100.


Das Formular bietet linksseitig verschiedene Einstellungsmöglichkeiten an:

 

 

Als Analysemerkmale werden alle quantitativen Variablen des Arbeitsblattes angeboten. Die qualitativen Merkmale des Arbeitsblattes werden als Gruppenvariablen angeboten, d.h. diese Merkmale spezifizieren Untergruppen für die die Ausreißertests jeweils gesondert durchgeführt werden. Die Einstellung <keine> bedeutet, dass die Test nur über die Gesamtstichprobe ausgeführt werden.

 

Um die Ausreißer ggf. auch im Arbeitsblatt auffinden zu können ist es zusätzlich möglich eine beliebige Spalte des Arbeitsblattes als Identifikationsmerkmal auszuwählen. Im Normalfall sollte dies eine eindeutige Fallidentifikation erlauben. Wird die Einstellung <keine> beibehalten, so erscheint in der Ergebnispräsentation zu den Tests die laufende Nummer des Arbeitsblattes als Identifikation.

 

Die Testverfahren werden nach Möglichkeit zunächst alle automatisch ausgewählt. Überschreitet die Stichprobengröße die zulässige Obergrenze eines Verfahrens, so wird der Test automatisch deaktiviert und ist nicht anwählbar.

 

Um die Schaltfläche „Berechnen“ zu aktivieren muss zunächst im Feld „Analysemerkmale“ wenigstens ein Merkmal ausgewählt werden. Es ist möglich die Klassifikation der Datenreihen als „normale“ Werte und einfache oder extreme Ausreißer in Form einer neuen Spalte ins Arbeitsblatt einzufügen. Dies geschieht mittels des Buttons    links oben in dem Bedienungspanel des Ergebnis-bereiches. Diese Funktion ist allerdings nur aktivierbar, wenn im Bereich „Analysemerkmale“ nur ein einziges Merkmal ausgewählt wurde.

 

Die anderen Buttons  des Bedienungspanels entsprechen den selben Funktionen wie im t- und im Wilks-Test, d.h. man kann hiermit die Ausgabe der Ergebnisse auf den Drucker, in die Registerkarte „Ergebnisse/Reports“, in die Zwischenablage von Windows und in eine Datei veranlassen. Wird das T-Button angewählt, erhält eine nach „Ergebnisse/Reports“ eingestellte Tabelle noch zusätzliche Angaben im Titel (Uhrzeit, Dateiname etc.).

 

Nach Auswahl der Analysemerkmale und Klick auf die Berechnen-Schaltfläche werden die Tests unmittelbar ausgeführt und im Formular rechtsseitig angezeigt:

 

 

Nachstehend findet man das Ergebnis zu einer Datenreihe mit 24 Werten. Dabei wurde keine Gruppenvariable und keine Fallidentifikation gewählt jedoch alle fünf Verfahren berechnet. In diesem Fall hat die Ergebnistabelle 9 Spalten. Zu jedem Testverfahren wird die Stichprobengröße angegeben die laufende Nummer des kleinsten und größten Wertes der Datenreihe als Identifikation, sowie die zu den Verfahren oben beschriebenen Prüfwerte und der jeweilige kritische Wert.

 

Die Signifikanztests erfolgen zunächst auf dem 5%-Niveau. Wird dieses Niveau erreicht, erfolgt zusätzlich ein Test auf dem 1%-Niveau. Auf dem 5%-Niveau als Ausreißer identifizierte Werte erhalten eine Markierung mit dem Zeichen >. Wird auch das 1%-Niveau erreicht, wird das Zeichen doppelt vor den Wert gesetzt (>>). Ganz rechts in der Tabelle stehen die kritischen Werte gegen die die Prüfwerte getestet werden. Wird das 1%-Niveau erreicht, werden die kritischen Werte für das 5%- (links) und das 1%-Niveau (rechts) ausgegeben.

 

Beim David-Hartley-Pearson-Test wird de facto nur eine Prüfgröße für Maximum und Minimum berechnet. Der Vollständigkeit wegen wird dieser Wert in beiden Prüfwert-Spalten notiert. Da der Grubbs-Beck-Test Ausreißerpaare testet, findet man in der entsprechenden Zeile des Tests auch die Angaben zu beiden Werten eines Paares.

 

Eine weitere Besonderheit stellt der Test nach der Boxplot-Regel von Tukey dar. Hier gibt es keinen kritischen Wert im Sinne der anderen Tests. Vielmehr werden alle Werte als Ausreißer betrachtet, die jeweils mehr als 1,5-mal Quartilabstand vom unteren bzw. oberen Quartil nach links bzw. rechts entfernt liegen. In der Spalte „kritischer Wert“ wird das durch die Boxplot-Regel definierte Intervall in eckigen Klammern angegeben, außerhalb dessen Werte als Ausreißer betrachtet werden.

 

Da bei der Boxplot-Regel auch mehr als ein oder zwei Ausreißer auftreten können, wird unterhalb der Tabelle mit den allgemeinen Prüfergebnissen noch eine genaue Liste aller Ausreißer nach Tukey angefügt. Da bei Tukey keine Prüfgrößen berechnet werden, bleiben in der entsprechenden Zeile in den Spalten für die Prüfwerte der anderen Testverfahren die jeweiligen Zellen leer.

 

Abschließend hier noch ein Beispiel für eine Ergebnistabelle, in der auch Untergruppen und eine Fallidentifikation benutzt wurden. Da die Gesamtstichprobe 282 Werte enthält wurden hier automatisch nur die Tests nach David-Hartley-Pearson und nach Tukey ausgeführt. Alle Tests wurden jeweils für die Gesamtstichprobe und für die im Gruppenmerkmal „Gebäudeart“ enthaltenen 3 Untergruppen ausgeführt. Die Spalte mit dem Identifikationsmerkmal trägt als Überschrift den Namen des gewählten Merkmals „lfd.Nr.“.

 

 

Da auch in diesem Beispiel nur ein Merkmal zur Analyse herangezogen wurde, konnte mittels der oben erwähnten Einfüge-Option eine Spalte mit der Klassifikation der Einzelwerte als „normal“ oder „Ausreißer“ direkt ins Arbeitsblatt gestellt werden. Der Name der generierten Spalte „Ausreißer.Gesamtwohnfläch.12“ wird automatisch erzeugt und kann mit den bekannten Funktionen des Arbeitsblattes anschließend leicht geändert werden.

 

Im Beispiel unten wurde per Doppelklick auf die Spalte mit den Ausreißer-klassifikationen die MOLAP-Funktion des Arbeitsblattes aktiviert. Auf diese Weise kann man sofort anzeigen lassen wie viel Ausreißer identifiziert wurden. Durch Klick auf den grünen Balken der MOLAP-Anzeige wird sofort eine Selektion der Ausreißer möglich, die man sich über die Drill-Down-Schaltfläche in einem separaten Arbeitsblatt anzeigen lassen kann.

 

Da bei der Analyse der Ausreißer ein Gruppenmerkmal (Gebäudeart) benutzt wurde, ist auch die in der „Ausreißerspalte“ abgelegte Klassifikation bezogen auf die jeweilige Untergruppe. Die in der Spalte abgelegten Kodierungen der Ausreißer liegen zwischen 0 und 3. Dabei erhalten alle Fälle, die im Analysemerkmal keine Angabe besitzen (Fehlwerte) eine 0, Nicht-Ausreißer erhalten eine 1. Werte die nach Tukey als sog. Außenwerte (einfache Ausreißer) bezeichnet werden erhalten eine 2 und die sog. Fernwerte (extreme Ausreißer) sind mit 3 kodiert. Die den Kodes zugeordneten Klartexte entsprechen der Tukeyschen Namensgebung. Wurden die Ausreißer auch von den anderen Verfahren als Ausreißer identifiziert, so bedeutet der Kode 2, dass der Wert auf dem 5%-Niveau identifiziert wurde, der Kode 3 entspricht dem 1%-Niveau.

 

 

 

 

 

 

 

 

“ältere” News: www.vgsps.de/html/news1.html

                      www.vgsps.de/html/news2.html