Wie du Ausreißer in deiner Datenreihe findest

Stell dir vor, du hast eine Datenreihe und daraus ein Punktdiagramm erstellt. Einer oder auch mehrere Werte passen deiner Ansicht nach nicht so recht in die Datenwolke, denn sie stehen ein wenig außerhalb diese Gebildes.

Du fragst dich, ob diese Werte sogenannte Ausreißer sind, denn die könnten einen arithmetischen Mittelwert verfälschen.

Deshalb willst du eine Analyse der Daten auf Ausreißer durchführen. Dazu gibt es neben sehr komplizierten Methoden eine relativ einfache, die ich dir in diesem Beitrag zeigen möchte.

Was ist ein Ausreißer?

Diese Methode habe ich mir methodisch bei http://de.wikihow.com [1] abgeschaut. Für den Beitrag nehme ich allerdings ein eigenes Beispiel.

Zunächst heißt es auf der Site:

„Ein Ausreißer ist ein Messpunkt, der sich numerisch deutlich von den anderen Messwerten der Messreihe unterscheidet. Der Begriff wird hauptsächlich in der Statistik verwendet und kann auf Abweichungen in einer beobachteten Datenreihe hinweisen oder Fehler bei den Messungen offenbaren.“

Damit habe ich eine gute Basis, mein Beispiel zu untersuchen.

 

1. Die Messwerte

Bei einem Wasserversorger wird monatlich, bei großen städtischen Werken auch täglich, die sogenannte Netzabgabe gemessen und dokumentiert. Netzabgabe ist die Menge Wasser, die nach der Aufbereitung und abzüglich eines gewissen Eigenverbrauchs (z.B. für Spülungen) ins Wasserversorgungsnetz gepumpt wird und damit dem Endverbraucher zur Verfügung steht.

Das Beispiel zeigt die monatlichen Messwerte eines fiktiven Wasserwerkes.

Ausreißer1

 

2. Wie man einen möglichen Ausreißer erkennt

Dazu schaue ich mir die einzelnen Werte der Datenreihe an. Mir fällt auf, dass der Messwert des Monats August von den anderen Werten abweicht. Das könnte ein Ausreißer sein und darauf hindeuten, dass im August irgendwo im Versorgungsgebiet ein größerer Rohrbruch ein Thema war.

3. Die Datenpunkte vom niedrigsten zum höchsten Wert anordnen

Das habe ich getan. Der niedrigste Wert steht links, der höchste rechts.

Ausreißer2

4. Den Median des Datensatzes berechnen

Der Median ist derjenige Datenpunkt, der sich genau in der Mitte der sortierten Daten befindet. Bei einer geraden Anzahl von Messwerten muss der Mittelwert der beiden mittleren Werte gebildet werden, hier also der Mittelwert aus 4.550 und 4.651. Das ist 4.601.

Ich arbeite mit Excel und verwende somit die statistische Funktion MEDIAN.

Ausreißer3

Wie zu erwarten, ist das Ergebnis auch 4.601.

5. Berechnung des unteren Quartils

Das untere Quartil wird Q1 genannt und zeigt den Datenpunkt in der Messreihe, unter dem sich 25% der Messwerte befinden.

Excel hat auch hierfür wieder eine Funktion. Als Argumente sind lediglich die Matrix und eine 1, die das erste Quartil bezeichnet, einzugeben.

Ausreißer4

6. Berechnung des oberen Quartils

Das obere Quartil Q3 ist der Datenpunkt, über dem sich noch 25% der Messwerte befinden.

Ich nehme dazu wieder die gleiche Funktion, setze als Quartil aber eine 3, die das dritte Quartil bezeichnet, ein.

Ausreißer5

7. Berechnung der „Antennen“ des Datensatzes

Zuerst wird die Differenz zwischen Q1 und Q3, der Quartilsabstand, berechnet.

Ich rechne also 4.726,5 – 4.475,5 und erhalte als Ergebnis = 251,0.

Der Quartilsabstand wird nun mit 1,5 multipliziert.

Ich rechne 251,0 * 1,5 und erhalte = 376,5.

Diese Zahl wird zu Q3 addiert und von Q1 subtrahiert.

Q3: 4.726,5 + 376,5 = 5.103,0

Q1: 4.475,5 – 376,5 = 4.099,0

Dami habe ich die „Antennen“ des Datensatzes bestimmt.

Alle Werte die außerhalb  dieser Grenzwerte liegen, wären sogenannte „milde“ Ausreißer, also alle Werte

< 4.099,0 und

5.103,0.

Um in der Datenreihe diese Werte zu identifizieren, wende ich die Bedingte Formatierung an. Die Werte < 4.099 sollen gelb, die Werte > 5.103 rot gefärbt werden.

Ausreißer6

Werte < 4.099 sind nicht enthalten, wohl aber ein Wert > 5.103, nämlich 5.670, der Wert, auf den ich schon meinen Verdacht gelegt habe.

8. Berechnung der „extremen“ Ausreißer

Dafür wird in gleicher Weise zu Abschn. 6 vorgegangen, nur dass der Quartilsabstand nicht mit 1,5, sondern mit 3,0 multipliziert wird.

Ich rechne 251,0 * 3 und erhalte = 753,0.

Dann berechne ich:

Q3: 4.726,5 + 753,0 = 5.479,5

Q1: 4.475,5 – 753,0 = 3.722,5.

Extreme Ausreißer sind wieder alle Werte, die außerhalb dieser Grenzen liegen.

Die Bedingte Formatierung zeigt es:

Ausreißer7

Werte < 3.722,5 sind nicht enthalten, der Wert 5.670 ist aber > 5.479,5 und damit ein extremer Ausreißer.

Den Ursachen für diese enorme Abweichung von allen übrigen Werten und vom Median sollte unbedingt nachgegangen werden

[1] http://de.wikihow.com/Ausrei%C3%9Fer-berechnen

Advertisements

Autor: Gerhard Pundt

Auf meiner Site https://clevercalcul.wordpress.com geht es um die Tabellenkalkulation mit Excel. Es wird über Funktionen, Diagramme, Basiswissen u.a.m. geschrieben.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s