Outlier

In der Statistik ist ein outlier eine Beobachtung, die vom Rest der Daten numerisch entfernt ist. Grubbs hat einen outlier als definiert:

Outliers kann zufällig in jedem Vertrieb vorkommen, aber sie sind häufig entweder für den Maß-Fehler bezeichnend, oder dass die Bevölkerung einen Vertrieb mit dem schweren Schwanz hat. Im ehemaligen Fall möchte man sie oder Gebrauch-Statistiken verwerfen, die zu outliers robust sind, während im letzten Fall sie anzeigen, dass der Vertrieb hohen kurtosis hat, und dass man im Verwenden von Werkzeugen oder Intuitionen sehr vorsichtig sein sollte, die eine Normalverteilung annehmen. Eine häufige Ursache von outliers ist eine Mischung von zwei Vertrieb, der zwei verschiedene Subbevölkerungen sein kann, oder 'richtige Probe' gegen den 'Maß-Fehler' anzeigen kann; das wird durch ein Mischungsmodell modelliert.

Im grössten Teil größeren samplings von Daten werden einige Datenpunkte weiter weg von der Probe sein, die bösartig ist als, was angemessen gehalten wird. Das kann wegen des beiläufigen systematischen Fehlers oder der Fehler in der Theorie sein, die eine angenommene Familie des Wahrscheinlichkeitsvertriebs erzeugt hat, oder es sein kann, dass einige Beobachtungen vom Zentrum der Daten weit sind. Punkte von Outlier können deshalb fehlerhafte Daten, falsche Verfahren oder Gebiete anzeigen, wo eine bestimmte Theorie nicht gültig sein könnte. Jedoch, in großen Proben, soll eine kleine Zahl von outliers (und nicht wegen jeder anomalen Bedingung) erwartet werden.

Outliers, die am meisten äußersten Beobachtungen seiend, kann das maximale Beispiel- oder Beispielminimum oder beide je nachdem einschließen, ob sie äußerst hoch oder niedrig sind. Jedoch sind das Beispielmaximum und Minimum nicht immer outliers, weil sie von anderen Beobachtungen nicht ungewöhnlich weit sein können.

Die naive Interpretation der Statistik ist auf Dateien zurückzuführen gewesen, die outliers einschließen, kann irreführend sein. Zum Beispiel, wenn man die durchschnittliche Temperatur von 10 Gegenständen in einem Zimmer berechnet, und die meisten zwischen 20 und 25 Grad Celsius sind, aber ein Ofen ist an 175 °C, kann die Mittellinie der Daten 23 °C sein, aber die Mitteltemperatur wird zwischen 35.5 und 40 °C sein. In diesem Fall widerspiegelt die Mittellinie besser die Temperatur eines zufällig probierten Gegenstands als das bösartige; jedoch naiv ist die Interpretation des bösartigen als "eine typische Probe", gleichwertig zur Mittellinie, falsch. Wie illustriert, in diesem Fall kann outliers für Datenpunkte bezeichnend sein, die einer verschiedenen Bevölkerung gehören als der Rest des Beispielsatzes.

Wie man

sagt, sind Vorkalkulatoren, die dazu fähig sind, mit outliers fertig zu werden, robust: Die Mittellinie ist ein robuster statistischer, während das bösartige nicht ist.

Ereignis und Ursachen

Im Fall von normalerweise verteilten Daten wird sich ungefähr jede 22. Beobachtung durch zweimal die Standardabweichung oder mehr vom bösartigen unterscheiden, und 1 in 370 wird durch dreimal die Standardabweichung abgehen; sieh drei Sigma-Regel für Details. In einer Probe von 1000 Beobachtungen ist die Anwesenheit von bis zu fünf Beobachtungen, die vom bösartigen durch mehr als dreimal die Standardabweichung abgehen, innerhalb der Reihe dessen, was erwartet werden kann, weniger seiend, als zweimal die erwartete Zahl und folglich innerhalb von 1 Standardabweichung der erwarteten Zahl - Vertrieb von Poisson, und nicht bezeichnend für eine Anomalie sieht. Wenn die Beispielgröße nur 100 jedoch ist, gerade sind drei solche outliers bereits Grund für die Sorge, mehr als 11mal die erwartete Zahl seiend.

Im Allgemeinen, wenn die Natur des Bevölkerungsvertriebs a priori bekannt ist, ist es möglich zu prüfen, wenn die Zahl von outliers bedeutsam davon abgeht, was erwartet werden kann: Für eine gegebene Abkürzung (so Beispielfall außer der Abkürzung mit der Wahrscheinlichkeit p) eines gegebenen Vertriebs wird die Zahl von outliers einem binomischen Vertrieb mit dem Parameter p folgen, der allgemein durch den Vertrieb von Poisson mit λ = pn gut näher gekommen werden kann. So, wenn man eine Normalverteilung mit der Abkürzung nimmt, 3 Standardabweichungen vom bösartigen, p ist etwa.3 %, und so für 1,000 Proben kann man der Zahl von Proben näher kommen, deren Abweichung 3 Sigmas durch einen Vertrieb von Poisson mit λ = 3 überschreitet.

Ursachen

Outliers kann viele anomale Ursachen haben. Ein physischer Apparat, um Maße zu nehmen, kann eine vergängliche Funktionsstörung ertragen haben. Es kann einen Fehler in der Datenübertragung oder Abschrift gegeben haben. Outliers entstehen wegen Änderungen in Systemverhalten, betrügerischem Verhalten, menschlichem Fehler, Instrument-Fehler oder einfach durch natürliche Abweichungen in Bevölkerungen. Eine Probe kann mit Elementen von der Außenseite der Bevölkerung verseucht worden sein, die wird untersucht. Wechselweise konnte ein outlier das Ergebnis eines Fehlers in der angenommenen Theorie sein, nach weiterer Untersuchung durch den Forscher verlangend. Zusätzlich erscheint das pathologische Äußere von outliers einer bestimmten Form in einer Vielfalt von datasets, anzeigend, dass sich der begründende Mechanismus für die Daten am äußersten Ende (König-Wirkung) unterscheiden könnte.

Verwarnung

Wenn es nicht festgestellt werden kann, dass die Abweichung nicht bedeutend ist, ist es unklug, um die Anwesenheit von outliers zu ignorieren. Outliers, der Nachfrage spezielle Aufmerksamkeit nicht sogleich erklärt werden kann - sieht Kurtosis-Gefahr und schwarze Schwan-Theorie.

Sich identifizierender outliers

Es gibt keine starre mathematische Definition dessen, was einen outlier einsetzt; die Bestimmung, ob eine Beobachtung ein outlier ist, ist schließlich eine subjektive Übung.

Entdeckung von Outlier ist seit Jahrhunderten verwendet worden, um zu entdecken, und, wo passend, entfernt anomale Beobachtungen von Daten. Entdeckung von Outlier kann Systemschulden und Schwindel identifizieren, bevor sie mit potenziell katastrophalen Folgen eskalieren. Die ursprünglichen outlier Entdeckungsmethoden waren willkürlich, aber jetzt systematische Techniken mit hohen Grundsätzen werden verwendet, von der vollen Tonleiter der Informatik und Statistik gezogen.

Es gibt drei grundsätzliche Annäherungen an das Problem der outlier Entdeckung:

  • Typ 1 - Bestimmt den outliers ohne vorherige Kenntnisse der Daten. Das ist im Wesentlichen eine dem unbeaufsichtigten Sammeln analoge Lernannäherung. Die Annäherung bearbeitet die Daten als ein statischer Vertrieb, stellt die entferntesten Punkte genau fest, und beflaggt sie als Potenzial outliers.
  • Typ 2 - Modell sowohl Normalität als auch Abnormität. Diese Annäherung ist der beaufsichtigten Klassifikation analog und verlangt voretikettierte Daten, markiert als normal oder anomal.
  • Typ 3 - Modell nur Normalität (oder in einiger Fall-Musterabnormität). Das ist einer halbbeaufsichtigten Anerkennungs- oder Entdeckungsaufgabe analog. Es kann halbbeaufsichtigt betrachtet werden, weil die normale Klasse unterrichtet wird, aber der Algorithmus lernt, Abnormität anzuerkennen.

Musterbasierte Methoden, die für die Identifizierung allgemein verwendet werden, nehmen an, dass die Daten von einer Normalverteilung sind, und Beobachtungen identifizieren, die "kaum" gestützt auf der Mittel- und Standardabweichung gehalten werden:

  • Das Kriterium von Chauvenet
  • Der Test von Grubbs auf outliers
  • Das Kriterium von Peirce

Es wird vorgehabt, in einer Reihe von Beobachtungen die Grenze des Fehlers zu bestimmen, außer dem alle Beobachtungen, die mit einem so großen Fehler verbunden sind, zurückgewiesen werden können, vorausgesetzt dass es so viel gibt wie solche Beobachtungen. Der Grundsatz, auf den es vorgehabt wird, dieses Problem zu beheben, ist, dass die vorgeschlagenen Beobachtungen zurückgewiesen werden sollten, wenn die Wahrscheinlichkeit des Systems von erhaltenen Fehlern durch das Behalten von ihnen weniger ist als dieses des Systems von Fehlern, die durch ihre Verwerfung erhalten sind, die mit der Wahrscheinlichkeit multipliziert ist, so viele, und nicht mehr, anomale Beobachtungen zu machen. (Angesetzt im Herausgeberzeichen auf der Seite 516 Peirce (1982-Ausgabe) aus Einem Handbuch der Astronomie 2:558 durch Chauvenet.)

  • Die Q von Dixon prüfen
  • ASTM E178 Standardpraxis, um sich mit abgelegenen Beobachtungen zu befassen

Andere Methode-Fahne-Beobachtungen haben auf Maßnahmen wie die Interquartile-Reihe gestützt. Zum Beispiel, wenn und der niedrigere und obere quartiles beziehungsweise sind, dann konnte man einen outlier definieren, um jede Beobachtung außerhalb der Reihe zu sein:

:

für eine Konstante.

Andere Annäherungen sind Entfernungsbasiert und verwenden oft die Entfernung den K-Nearest-Nachbarn, um Beobachtungen als outliers oder non-outliers zu etikettieren.

Das Arbeiten mit outliers

Die Wahl dessen, wie man sich mit einem outlier befasst, sollte von der Ursache abhängen.

Retention

Selbst wenn ein Normalverteilungsmodell zu den Daten passend ist, die analysieren werden, werden outliers für große Beispielgrößen erwartet und sollten nicht automatisch verworfen werden, wenn das der Fall ist. Die Anwendung sollte einen Klassifikationsalgorithmus verwenden, der zu outliers zu Musterdaten mit dem natürlichen Auftreten outlier Punkte robust ist.

Ausschluss

Das Auswischen von outlier Daten ist eine umstrittene Praxis, die von vielen Wissenschaftlern und Wissenschaftslehrern missbilligt ist; während mathematische Kriterien eine objektive und quantitative Methode für die Datenverwerfung zur Verfügung stellen, machen sie die Praxis mehr wissenschaftlich oder methodisch ausgereift besonders in kleinen Sätzen nicht, oder wo eine Normalverteilung nicht angenommen werden kann. Die Verwerfung von outliers ist in Gebieten der Praxis mehr annehmbar, wo das zu Grunde liegende Modell des Prozesses, der wird misst und des üblichen Vertriebs des Maß-Fehlers, überzeugt bekannt ist. Ein outlier, der sich aus einem Instrument-Lesen-Fehler ergibt, kann ausgeschlossen werden, aber es ist wünschenswert, dass das Lesen mindestens nachgeprüft wird.

In Problemen des rückwärts Gehens kann eine alternative Annäherung sein, um nur Punkte auszuschließen, die einen großen Grad des Einflusses auf die Rahmen mit einem Maß wie die Entfernung des Kochs ausstellen.

Wenn ein Datenpunkt (oder Punkte) von der Datenanalyse ausgeschlossen werden, sollte das klar auf jedem nachfolgenden Bericht festgesetzt werden.

Nichtnormalverteilungen

Die Möglichkeit sollte als das betrachtet werden der zu Grunde liegende Vertrieb der Daten ist nicht ungefähr normal, "fette Schwänze" habend. Zum Beispiel, wenn sie von einem Vertrieb von Cauchy, den Beispielabweichungszunahmen mit der Beispielgröße ausfällt, scheitert die bösartige Probe zusammenzulaufen, als die Beispielgröße zunimmt, und outliers an viel größeren Raten erwartet werden als für eine Normalverteilung.

Alternative Modelle

In Fällen, wo die Ursache des outliers bekannt ist, kann es möglich sein, diese Wirkung in die Musterstruktur, zum Beispiel durch das Verwenden eines hierarchischen Modells von Bayes oder eines Mischungsmodells zu vereinigen.

Siehe auch

  • Anomalie-Entdeckung
  • Anomalie-Zeitreihe
  • Robuste Statistik
  • Robustes rückwärts Gehen
  • Kasten-Anschlag
  • König-Wirkung
  • Studentized restlicher
  • Winsorising
  • Datentransformation (Statistik)
  • ISO 16269-4, Standardinterpretation von Daten, Teil 4, Entschluss von Outliers

Links


BBC zwei / König das Zwergrind
Impressum & Datenschutz