Mittellinie

In der Statistik und Wahrscheinlichkeitstheorie wird Mittellinie als der numerische Wert beschrieben, der die höhere Hälfte einer Probe, einer Bevölkerung oder eines Wahrscheinlichkeitsvertriebs von der niedrigeren Hälfte trennt. Die Mittellinie einer begrenzten Liste von Zahlen kann durch das Ordnen aller Beobachtungen vom niedrigsten Wert bis höchsten Wert und die Auswahl des mittleren gefunden werden. Wenn es eine gerade Zahl von Beobachtungen gibt, dann gibt es keinen einzelnen mittleren Wert; die Mittellinie wird dann gewöhnlich definiert, um die bösartigen von den zwei mittleren Werten zu sein.

In einer Probe von Daten oder einer begrenzten Bevölkerung kann es kein Mitglied der Probe geben, deren Wert zur Mittellinie (im Fall von einer gleichen Beispielgröße) identisch ist, und, wenn es solch ein Mitglied gibt, kann es mehr als einen geben, so dass die Mittellinie kein Beispielmitglied einzigartig erkennen kann. Dennoch wird der Wert der Mittellinie mit der üblichen Definition einzigartig bestimmt. Ein zusammenhängendes Konzept, in dem das Ergebnis gezwungen wird, einem Mitglied der Probe zu entsprechen, ist der medoid.

Höchstens hat Hälfte der Bevölkerung Werte weniger, als die Mittellinie, und, höchstens, Hälfte Werte hat, die größer sind als die Mittellinie. Wenn beide Gruppen weniger als Hälfte der Bevölkerung enthalten, dann ist etwas von der Bevölkerung der Mittellinie genau gleich. Zum Beispiel, wenn a oder als Dort kein einfaches ist, weit Standardnotation für die Mittellinie akzeptiert hat, so muss der Gebrauch eines Symbols solcher als oder als die "Mittellinie" in jedem Artikel oder Buch ausführlich definiert werden, wo es verwendet werden könnte.

Maßnahmen der statistischen Streuung

Wenn die Mittellinie als ein Positionsparameter in der beschreibenden Statistik verwendet wird, gibt es mehrere Wahlen für ein Maß der Veränderlichkeit: die Reihe, die Interquartile-Reihe, die absolute Mittelabweichung und die absolute Mittelabweichung. Da die Mittellinie dasselbe als der zweite quartile ist, wird seine Berechnung im Artikel über quartiles illustriert.

Mittellinien des Wahrscheinlichkeitsvertriebs

Für jeden Wahrscheinlichkeitsvertrieb auf der echten Linie R mit dem kumulativen Vertrieb fungieren F, unabhängig davon, ob es eine Art des dauernden Wahrscheinlichkeitsvertriebs, insbesondere eines absolut dauernden Vertriebs ist (und deshalb eine Wahrscheinlichkeitsdichte-Funktion hat), oder ein getrennter Wahrscheinlichkeitsvertrieb, ist eine Mittellinie definitionsgemäß jede reelle Zahl M, die die Ungleichheit befriedigt

:

oder, equivalenty, die Ungleichheit

:

in dem ein Lebesgue-Stieltjes Integral verwendet wird. Für einen absolut dauernden Wahrscheinlichkeitsvertrieb mit dem Wahrscheinlichkeitsdichte-Funktions-ƒ befriedigt die Mittellinie

:

Jeder Wahrscheinlichkeitsvertrieb auf R hat mindestens eine Mittellinie, aber es kann mehr als eine Mittellinie geben.

Wo genau eine Mittellinie besteht, sprechen Statistiker von "der Mittellinie" richtig; selbst wenn die Mittellinie nicht einzigartig ist, sprechen einige Statistiker von "der Mittellinie" informell.

Mittellinien des besonderen Vertriebs

Die Mittellinien von bestimmten Typen des Vertriebs können von ihren Rahmen leicht berechnet werden:

  • Die Mittellinie einer Normalverteilung mit Mittel-μ und Abweichung σ ist μ. Tatsächlich, für eine Normalverteilung, haben Sie = Mittellinie = Weise vor.
  • Die Mittellinie einer Rechteckverteilung im Zwischenraum [a, b] ist (+ b) / 2, der auch das bösartige ist.
  • Die Mittellinie eines Vertriebs von Cauchy mit dem Positionsparameter x und Skala-Parameter y ist x, der Positionsparameter.
  • Die Mittellinie eines Exponentialvertriebs mit dem Rate-Parameter λ ist der natürliche Logarithmus von 2 geteilten durch den Rate-Parameter: λln 2.
  • Die Mittellinie eines Vertriebs von Weibull mit dem Gestalt-Parameter k und Skala-Parameter λ ist λ (ln 2).

Mittellinien in der beschreibenden Statistik

Die Mittellinie wird in erster Linie für den schiefen Vertrieb verwendet, den sie verschieden zusammenfasst als die bösartige Arithmetik. Denken Sie den Mehrsatz {1, 2, 2, 2, 3, 14}. Die Mittellinie ist 2 in diesem Fall, wie die Weise ist, und es als eine bessere Anzeige der Haupttendenz gesehen werden könnte als die Arithmetik, die 4 bösartig ist.

Die Berechnung von Mittellinien ist eine populäre Technik in der zusammenfassenden Statistik und Zusammenstellung statistischer Daten, da es einfach ist zu verstehen und leicht zu rechnen, während man auch ein Maß gibt, das in Gegenwart von Outlier-Werten robuster ist, als das bösartige ist.

Theoretische Eigenschaften

Ein optimality Eigentum

Der absolute Mittelfehler einer echten Variable c in Bezug auf die zufällige Variable X ist

:

Vorausgesetzt, dass der Wahrscheinlichkeitsvertrieb X solch ist, dass die obengenannte Erwartung dann besteht, ist M eine Mittellinie X, wenn, und nur wenn M ein minimizer des absoluten Mittelfehlers in Bezug auf X ist. Insbesondere M ist eine Beispielmittellinie, wenn, und nur wenn M die der absoluten Abweichungen bösartige Arithmetik minimiert.

Siehe auch - das Mittelsammeln.

Unimodaler Vertrieb

Es kann für einen unimodalen Vertrieb dass das bösartige und die Mittellüge innerhalb von (3/5) Zeiten die Standardabweichung von einander gezeigt werden. In Symbolen

:

wo || der absolute Wert ist.

Eine ähnliche Beziehung hält zwischen der Weise und der Mittellinie. In diesem Fall die Weise und die Mittellüge innerhalb von 3 von einander.

:

Eine Ungleichheitsverbindung bedeutet und Mittellinien

Wenn der Vertrieb begrenzte Abweichung hat, dann wird die Entfernung zwischen der Mittellinie und dem bösartigen durch eine Standardabweichung begrenzt.

Das gebunden wurde durch Malven bewiesen, wer die Ungleichheit von Jensen zweimal wie folgt verwendet hat. Wir haben

:

\begin {richten }\aus

\left | \mu-m\right | = \left |\mathrm {E} (X-m) \right | & \leq \mathrm {E }\\ist (\left|X-m\right |\right) \\abgereist

& \leq \mathrm {E }\\ist (\left|X-\mu\right |\right) \\abgereist

& \leq \sqrt {\\mathrm {E} ((X-\mu) ^2)} = \sigma.

\end {richten }\aus

</Mathematik>

Die erste und dritte Ungleichheit kommt aus der Ungleichheit von Jensen, die auf die Funktion des absoluten Werts und die Quadratfunktion angewandt ist, die jeder konvex sind. Die zweite Ungleichheit kommt aus der Tatsache, dass eine Mittellinie die absolute Abweichungsfunktion minimiert

:

Dieser Beweis kann leicht verallgemeinert werden, um eine multivariate Version der Ungleichheit wie folgt zu erhalten:

:

\left \|\mu-m\right \|

\left\\mathrm {E} (X-m) \right\

\leq \mathrm {E} \|X-m \|

\leq \mathrm {E} (\left \| X-\mu \right \|)

\leq \sqrt {\mathrm {E} (\| X-\mu \| ^2) }\

\sqrt {\mathrm {Spur} (\mathrm {var} (X))}

</Mathematik>

wo M eine Raummittellinie, d. h. ein minimizer der Funktion ist

Die Raummittellinie ist einzigartig, wenn die Dimension der Datei zwei oder mehr ist. Ein alternativer Beweis verwendet die einseitige Ungleichheit von Tschebyscheff; es erscheint darin.

Abweichung

Der Vertrieb der Mittellinie mit einer Dichte-Funktion (x) ƒ sind mit der MittelM und Abweichung asymptotisch normal, wo M der Mittelwert des Vertriebs ist. Die Leistungsfähigkeit der Mittellinie, gemessen als das Verhältnis der Abweichung des bösartigen zur Abweichung der Mittellinie, hängt von der Beispielgröße ab. Für eine Probe der Größe N = 2n + 1 ist das Verhältnis

:

Für große Proben (wie zur Unendlichkeit neigt) neigt dieses Verhältnis dazu.

Die Beispielmittellinie

Effiziente Berechnung der Beispielmittellinie

Wenn auch das Sortieren n Sachen O verlangt (n, loggen n) Operationen, Auswahl-Algorithmen können den k-smallest von n Sachen (z.B, die Mittellinie) mit nur O (n) Operationen schätzen.

Leichte Erklärung der Beispielmittellinie

In der individuellen Reihe (wenn die Zahl der Beobachtung sehr niedrig ist) zuerst muss man alle in aufsteigender Reihenfolge Beobachtungen einordnen. Dann Gesamtzahl des Punkts der Klagebegründung (n) der Beobachtung in gegebenen Daten.

Wenn n' dann Mittellinie (M) = Wert ((n + 1)/2) th Artikel-Begriff seltsam ist.

Wenn n sogar' dann Mittellinie (M) = Wert [((n)/2) th Artikel-Begriff + ((n)/2 + 1) th Artikel-Begriff]/2 ist

Für eine ungerade Zahl von Werten

Als ein Beispiel werden wir die Beispielmittellinie für den folgenden Satz von Beobachtungen berechnen: 1, 5, 2, 8, 7.

Anfang durch das Sortieren der Werte: 1, 2, 5, 7, 8.

In diesem Fall ist die Mittellinie 5, da es die mittlere Beobachtung in der geordneten Liste ist.

Die Mittellinie ist ((n + 1)/2) th Artikel, wo n die Zahl von Werten ist. Zum Beispiel, für die Liste {1, 2, 5, 7, 8}, haben wir n = 5, so ist die Mittellinie ((5 + 1)/2) th Artikel.

: Mittellinie = (6/2) th Artikel

: Mittellinie = 3. Artikel

: Mittellinie = 5

Für eine gerade Zahl von Werten

Als ein Beispiel werden wir die Beispielmittellinie für den folgenden Satz von Beobachtungen berechnen: 1, 6, 2, 8, 7, 2.

Anfang durch das Sortieren der Werte: 1, 2, 2, 6, 7, 8.

In diesem Fall ist die der zwei Middlemost-Begriffe bösartige Arithmetik (2 + 6)/2 = 4. Deshalb ist die Mittellinie 4, da es die Arithmetik ist, die der mittleren Beobachtungen in der geordneten Liste bösartig ist.

Wir verwenden auch diese Formel-MITTELLINIE = {(n + 1)/2} th Artikel. n = Zahl von Werten

Als über dem Beispiel 1, 2, 2, 6, 7, 8

n = 6 Mittellinie = {(6 + 1)/2} th Artikel = 3.5th Artikel. In diesem Fall ist die Mittellinie Durchschnitt der 3. Zahl und der folgenden (die vierte Zahl). Die Mittellinie ist (2 + 6)/2, der 4 ist.

Pseudomittel- und Raummittellinie (L1 Mittellinie)

Für den univariate Vertrieb, der über eine Mittellinie symmetrisch ist, ist der Vorkalkulator von Hodges-Lehmann ein robuster und hoch effizienter Vorkalkulator der Bevölkerungsmittellinie; für den nichtsymmetrischen Vertrieb ist der Vorkalkulator von Hodges-Lehmann ein robuster und hoch effizienter Vorkalkulator der Bevölkerungspseudomittellinie, die die Mittellinie eines symmetrized Vertriebs und so ist, der der Bevölkerungsmittellinie nah ist. Der Vorkalkulator von Hodges-Lehmann ist zum multivariate Vertrieb verallgemeinert worden.

Eine Raummittellinie minimiert die Funktion

:

Die Raummittellinie ist einzigartig, wenn die Dimension der Datei zwei oder mehr ist. Wenn die Dimension der Daten größer ist als eine, dann ist die Raummittellinie einzigartig. Es ist ein robuster und hoch effizienter Vorkalkulator der Bevölkerungsraummittellinie (auch hat die L1 "Mittellinie" genannt, selbst wenn es in Bezug auf die Euklidische Norm definiert wird).

Wenn Daten durch ein statistisches Modell vertreten werden, das eine besondere Familie des Wahrscheinlichkeitsvertriebs angibt, dann können Schätzungen der Mittellinie durch die Anprobe dieser Familie des Wahrscheinlichkeitsvertriebs zu den Daten und das Rechnen der theoretischen Mittellinie des taillierten Vertriebs erhalten werden., Sieh zum Beispiel Interpolation von Pareto.

Mittelunvoreingenommene Vorkalkulatoren und Neigung in Bezug auf Verlust-Funktionen

Jeder mittelunvoreingenommene Vorkalkulator minimiert die Gefahr (erwarteter Schadensumfang) in Bezug auf die Verlust-Funktion des karierten Fehlers, wie beobachtet, durch Gauss. Ein mittelunvoreingenommener Vorkalkulator minimiert die Gefahr in Bezug auf die Verlust-Funktion der absoluten Abweichung, wie beobachtet, durch Laplace. Andere Verlust-Funktionen werden in der statistischen Theorie besonders in der robusten Statistik verwendet.

Die Theorie von mittelunvoreingenommenen Vorkalkulatoren wurde von George W. Brown 1947 wiederbelebt:

Wie man

sagen wird, wird eine Schätzung eines eindimensionalen Parameters θ mittelunvoreingenommen sein, wenn, für festen θ, die Mittellinie des Vertriebs der Schätzung am Wert θ ist; d. h. die Schätzung unterschätzt genauso häufig, wie sie überschätzt. Diese Voraussetzung scheint zu den meisten Zwecken, so viel zu vollbringen, wie die mittelunvoreingenommene Voraussetzung und hat das zusätzliche Eigentum, dass es invariant unter der isomorphen Transformation ist. [Seite 584]

Weitere Eigenschaften von mittelunvoreingenommenen Vorkalkulatoren sind von Lehmann, Birnbaum, van der Vaart und Pfanzagl bemerkt worden. Insbesondere mittelunvoreingenommene Vorkalkulatoren bestehen in Fällen, wo mittelunvoreingenommen und Vorkalkulatoren der maximalen Wahrscheinlichkeit nicht bestehen. Außer, invariant unter isomorphen Transformationen zu sein, haben mittelunvoreingenommene Vorkalkulatoren überraschende Robustheit.

In der Bildverarbeitung

In monochromen Rasterimages gibt es einen Typ des Geräusches, bekannt als das Salz und Pfeffergeräusch, wenn jedes Pixel unabhängig schwarz (mit etwas kleiner Wahrscheinlichkeit) oder weiß (mit etwas kleiner Wahrscheinlichkeit) wird, und ist sonst (mit der Wahrscheinlichkeit in der Nähe von 1) unverändert.

Ein Image, das Mittelwerte der Nachbarschaft (wie 3×3 Quadrat) gebaut ist, kann Geräusch in diesem Fall effektiv reduzieren.

Geschichte

Gustav Fechner hat die Mittellinie in die formelle Analyse von Daten verbreitet, obwohl es vorher von Laplace verwendet worden war.

Siehe auch

  • Bestellen Sie statistischen
  • Quantile
  • Eine Mittellinie ist der 2. quartile, 5. Zehntelwert und 50. Prozentanteil.
  • Eine Beispielmittellinie ist mittelunvoreingenommen, aber kann ein mittelbeeinflusster Vorkalkulator sein.
  • Absolute Abweichung
  • Die Konzentration des Maßes für Lipschitz fungiert
  • Leistungsfähigkeit (Statistik), die erklärt, warum die bösartige Probe mehr statistisch effizient ist als die Beispielmittellinie, wenn Daten durch Daten vom Vertrieb mit dem schweren Schwanz oder von Mischungen des Vertriebs unverseucht werden.
  • Mittelstimmberechtigter-Theorie
  • Mittelgraph
  • Geometrische Mittellinie, eine Generalisation der Mittellinie für Daten in höheren Dimensionen
  • Centerpoint, eine andere Generalisation zu höheren Dimensionen
  • Mittelsuche
  • Scharniere (Statistik)
  • Theil-Sen.-Vorkalkulator, eine Methode für das robuste geradlinige rückwärts Gehen auf der Entdeckung von Mittellinien des Hangs gestützt.
  • Braun, George W. "Auf der Klein-Beispielbewertung." Die Annalen der Mathematischen Statistik, Vol. 18, Nr. 4 (Dez 1947), Seiten 582-585.
  • Lehmann, E. L. "Ein Gesamtkonzept der Unbefangenheit" Die Annalen der Mathematischen Statistik, Vol. 22, Nr. 4 (Dez 1951), Seiten 587-592.
  • Allan Birnbaum. 1961. "Eine Vereinigte Theorie der Bewertung, meiner", Die Annalen der Mathematischen Statistik, Vol. 32, Nr. 1 (Mrz 1961), Seiten 112-135
  • van der Vaart, H. R. 1961. "Einige Erweiterungen der Idee von der Neigung" Die Annalen der Mathematischen Statistik, Vol. 32, Nr. 2 (Juni 1961), Seiten 436-447.

Links

ist

Mittleres Alter / Säugetier
Impressum & Datenschutz