Standardabweichung

In der Statistik und Wahrscheinlichkeitstheorie zeigt sich Standardabweichung, wie viel Schwankung oder "Streuung" vom Durchschnitt (bösartiger oder erwarteter Wert) bestehen. Eine niedrige Standardabweichung zeigt an, dass die Datenpunkte dazu neigen, sehr in der Nähe vom bösartigen zu sein, wohingegen Abweichung des hohen Standards anzeigt, dass die Datenpunkte über einen großen Wertbereich ausgedehnt werden.

Die Standardabweichung einer zufälligen variablen, statistischen Bevölkerung, Datei oder Wahrscheinlichkeitsvertriebs ist die Quadratwurzel seiner Abweichung. Es, ist obwohl praktisch weniger robust, algebraisch einfacher als die durchschnittliche absolute Abweichung.

Ein nützliches Eigentum der Standardabweichung besteht darin, dass, verschieden von der Abweichung, sie in denselben Einheiten wie die Daten ausgedrückt wird.

Zusätzlich zum Ausdrücken der Veränderlichkeit einer Bevölkerung wird Standardabweichung allgemein verwendet, um Vertrauen zu statistischen Beschlüssen zu messen. Zum Beispiel wird der Rand des Fehlers in Stimmabgabedaten durch das Rechnen der erwarteten Standardabweichung in den Ergebnissen bestimmt, wenn dieselbe Wahl mehrmals geführt werden sollte. Der berichtete Rand des Fehlers ist normalerweise über zweimal die Standardabweichung - der Radius eines 95-Prozent-Vertrauensintervalls. In der Wissenschaft melden Forscher allgemein die Standardabweichung von experimentellen Angaben, und nur Effekten, die weit außerhalb der Reihe der Standardabweichung fallen, werden statistisch bedeutend betrachtet - normaler zufälliger Fehler oder Schwankung in den Maßen sind auf diese Weise von der kausalen Schwankung bemerkenswert. Standardabweichung ist auch in der Finanz wichtig, wo die Standardabweichung auf der Rate der Rückkehr auf einer Investition ein Maß der Flüchtigkeit der Investition ist.

Wenn nur eine Probe von Daten von einer Bevölkerung verfügbar ist, kann die Bevölkerungsstandardabweichung durch eine modifizierte Menge geschätzt werden, hat die Beispielstandardabweichung genannt, die unten erklärt ist.

Die Generalisierung von zwei Zahlen

Denken Sie zwei Zahlen, a und a. Nehmen Sie a> a an. Ihre Mittelzahl μ ist die Mitte Punkt und die Standardabweichung σ ist die Entfernung von jeder der Zahlen zu μ. so μ und σ befriedigen Sie die Gleichungen

:.

Das Lösen der Gleichungen gibt

:

und

:.

Die Quadratsumme ist

:.

Diese Ausdrücke werden zum Fall verallgemeinert, wo es n beteiligte Zahlen gibt: a, a..., ein

::.

und die allgemeine Formel für die Standardabweichung wird

:.

Grundlegende Beispiele

Denken Sie eine Bevölkerung, die aus den folgenden acht Werten besteht:

:

2, \4, \4, \4, \5, \5, \7, \9

</Mathematik>

Diese acht Datenpunkte haben das bösartige (Durchschnitt) 5:

:

Um die Bevölkerungsstandardabweichung zu berechnen, schätzen Sie zuerst den Unterschied jedes Datenpunkts vom bösartigen, und quadratisch das Ergebnis von jedem:

:

\begin {Reihe} {lll }\

(2-5) ^2 = (-3) ^2 = 9 && (5-5) ^2 = 0^2 = 0 \\

(4-5) ^2 = (-1) ^2 = 1 && (5-5) ^2 = 0^2 = 0 \\

(4-5) ^2 = (-1) ^2 = 1 && (7-5) ^2 = 2^2 = 4 \\

(4-5) ^2 = (-1) ^2 = 1 && (9-5) ^2 = 4^2 = 16 \\

\end {ordnen }\

</Mathematik>

Schätzen Sie als nächstes den Durchschnitt dieser Werte, und nehmen Sie die Quadratwurzel:

:

\sqrt {\frac {(9 + 1 + 1 + 1 + 0 + 0 + 4 + 16)} {8}} = 2

</Mathematik>

Diese Menge ist die Bevölkerungsstandardabweichung; es ist der Quadratwurzel der Abweichung gleich. Die Formel ist nur gültig, wenn die acht Werte wir mit der Form die ganze Bevölkerung begonnen haben. Wenn sie stattdessen eine zufällige Probe waren, die von einer größeren "Elternteil"-Bevölkerung gezogen ist, dann sollten wir statt im Nenner der letzten Formel verwendet haben, und dann würde die so erhaltene Menge die Beispielstandardabweichung genannt worden sein. Sieh die Abteilungsbewertung unten für mehr Details.

Ein ein bisschen mehr kompliziertes echtes Lebensbeispiel, die Durchschnittshöhe für erwachsene Männer in den Vereinigten Staaten ist ungefähr 70", mit einer Standardabweichung von ungefähr 3". Das bedeutet, dass die meisten Männer (ungefähr 68 %, eine Normalverteilung annehmend), eine Höhe innerhalb 3" des bösartigen (67"-73") — einer Standardabweichung haben — und fast alle Männer (ungefähr 95 %) eine Höhe innerhalb 6" des bösartigen (64"-76") — zwei Standardabweichungen haben. Wenn die Standardabweichung Null wäre, dann würden alle Männer genau 70" hoch sein. Wenn die Standardabweichung 20 wäre" dann Männer viel mehr variable Höhen, mit einer typischen Reihe von ungefähr 50"-90" haben würden. Drei Standardabweichungsrechnung für 99.7 % der Beispielbevölkerung, die wird studiert, den Vertrieb annehmend, ist (glockenförmig) normal.

Definition von Bevölkerungswerten

Lassen Sie X eine zufällige Variable mit dem Mittelwert μ sein:

:

Hier zeigt der Maschinenbediener E den durchschnittlichen oder erwarteten Wert von X an. Dann ist die Standardabweichung X die Menge

:

D. h. die Standardabweichung σ (Sigma) ist die Quadratwurzel der Abweichung X, d. h. es ist die Quadratwurzel des durchschnittlichen Werts (X  μ).

Die Standardabweichung eines (univariate) Wahrscheinlichkeitsvertriebs ist dasselbe als diese einer zufälligen Variable, die diesen Vertrieb hat. Nicht alle zufälligen Variablen haben eine Standardabweichung, da diese erwarteten Werte nicht zu bestehen brauchen. Zum Beispiel ist die Standardabweichung einer zufälligen Variable, die einem Vertrieb von Cauchy folgt, unbestimmt, weil sein erwarteter Wert μ unbestimmt ist.

Getrennte zufällige Variable

Im Fall, wo X zufällige Werte von einer begrenzten Datei x, x, …, x mit jedem Wert nimmt, der dieselbe Wahrscheinlichkeit hat, ist die Standardabweichung

:

oder, mit der Summierungsnotation,

:

Wenn, anstatt gleiche Wahrscheinlichkeiten zu haben, die Werte verschiedene Wahrscheinlichkeiten haben, lassen Sie x Wahrscheinlichkeit p haben, x haben Wahrscheinlichkeit p..., x haben Wahrscheinlichkeit p. In diesem Fall wird die Standardabweichung sein

:

Dauernde zufällige Variable

Die Standardabweichung einer dauernden reellwertigen zufälligen Variable X mit der Wahrscheinlichkeitsdichte-Funktion p (x) ist

:

und wo die Integrale bestimmte Integrale sind, die für x genommen sind, der sich über den Satz von möglichen Werten der zufälligen Variable X erstreckt.

Im Fall von einer parametrischen Familie des Vertriebs kann die Standardabweichung in Bezug auf die Rahmen ausgedrückt werden. Zum Beispiel, im Fall vom Lognormalvertrieb mit Rahmen μ und σ, ist die Standardabweichung [(exp (σ)  1) exp ( + σ)].

Bewertung

Man kann die Standardabweichung einer kompletten Bevölkerung in Fällen finden (solcher, wie standardisiert, Prüfung), wo jedes Mitglied einer Bevölkerung probiert wird. In Fällen, wo das nicht getan werden kann, wird die Standardabweichung σ durch das Überprüfen einer zufälligen von der Bevölkerung genommenen Probe geschätzt. Einigen Vorkalkulatoren wird unten gegeben:

Mit der Standardabweichung der Probe

Ein Vorkalkulator für manchmal verwendeten σ ist die Standardabweichung der Probe, die durch s angezeigt ist und wie folgt definiert ist:

:

s_N = \sqrt {\\frac {1} {N} \sum_ {i=1} ^N (x_i - \overline {x}) ^2}.

</Mathematik>

Dieser Vorkalkulator hat einen gleichförmig kleineren karierten Mittelfehler als die Beispielstandardabweichung (sieh unten), und ist die Schätzung der maximalen Wahrscheinlichkeit, wenn die Bevölkerung normalerweise verteilt wird. Aber dieser Vorkalkulator, wenn angewandt, auf eine kleine oder gemäßigt nach Größen geordnete Probe, neigt dazu, zu niedrig zu sein: Es ist ein voreingenommener Vorkalkulator.

Die Standardabweichung der Probe ist dasselbe als die Bevölkerungsstandardabweichung einer getrennten zufälligen Variable, die genau die Werte von der Datei annehmen kann, wo die Wahrscheinlichkeit für jeden Wert zu seiner Vielfältigkeit in der Datei proportional ist.

Mit der Beispielstandardabweichung

Der meistens verwendete Vorkalkulator für σ ist eine angepasste Version, die Beispielstandardabweichung, die durch s angezeigt ist und wie folgt definiert ist:

:

wo die beobachteten Werte der Beispielsachen sind und der Mittelwert dieser Beobachtungen ist. Diese Korrektur (der Gebrauch von N  1 statt N) ist als die Korrektur von Bessel bekannt. Der Grund für diese Korrektur besteht darin, dass s ein unvoreingenommener Vorkalkulator für die Abweichung σ der zu Grunde liegenden Bevölkerung ist, wenn diese Abweichung besteht und die Musterwerte unabhängig mit dem Ersatz gezogen werden. Zusätzlich, wenn N = 1, dann gibt es keine Anzeige der Abweichung von der Mittel- und Standardabweichung, deshalb unbestimmt sein sollte. Jedoch ist s nicht ein unvoreingenommener Vorkalkulator für die Standardabweichung σ; es neigt dazu, die Bevölkerungsstandardabweichung zu unterschätzen.

Die Begriff-Standardabweichung der Probe wird für den unkorrigierten Vorkalkulatoren verwendet (N verwendend), während der Begriff Beispielstandardabweichung für den korrigierten Vorkalkulatoren gebraucht wird (N  1 verwendend). Der Nenner N  1 ist die Zahl von Graden der Freiheit im Vektoren von residuals,

.

Andere Vorkalkulatoren

Obwohl ein unvoreingenommener Vorkalkulator für σ bekannt ist, wenn die zufällige Variable normalerweise verteilt wird, wird die Formel kompliziert und beläuft sich auf eine geringe Korrektur. Außerdem ist Unbefangenheit (in dieser Bedeutung des Wortes) nicht immer wünschenswert.

Vertrauensintervall einer probierten Standardabweichung

Die Standardabweichung, die wir erhalten, indem wir einen Vertrieb probieren, ist selbst nicht absolut genau. Das ist besonders wahr, wenn die Zahl von Proben sehr niedrig ist. Diese Wirkung kann durch das Vertrauensintervall oder CI beschrieben werden.

Zum Beispiel für N=2 ist der 95-%-CI des SD von 0.45*SD bis 31.9*SD. Mit anderen Worten kann die Standardabweichung des Vertriebs in 95 % der Fälle bis zu einem Faktor von 31 größeren oder bis zu einem Faktor 2 kleinere sein! Für N=10 ist der Zwischenraum 0.69*SD zu 1.83*SD, der wirkliche SD kann noch fast ein Faktor 2 höher sein als der probierte SD. Für N=100 ist das unten zu 0.88*SD zu 1.16*SD. So, um sicher zu sein, ist der probierte SD dem wirklichen SD nah wir brauchen zur Probe eine Vielzahl von Punkten.

Identität und mathematische Eigenschaften

Die Standardabweichung ist invariant unter Änderungen in der Position, und klettert direkt mit der Skala der zufälligen Variable. So, für einen unveränderlichen c und zufällige Variablen X und Y:

:::

Die Standardabweichung der Summe von zwei zufälligen Variablen kann mit ihren individuellen Standardabweichungen und der Kovarianz zwischen ihnen verbunden sein:

:

wo und für Abweichung und Kovarianz beziehungsweise eintreten.

Die Berechnung der Summe von karierten Abweichungen kann mit Momenten berechnet direkt von den Daten verbunden sein. Die Standardabweichung der Probe kann als geschätzt werden:

:

\operatorname {stdev} (X) = \sqrt {E [(X-E (X)) ^2]} = \sqrt {E [X^2] - (E [X]) ^2}.

</Mathematik>

Die Beispielstandardabweichung kann als geschätzt werden:

:

\operatorname {stdev} (X) = \sqrt {\\frac {N} {n-1}} \sqrt {E [X-E (X)] ^2}.

</Mathematik>

Für eine begrenzte Bevölkerung mit gleichen Wahrscheinlichkeiten an allen Punkten haben wir

:

\sqrt {\\frac {1} {N }\\sum_ {i=1} ^N (x_i-\overline {x}) ^2} = \sqrt {\\frac {1} {N} \left (\sum_ {i=1} ^N x_i^2\right) - \overline {x} ^2} = \sqrt {\\frac {1} {N} \sum_ {i=1} ^N x_i^2 - \left (\frac {1} {N} \sum_ {i=1} ^ {N} x_i\right) ^2}.

</Mathematik>

So ist die Standardabweichung der Quadratwurzel (der Durchschnitt der Quadrate weniger das Quadrat des Durchschnitts) gleich.

Sieh rechenbetonte Formel für die Abweichung für den Beweis, und für ein analoges Ergebnis für die Beispielstandardabweichung.

Interpretation und Anwendung

Eine große Standardabweichung zeigt an, dass die Datenpunkte vom bösartigen weit sind und eine kleine Standardabweichung anzeigt, dass sie nah um das bösartige gebündelt werden.

Zum Beispiel hat jede der drei Bevölkerungen {0, 0, 14, 14}, {0, 6, 8, 14} und {6, 6, 8, 8} einen bösartigen von 7. Ihre Standardabweichungen sind 7, 5, und 1, beziehungsweise. Die dritte Bevölkerung hat eine viel kleinere Standardabweichung als die anderen zwei, weil seine Werte alle in der Nähe von 7 sind. Es wird dieselben Einheiten wie die Datenpunkte selbst haben. Wenn, zum Beispiel, die Datei {0, 6, 8, 14} die Alter einer Bevölkerung von vier Geschwister in Jahren vertritt, ist die Standardabweichung 5 Jahre. Als ein anderes Beispiel kann die Bevölkerung {1000, 1006, 1008, 1014} die Entfernungen vertreten, die von vier Athleten gereist sind, die in Metern gemessen sind. Es hat einen bösartigen von 1007 Metern und eine Standardabweichung von 5 Metern.

Standardabweichung kann als ein Maß der Unklarheit dienen. In der physischen Wissenschaft, zum Beispiel, sollte die berichtete Standardabweichung einer Gruppe von wiederholten Maßen die Präzision jener Maße geben. Wenn sie entscheidet, ob Maße mit einer theoretischen Vorhersage übereinstimmen, ist die Standardabweichung jener Maße von entscheidender Wichtigkeit: Wenn der bösartige von den Maßen zu weit weg von der Vorhersage ist (mit der Entfernung, die in Standardabweichungen gemessen ist), dann muss die Theorie, die wahrscheinlich wird prüft, revidiert werden. Das hat Sinn, da sie außerhalb des Wertbereichs fallen, der, wie man vernünftig erwarten konnte, vorgekommen ist, wenn die Vorhersage richtig war und die passend gemessene Standardabweichung. Sieh Vorhersagezwischenraum.

Während die Standardabweichung wirklich misst, wie weit typische Werte dazu neigen, vom bösartigen zu sein, sind andere Maßnahmen verfügbar. Ein Beispiel ist die absolute Mittelabweichung, die als ein direkteres Maß der durchschnittlichen Entfernung im Vergleich zur der Standardabweichung innewohnenden Mittelquadratentfernung der Wurzel betrachtet werden könnte.

Anwendungsbeispiele

Der praktische Wert, die Standardabweichung von einer Reihe von Werten zu verstehen, ist im Schätzen, wie viel Schwankung dort vom (bösartigen) "Durchschnitt" ist.

Klima

Als ein einfaches Beispiel, denken Sie die durchschnittlichen täglichen maximalen Temperaturen für zwei Städte, eine binnenländische und ein auf der Küste. Es ist nützlich zu verstehen, dass die Reihe von täglichen maximalen Temperaturen für Städte in der Nähe von der Küste kleiner ist als für Städte landeinwärts. So, während diese zwei Städte jeder dieselbe durchschnittliche maximale Temperatur haben können, wird die Standardabweichung der täglichen maximalen Temperatur für die Küstenstadt weniger sein als diese der Binnenstadt als an jedem besonderen Tag, die wirkliche maximale Temperatur wird mit größerer Wahrscheinlichkeit von der durchschnittlichen maximalen Temperatur für die Binnenstadt weiter sein als für die Küsten-.

Sportarten

Eine andere Weise, es zu sehen, soll Sportmannschaften denken. In jedem Satz von Kategorien wird es Mannschaften dass Rate hoch an einigen Dingen und schlecht an anderen geben. Chancen sind, die Mannschaften, die im Stehen führen, werden solche Verschiedenheit nicht zeigen, aber werden in den meisten Kategorien eine gute Leistung bringen. Je tiefer die Standardabweichung ihrer Einschaltquoten in jeder Kategorie desto mehr erwogen und konsequent sie dazu neigen werden zu sein. Tut sich mit einer höheren Standardabweichung jedoch zusammen, wird unvorhersehbarer sein. Zum Beispiel wird eine Mannschaft, die in den meisten Kategorien durchweg schlecht ist, eine niedrige Standardabweichung haben. Eine Mannschaft, die in den meisten Kategorien durchweg gut ist, wird auch eine niedrige Standardabweichung haben. Jedoch könnte eine Mannschaft mit einer Abweichung des hohen Standards der Typ der Mannschaft sein, dass Hunderte sehr (starkes Vergehen) sondern auch viel (schwache Verteidigung), oder umgekehrt zugeben, könnte das ein schlechtes Vergehen haben, aber ersetzt, indem es schwierig gewesen worden ist, darauf zu zählen.

Das Versuchen vorauszusagen, welche Mannschaften, an jedem gegebenen Tag, gewinnen werden, kann das Aussehen an den Standardabweichungen der verschiedenen Mannschaft "stats" Einschaltquoten einschließen, in denen Anomalien Kräfte gegen Schwächen vergleichen können, um zu versuchen, zu verstehen, welche Faktoren als stärkere Hinweise von schließlichen zählenden Ergebnissen vorherrschen können.

Im Rennen wird ein Fahrer auf aufeinander folgenden Runden zeitlich festgelegt. Ein Fahrer mit einer niedrigen Standardabweichung von Runde-Zeiten entspricht mehr als ein Fahrer mit einer höheren Standardabweichung. Diese Information kann verwendet werden, um zu helfen, zu verstehen, wo, wie man finden könnte, Gelegenheiten Runde-Zeiten reduziert haben.

Finanz

In der Finanz ist Standardabweichung eine Darstellung der Gefahr, die mit Preisschwankungen eines gegebenen Aktivpostens (Lager, Obligationen, Eigentum, usw.), oder die Gefahr einer Mappe des Vermögens (aktiv geführte Investmentfonds, Index-Investmentfonds oder ETFs) vereinigt ist. Gefahr ist ein wichtiger Faktor in der Bestimmung, wie man eine Mappe von Investitionen effizient führt, weil es die Schwankung im Umsatz auf dem Aktivposten und/oder der Mappe bestimmt und Kapitalanlegern eine mathematische Basis für Investitionsentscheidungen (bekannt als Mittelabweichungsoptimierung) gibt. Das grundsätzliche Konzept der Gefahr ist, dass weil sie zunimmt, sollte die erwartete Rückkehr auf einer Investition ebenso, eine als die "Risikoprämie bekannte Zunahme zunehmen." Mit anderen Worten sollten Kapitalanleger eine höhere Rückkehr auf einer Investition erwarten, wenn diese Investition ein höheres Niveau der Gefahr oder Unklarheit trägt. Wenn sie Investitionen bewerten, sollten Kapitalanleger sowohl die erwartete Rückkehr als auch die Unklarheit des zukünftigen Umsatzes schätzen. Standardabweichung stellt eine gemessene Schätzung der Unklarheit des zukünftigen Umsatzes zur Verfügung.

Wollen zum Beispiel wir annehmen, dass ein Kapitalanleger zwischen zwei Lagern wählen musste. Lager im Laufe der letzten 20 Jahre hatte eine durchschnittliche Rückkehr von 10 Prozent, mit einer Standardabweichung von 20 Prozentpunkten (Seiten), und Lager hatte B, im Laufe derselben Periode, durchschnittlichen Umsatz von 12 Prozent, aber eine höhere Standardabweichung von 30 Seiten. Auf der Grundlage von der Gefahr und Rückkehr kann ein Kapitalanleger entscheiden, dass Lager A die sicherere Wahl ist, weil Lager zusätzliche zwei Prozentpunkte von B der Rückkehr der zusätzlichen 10 Seiten-Standardabweichung (größere Gefahr oder Unklarheit der erwarteten Rückkehr) nicht wert ist. Lager B wird wahrscheinlich hinter der anfänglichen Investition zurückbleiben (sondern auch die anfängliche Investition zu überschreiten), öfter als Lager unter denselben Verhältnissen und wird geschätzt, nur um zwei Prozent mehr durchschnittlich zurückzukehren. In diesem Beispiel, wie man erwartet, verdient Lager A ungefähr 10 Prozent, plus oder minus 20 Seiten (eine Reihe von 30 Prozent zu-10 Prozent), ungefähr zwei Drittel des zukünftigen Jahr-Umsatzes. Wenn er mehr äußersten möglichen Umsatz oder Ergebnisse in der Zukunft denkt, sollte ein Kapitalanleger Ergebnisse von nicht weniger als 10 Prozent plus oder minus 60 Seiten oder eine Reihe von 70 Prozent bis 50 Prozent erwarten, die Ergebnisse für drei Standardabweichungen von der durchschnittlichen Rückkehr (ungefähr 99.7 Prozent des wahrscheinlichen Umsatzes) einschließt.

Das Rechnen des Durchschnitts (oder Arithmetik bösartig) der Rückkehr einer Sicherheit im Laufe einer gegebenen Periode wird die erwartete Rückkehr des Aktivpostens erzeugen. Für jede Periode, die erwartete Rückkehr von der wirklichen Rückkehr abziehend, läuft auf den Unterschied zum bösartigen hinaus. Quadrieren der Unterschied in jeder Periode und Einnahme des Durchschnitts gibt die gesamte Abweichung der Rückkehr des Aktivpostens. Je größer die Abweichung, desto größere Gefahr die Sicherheit trägt. Die Entdeckung der Quadratwurzel dieser Abweichung wird die Standardabweichung des fraglichen Investitionswerkzeugs geben.

Bevölkerungsstandardabweichung wird verwendet, um die Breite von Bollinger Bändern, einem weit angenommenen technischen Analyse-Werkzeug zu setzen. Zum Beispiel wird dem oberen Bollinger Band als Der meistens verwendete Wert für n gegeben ist 2; es gibt ungefähr eine Fünf-Prozent-Chance, nach draußen zu gehen, eine Normalverteilung des Umsatzes annehmend.

Geometrische Interpretation

Um einige geometrische Einblicke und Erläuterung zu gewinnen, werden wir mit einer Bevölkerung von drei Werten, x, x, x anfangen. Das definiert einen Punkt P = (x, x, x) in R. Denken Sie die Linie L = {(r, r, r): r  R\. Das ist das "" diagonale Hauptdurchgehen des Ursprungs. Wenn unsere drei gegebenen Werte alle gleich wären, dann würde die Standardabweichung Null sein, und P würde auf L liegen. So ist es ziemlich angemessen anzunehmen, dass die Standardabweichung mit der Entfernung von P zu L verbunden ist. Und das ist tatsächlich der Fall. Um sich orthogonal von L bis den Punkt P zu bewegen, beginnt man am Punkt:

:

wessen Koordinaten die bösartigen von den Werten sind, sind wir damit aufgebrochen. Eine kleine Algebra zeigt, dass die Entfernung zwischen P und M (der dasselbe als die orthogonale Entfernung zwischen P und der Linie L ist) der Standardabweichung des Vektoren x, x, x, multipliziert mit der Quadratwurzel der Zahl von Dimensionen des Vektoren gleich ist (3 in diesem Fall.)

Tschebyscheffs Ungleichheit

Eine Beobachtung ist selten mehr als einige Standardabweichungen weg vom bösartigen. Tschebyscheffs Ungleichheit stellt sicher, dass für den ganzen Vertrieb, für den die Standardabweichung definiert wird, die Datenmenge innerhalb mehrerer Standardabweichungen des bösartigen mindestens so sehr wie im folgenden Tisch gegeben wird.

Regeln für normalerweise verteilte Daten

Der Hauptgrenzwertsatz sagt, dass der Vertrieb eines Durchschnitts von vielem Unabhängigem, identisch zufällige Variablen verteilt hat, neigt zur berühmten glockenförmigen Normalverteilung mit einer Wahrscheinlichkeitsdichte-Funktion:

:

wo μ der erwartete Wert der zufälligen Variablen, &sigma ist; kommt der Standardabweichung ihres Vertriebs gleich, die durch n geteilt ist, und n ist die Zahl von zufälligen Variablen. Die Standardabweichung ist deshalb einfach eine kletternde Variable, die sich anpasst, wie breit die Kurve sein wird, obwohl es auch im unveränderlichen Normalisieren erscheint.

Wenn ein Datenvertrieb dann ungefähr normal ist, wird das Verhältnis von Datenwerten innerhalb von z Standardabweichungen des bösartigen definiert durch:

:Proportion =

wo die Fehlerfunktion ist. Wenn ein Datenvertrieb dann ungefähr normal ist, sind ungefähr 68 Prozent der Datenwerte innerhalb einer Standardabweichung des bösartigen (mathematisch, μ ± σ, wo μ die Arithmetik bösartig ist), sind ungefähr 95 Prozent innerhalb von zwei Standardabweichungen (μ ± 2σ), und ungefähr 99.7 Prozent Lüge innerhalb von drei Standardabweichungen (μ ± 3σ). Das ist als die 68-95-99.7 Regel oder die empirische Regel bekannt.

Für verschiedene Werte von z, den Prozentsatz von Werten, die angenommen sind, in und außerhalb des symmetrischen Zwischenraums, CI = zu liegen (zσ, ), sind wie folgt:

Beziehung zwischen der Standardabweichung und bösartig

Das bösartige und die Standardabweichung von einer Reihe von Daten werden gewöhnlich zusammen berichtet. Im gewissen Sinne ist die Standardabweichung ein "natürliches" Maß der statistischen Streuung, wenn das Zentrum der Daten über das bösartige gemessen wird. Das ist, weil die Standardabweichung vom bösartigen kleiner ist als von jedem anderen Punkt. Die genaue Behauptung ist der folgende: Nehmen Sie an, dass x..., x reelle Zahlen sind und die Funktion definieren:

:

Mit der Rechnung oder durch die Vollendung des Quadrats ist es möglich zu zeigen, dass σ (r) ein einzigartiges Minimum am bösartigen hat:

:

Veränderlichkeit kann auch durch den Koeffizienten der Schwankung gemessen werden, die das Verhältnis der Standardabweichung zum bösartigen ist. Es ist eine ohne Dimension Zahl.

Häufig wollen wir etwas Information über die Präzision des bösartigen, das wir erhalten haben. Wir können das erhalten, indem wir die Standardabweichung des probierten bösartigen bestimmen.

Die Standardabweichung des bösartigen ist mit der Standardabweichung des Vertriebs verbunden durch:

:

wo N die Zahl von Beobachtungen in der Probe ist, hat gepflegt, das bösartige zu schätzen. Das kann leicht bewiesen werden mit:

:

\operatorname {var} (X) &\\equiv \sigma^2_X \\

\operatorname {var} (X_1+X_2) &\\equiv \operatorname {var} (X_1) + \operatorname {var} (X_2) \\

\operatorname {var} (cX_1) &\\equiv c^2 \, \operatorname {var} (X_1)

\end {richten} </Mathematik> {aus}

folglich

:

\begin {richten }\aus

\operatorname {var} (\text {bösartig})

&= \operatorname {var }\\verlassen (\frac {1} {N} \sum_ {i=1} ^N X_i \right)

= \frac {1} {N^2 }\\operatorname {var }\\ist (\sum_ {i=1} ^N X_i \right) \\abgereist

&= \frac {1} {N^2 }\\sum_ {i=1} ^N \operatorname {var} (X_i)

= \frac {N} {N^2} \operatorname {var} (X)

= \frac {1} {N} \operatorname {var} (X).

\end {richten }\aus

</Mathematik>

Hinauslaufend:

:

Schnelle Berechnungsmethoden

Die folgenden zwei Formeln können eine laufende (dauernde) Standardabweichung vertreten. Eine Reihe werden drei Macht-Summen s, s, s jeder mehr als eine Reihe von N Werten von x, angezeigt als x..., x geschätzt:

:

Bemerken Sie, dass s x zur Nullmacht erhebt, und da x immer 1 ist, bewertet s zu N.

In Anbetracht der Ergebnisse dieser drei laufenden Summierungen können die Werte s, s, s jederzeit verwendet werden, um den aktuellen Wert der laufenden Standardabweichung zu schätzen:

:

Ähnlich für die Beispielstandardabweichung,

:

In einer Computerdurchführung, weil die drei S-Summen groß werden, müssen wir herum - vom Fehler, der arithmetischen Überschwemmung und dem arithmetischen Unterlauf in Betracht ziehen. Die Methode berechnet unten die laufende Summe-Methode mit reduzierten Rundungsfehlern. Das ist "ein Pass" Algorithmus, um Abweichung von n Proben ohne das Bedürfnis zu berechnen, vorherige Daten während der Berechnung zu versorgen. Die Verwendung dieser Methode zu einer Zeitreihe wird auf aufeinander folgende Werte der Standardabweichung entsprechend n Datenpunkten hinauslaufen, weil n größer mit jeder neuen Probe, aber nicht einer Schiebefensterberechnung der unveränderlichen Breite wächst.

Für k = 0... n:

:

A_0 &= 0 \\

A_k &= A_ {k-1} + \frac {x_k-A_ {k-1}} {k }\

\end {richten} </Mathematik> {aus}

wo A der Mittelwert ist.

:

Q_0 &= 0 \\

Q_k &= Q_ {k-1} + \frac {k-1} {k} (x_k-A_ {k-1}) ^2 = Q_ {k-1} + (x_k-A_ {k-1}) (x_k-A_k)

\end {richten} </Mathematik> {aus}

Beispielabweichung:

:

Standardabweichung:

:

Belastete Berechnung

Wenn die Werte x mit ungleichen Gewichten w beschwert werden, summiert die Macht s, s, s werden jeder als geschätzt:

:

Und die Standardabweichungsgleichungen bleiben unverändert. Bemerken Sie, dass s jetzt die Summe der Gewichte und nicht der Zahl von Proben N ist.

Die zusätzliche Methode mit reduzierten Rundungsfehlern kann auch mit einer zusätzlichen Kompliziertheit angewandt werden.

Eine laufende Summe von Gewichten muss für jeden k von 1 bis n geschätzt werden:

:

W_0 &= 0 \\

W_k &= W_ {k-1} + w_k

\end {richten} </Mathematik> {aus}

und Plätze, wo 1/n oben verwendet wird, müssen durch w/W ersetzt werden:

:A_0 &= 0 \\

A_k &= A_ {k-1} + \frac {w_k} {W_k} (x_k-A_ {k-1}) \\

Q_0 &= 0 \\

Q_k &= Q _ {k-1} + \frac {w_k W_ {k-1}} {W_k} (x_k-A_ {k-1}) ^2 = Q_ {k-1} +w_k (x_k-A_ {k-1}) (x_k-A_k)

\end {richten} </Mathematik> {aus}

In der Endabteilung,

:

und

:

wo n die Gesamtzahl von Elementen ist, und n' die Zahl der Elemente mit Nichtnullgewichten ist.

Die obengenannten Formeln werden gleich den einfacheren Formeln, die oben gegeben sind, wenn Gewichte als gleich einem genommen werden.

Das Kombinieren von Standardabweichungen

Bevölkerungsbasierte Statistik

Die Bevölkerungen von Sätzen, die überlappen können, können einfach wie folgt berechnet werden:

:

&&N_ {X \cup Y} &= N_X + N_Y - N_ {X \cap Y }\\\

X\Kappe Y = \varnothing &\\Rightarrow &N_ {X \cap Y} &= 0 \\

&\\Rightarrow &N_ {X \cup Y} &= N_X + N_Y

\end {richten} </Mathematik> {aus}

Standardabweichungen, zu nichtüberlappen, können Subbevölkerungen wie folgt angesammelt werden, wenn die Größe (wirklich oder hinsichtlich einander) und Mittel von jedem bekannt ist:

:

\mu_ {X \cup Y} &= \frac {N_X \mu_X + N_Y \mu_Y} {N_X + N_Y} \\

\sigma_ {X\cup Y} &= \sqrt {\frac {N_X \sigma_X^2 + N_Y \sigma_Y^2} {N_X + N_Y} + \frac {N_X N_Y} {(N_X+N_Y) ^2} (\mu_X - \mu_Y) ^2 }\

\end {richten} </Mathematik> {aus}

Nehmen Sie zum Beispiel an, dass es bekannt ist, dass der durchschnittliche amerikanische Mann eine Mittelhöhe von 70 Zoll mit einer Standardabweichung von drei Zoll hat, und dass die durchschnittliche amerikanische Frau eine Mittelhöhe von 65 Zoll mit einer Standardabweichung von zwei Zoll hat. Nehmen Sie auch an, dass die Zahl von Männern, N, der Zahl von Frauen gleich ist. Dann konnte die Mittel- und Standardabweichung von Höhen von amerikanischen Erwachsenen als berechnet werden:

:

\mu &= \frac {N\cdot70 + N\cdot65} {N + N} = \frac {70+65} {2} = 67.5 \\

\sigma &= \sqrt {\frac {3^2 + 2^2} {2} + \frac {(70-65) ^2} {2^2}} = \sqrt {12.75} \approx 3.57

\end {richten} </Mathematik> {aus}

Für den allgemeineren Fall der M nichtüberlappende Bevölkerungen, X bis X, und die gesamte Bevölkerung:

:

\mu_X &= \frac {\sum_i N_ {X_i }\\mu_ {X_i}} {\sum_i N_ {X_i}} \\

\sigma_X &= \sqrt {\frac {\sum_i N_ {X_i} (\sigma_ {X_i} ^2 + \mu_ {X_i} ^2)} {\sum_i N_ {X_i}} - \mu_X^2 }\

= \sqrt {\frac {\sum_i N_ {X_i }\\sigma_ {X_i} ^2} {\sum_i N_ {X_i}} + \frac {\sum_ {ich

wo

:

X_i \cap X_j = \varnothing, \quad \forall\i

Wenn die Größe (wirklich oder hinsichtlich einander), die Mittel- und Standardabweichung von zwei überlappenden Bevölkerungen für die Bevölkerungen sowie ihre Kreuzung bekannt ist, dann kann die Standardabweichung der gesamten Bevölkerung noch wie folgt berechnet werden:

:

\mu_ {X \cup Y} &= \frac {1} {N_ {X \cup Y} }\\ist (N_X\mu_X + N_Y\mu_Y - N_ {X \cap Y }\\mu_ {X \cap Y }\\Recht) \\abgereist

\sigma_ {X \cup Y} &= \sqrt {\\frac {1} {N_ {X \cup Y} }\\ist (N_X [\sigma_X^2 + \mu _X^2] + N_Y [\sigma_Y^2 + \mu _Y^2] - N_ {X \cap Y} [\sigma_ {X \cap Y} ^2 + \mu _ {X \cap Y} ^2] \right) - \mu_ {X\cup Y} ^2 }\abgereist

\end {richten} </Mathematik> {aus}

Wenn zwei oder mehr Sätze von Daten zusammen datapoint durch datapoint hinzugefügt werden, kann die Standardabweichung des Ergebnisses berechnet werden, wenn die Standardabweichung jeder Datei und der Kovarianz zwischen jedem Paar von Dateien bekannt ist:

:

Für den speziellen Fall, wo keine Korrelation zwischen jedem Paar von Dateien dann besteht, nimmt die Beziehung zum Effektivwert ab:

:

&\\operatorname {cov} (X_i, X_j) = 0, \quad \forall i

Beispielbasierte Statistik

Standardabweichungen, zu nichtüberlappen, können Subproben wie folgt angesammelt werden, wenn die wirkliche Größe und Mittel von jedem bekannt sind:

:

\mu_ {X \cup Y} &= \frac {1} {N_ {X \cup Y} }\\ist (N_X\mu_X + N_Y\mu_Y\right) \\abgereist

\sigma_ {X \cup Y} &= \sqrt {\\frac {1} {N_ {X \cup Y} - 1 }\\hat ([N_X - 1] \sigma_X^2 + N_X\mu_X^2 + [N_Y - 1] \sigma_Y^2 + N_Y\mu _Y^2 - [N_X + N_Y] \mu_ {X \cup Y} ^2\right) }\verlassen

\end {richten} </Mathematik> {aus}

Für den allgemeineren Fall der M nichtüberlappende Dateien, X bis X, und die gesamte Datei:

:

\mu_X &= \frac {1} {\\sum_i {N_ {X_i}}} \left (\sum_i {N_ {X_i} \mu_ {X_i} }\\Recht) \\

\sigma_X &= \sqrt {\\frac {1} {\\sum_i {N_ {X_i} - 1}} \left (\sum_i {\left [(N_ {X_i} - 1) \sigma_ {X_i} ^2 + N_ {X_i} \mu_ {X_i} ^2\right]} - \left [\sum_i {N_ {X_i} }\\Recht] \mu_X^2 \right) }\

\end {richten} </Mathematik> {aus}

wo:

:

Wenn die Größe, die Mittel- und Standardabweichung von zwei überlappenden Proben für die Proben sowie ihre Kreuzung bekannt ist, dann kann die Standardabweichung der angesammelten Probe noch berechnet werden. Im Allgemeinen:

:

\mu_ {X \cup Y} &= \frac {1} {N_ {X \cup Y} }\\ist (N_X\mu_X + N_Y\mu_Y - N_ {X\cap Y }\\mu_ {X\cap Y }\\Recht) \\abgereist

\sigma_ {X \cup Y} &= \sqrt {\frac {1} {N_ {X \cup Y} - 1 }\\hat ([N_X - 1] \sigma_X^2 + N_X\mu_X^2 + [N_Y - 1] \sigma_Y^2 + N_Y\mu _Y^2 - [N_ {X \cap Y}-1] \sigma_ {X \cap Y} ^2 - N_ {X \cap Y }\\mu_ {X \cap Y} ^2 - [N_X + N_Y - N_ {X \cap Y}] \mu_ {X \cup Y} ^2\right) }\verlassen

\end {richten} </Mathematik> {aus}

Geschichte

Die Begriff-Standardabweichung wurde zuerst schriftlich von Karl Pearson 1894, im Anschluss an seinen Gebrauch davon in Vorträgen verwendet. Das war als ein Ersatz für frühere alternative Namen für dieselbe Idee: Zum Beispiel hat Gauss Mittelfehler verwendet.

Siehe auch

  • Genauigkeit und Präzision
  • Tschebyscheffs Ungleichheit Eine Ungleichheit auf der Position und den Skala-Rahmen
  • Cumulant
  • Abweichung (Statistik)
  • Entfernungskorrelationsentfernungsstandardabweichung
  • Fehlerbar
  • Geometrische Standardabweichung
  • Entfernungsgeneralisierungszahl von Mahalanobis von Standardabweichungen zum bösartigen
  • Haben Sie absoluten Fehler vor
  • Vereinte Abweichung hat Standardabweichung vereint
  • Rohe Kerbe
  • Wurzel Mittelquadrat
  • Beispielgröße
  • Die Ungleichheit von Samuelson
  • Sechs Sigma
  • Standardfehler
  • Flüchtigkeit (Finanz)
  • Methode von Yamartino, um Standardabweichung der Windrichtung zu berechnen

Links


Reihe (Statistik) / Statistische Annahme
Impressum & Datenschutz