Der T-Vertrieb des Studenten

In der Wahrscheinlichkeit und Statistik, der T-Vertrieb des Studenten (oder einfach der

T-Vertrieb') ist eine Familie des dauernden Wahrscheinlichkeitsvertriebs, die entsteht, wenn sie die bösartige von einer normalerweise verteilten Bevölkerung in Situationen schätzt, wo die Beispielgröße klein ist und Bevölkerungsstandardabweichung unbekannt ist. Es spielt eine Rolle in mehreren weit verwendeten statistischen Analysen, einschließlich des T-Tests des Studenten darauf, die statistische Bedeutung des Unterschieds zwischen zwei Beispielmitteln, dem Aufbau von Vertrauensintervallen für den Unterschied zwischen zwei Bevölkerungsmitteln, und in der geradlinigen Regressionsanalyse zu bewerten. Der T-Vertrieb des Studenten entsteht auch in der Analyse von Bayesian von Daten von einer normalen Familie.

Der T-Vertrieb ist symmetrisch und wie die Normalverteilung glockenförmig, aber hat schwerere Schwänze, bedeutend, dass es für das Produzieren von Werten anfälliger ist, die weit von seinem bösartigen fallen. Das macht es nützlich, für das statistische Verhalten von bestimmten Typen von Verhältnissen von zufälligen Mengen zu verstehen, in denen die Schwankung im Nenner verstärkt wird und abgelegene Werte erzeugen kann, wenn der Nenner des Verhältnisses in der Nähe von der Null fällt. Der T-Vertrieb des Studenten ist ein spezieller Fall des verallgemeinerten Hyperbelvertriebs.

Definition

Wahrscheinlichkeitsdichte-Funktion

Der T-Vertrieb des Studenten hat die durch gegebene Wahrscheinlichkeitsdichte-Funktion

:

wo die Zahl von Graden der Freiheit ist und die Gammafunktion ist. Das kann auch als geschrieben werden

:

wo B die Beta-Funktion ist.

Für sogar,

:

Für den sonderbaren,

:

Die gesamte Gestalt der Wahrscheinlichkeitsdichte-Funktion des T-Vertriebs ähnelt der Glockengestalt einer normalerweise verteilten Variable mit bösartigem 0 und Abweichung 1, außer dass es ein bisschen niedriger und breiter ist. Als die Zahl von Graden der Freiheit wächst, nähert sich der T-Vertrieb der Normalverteilung mit bösartigem 0 und Abweichung 1.

Die folgenden Images zeigen die Dichte des T-Vertriebs, um Werte dessen zu vergrößern. Die Normalverteilung wird als eine blaue Linie zum Vergleich gezeigt. Bemerken Sie, dass der T-Vertrieb (rote Linie) näher an der Normalverteilung als Zunahmen wird.

Kumulative Vertriebsfunktion

Die kumulative Vertriebsfunktion kann in Bezug auf mich, den normalisierten geschrieben werden

unvollständige Beta-Funktion. Für t> 0,

:

mit

:

Andere Werte würden durch die Symmetrie erhalten. Eine alternative Formel, die dafür gültig

ist :

\frac {1} {2} + t \frac {\\Gamma \left (\frac {\\nu+1} {2} \right)} {\\sqrt {\\pi\nu }\\, \Gamma \left (\frac {\\nu} {2 }\\Recht)} \,

_2F_1 \left (\frac {1} {2}, \frac {\\nu+1} {2}; \frac {3} {2};-\frac {t^2} {\\nu} \right)

</Mathematik>

wo F ein besonderer Fall der hypergeometrischen Funktion ist.

Spezielle Fälle

Bestimmte Werte dessen geben eine besonders einfache Form.

:Distribution-Funktion:

::

:Density-Funktion:

::

Für einen T-Vertrieb mit Graden der Freiheit ist der erwartete Wert 0, und seine Abweichung ist / (&minus; 2) wenn> 2. Die Schiefe ist 0, wenn> 3 und das Übermaß kurtosis 6 / ist (&minus; 4) wenn> 4.

Beziehung zum F Vertrieb

  • hat einen F-Vertrieb, wenn und einen T-Vertrieb eines Studenten hat.

Monte Carlo, der ausfällt

Es gibt verschiedene Annäherungen an das Konstruieren zufälliger Proben vom Studenten-T-Vertrieb. Die Sache hängt ab, ob die Proben auf einer eigenständigen Basis erforderlich sind, oder durch die Anwendung einer Quantile-Funktion zu gleichförmigen Proben gebaut werden sollen; z.B, in der mehrdimensionalen Anwendungsbasis der Satzband-Abhängigkeit. Im Fall von der eigenständigen Stichprobenerhebung werden eine Erweiterung der Methode des Kastens-Muller und seine polare Schwankung leicht aufmarschiert. Es hat das Verdienst, das es ebenso gut auf alle echten positiven und negativen Grade der Freiheit anwendet.

Integriert der Wahrscheinlichkeitsdichte-Funktion und P-Werts des Studenten

Die Funktion ist das Integral der Wahrscheinlichkeitsdichte-Funktion des Studenten, ƒ (t) zwischen &minus;t und t, für t> = 0. Es gibt so die Wahrscheinlichkeit, dass ein Wert von t weniger als das, das von beobachteten Daten berechnet ist, zufällig vorkommen würde. Deshalb kann die Funktion verwendet werden, wenn man prüft, ob der Unterschied zwischen den Mitteln von zwei Sätzen von Daten, durch das Rechnen des entsprechenden Werts von t und der Wahrscheinlichkeit seines Ereignisses statistisch bedeutend ist, wenn die zwei Sätze von Daten von derselben Bevölkerung gezogen wurden. Das wird in einer Vielfalt von Situationen besonders in T-Tests verwendet. Für den statistischen t, mit Graden der Freiheit, ist die Wahrscheinlichkeit, dass t weniger sein würde als der beobachtete Wert, wenn die zwei Mittel dasselbe wären (vorausgesetzt, dass das kleinere bösartige vom größeren, so dass t> = 0) abgezogen wird. Es kann von der kumulativen Vertriebsfunktion des T-Vertriebs leicht berechnet werden:

:

wo ich die normalisierte unvollständige Beta-Funktion (a, b) bin.

Weil statistische Hypothese, die diese Funktion prüft, verwendet wird, um den P-Wert zu bauen.

Der T-Vertrieb des nichtstandardisierten Studenten

In Bezug auf die Standardabweichung

Der t Vertrieb des Studenten kann zu einer drei Parameter-Positionsskala-Familie verallgemeinert werden, einen Positionsparameter und einen Skala-Parameter einführend. Der T-Vertrieb des resultierenden nichtstandardisierten Studenten ließ eine Dichte durch definieren

:

Gleichwertig kann es in Bezug auf (entsprechend der Abweichung statt der Standardabweichung) geschrieben werden:

:

Andere Eigenschaften dieser Version des Vertriebs sind:

:

\begin {richten }\aus

\operatorname {E} (X) &= \mu \quad \quad \quad \text {für }\\, \nu> 1, \\

\text {var} (X) &= \sigma^2\frac {\\nu} {\\nu-2 }\\, \quad \text {für }\\, \nu> 2, \\

\text {Verfahren} (X) &= \mu.

\end {richten }\aus

</Mathematik>

Dieser Vertrieb Ergebnisse vom Zusammensetzen eines Vertriebs von Gaussian (Normalverteilung) mit der bösartigen und unbekannten Abweichung, mit einem umgekehrten Gammavertrieb, der über die Abweichung mit Rahmen gelegt ist und. Mit anderen Worten, wie man annimmt, hat die zufällige Variable X einen Vertrieb von Gaussian mit einer unbekannten Abweichung verteilt als umgekehrtes Gamma, und dann wird der Abweichung (integriert) marginalisiert. Der Grund für die Nützlichkeit dieser Charakterisierung besteht darin, dass der umgekehrte Gammavertrieb der verbundene vorherige Vertrieb der Abweichung eines Vertriebs von Gaussian ist. Infolgedessen entsteht der T-Vertrieb des nichtstandardisierten Studenten natürlich in vielen Interferenzproblemen von Bayesian. Sieh unten.

Gleichwertig hat dieser Vertrieb Ergebnisse vom Zusammensetzen eines Vertriebs von Gaussian mit einem schuppigen Gegenteil chi Vertrieb mit Rahmen quadratisch gemacht und. Das schuppige Gegenteil chi quadratisch gemachter Vertrieb ist genau derselbe Vertrieb wie der umgekehrte Gammavertrieb, aber mit einem verschiedenen parameterization, d. h.

In Bezug auf die Präzision

Eine Alternative parameterization in Bezug auf die Präzision &lambda; (gegenseitig der Abweichung) entsteht aus der Beziehung. Dann wird die Dichte durch definiert

:Andere Eigenschaften dieser Version des Vertriebs sind::\begin {richten }\aus\operatorname {E} (X) &= \mu \quad \quad \quad \text {für }\\, \nu> 1, \\

\text {var} (X) &= \frac {1} {\\Lambda }\\frac {\\nu} {\\nu-2 }\\, \quad \text {für }\\, \nu> 2, \\

\text {Verfahren} (X) &= \mu.\end {richten }\aus</Mathematik>

Dieser Vertrieb Ergebnisse vom Zusammensetzen eines Vertriebs von Gaussian mit der bösartigen und unbekannten Präzision (das Gegenstück der Abweichung), mit einem Gammavertrieb, der über die Präzision mit Rahmen gelegt ist und. Mit anderen Worten, wie man annimmt, hat die zufällige Variable X eine Normalverteilung mit einer unbekannten Präzision verteilt als Gamma, und dann wird dessen über den Gammavertrieb marginalisiert.

Zusammenhängender Vertrieb

NichthauptT-Vertrieb

Der NichthauptT-Vertrieb ist eine verschiedene Weise, den T-Vertrieb zu verallgemeinern, um einen Positionsparameter einzuschließen. Verschieden vom nichtstandardisierten T-Vertrieb ist der Nichthauptvertrieb asymmetrisch (die Mittellinie ist nicht dasselbe als die Weise).

Der T-Vertrieb des getrennten Studenten

Der T-Vertrieb des "getrennten Studenten" wird durch seine Wahrscheinlichkeitsmassenfunktion an r definiert proportional zu zu sein

:

Hier sind a, b, und k Rahmen.

Dieser Vertrieb entsteht aus dem Aufbau eines Systems des getrennten Vertriebs, der diesem des Vertriebs von Pearson für den dauernden Vertrieb ähnlich ist.

Gebrauch

In der frequentist statistischen Schlussfolgerung

Der T-Vertrieb des Studenten entsteht in einer Vielfalt von statistischen Bewertungsproblemen, wo die Absicht ist, einen unbekannten Parameter wie ein Mittelwert in einer Einstellung zu schätzen, wo die Daten mit zusätzlichen Fehlern beobachtet werden. Wenn (als in fast der ganzen praktischen statistischen Arbeit) die Bevölkerungsstandardabweichung dieser Fehler unbekannt ist und von den Daten geschätzt werden muss, wird der T-Vertrieb häufig verwendet, um für die Extraunklarheit verantwortlich zu sein, die sich aus dieser Bewertung ergibt. In den meisten solchen Problemen, wenn die Standardabweichung der Fehler bekannt war, würde eine Normalverteilung statt des T-Vertriebs verwendet.

Vertrauensintervalle und Hypothese-Tests sind zwei statistische Verfahren, in denen die quantiles des ausfallenden Vertriebs einer Einzelheit statistisch (z.B die Standardkerbe) erforderlich sind. In jeder Situation, wo das statistisch eine geradlinige Funktion der Daten ist, die durch die übliche Schätzung der Standardabweichung geteilt sind, kann die resultierende Menge wiedererklettert und in den Mittelpunkt gestellt werden, um dem T-Vertrieb des Studenten zu folgen. Statistische Analysen, die mit Mitteln, beschwerten Mitteln und Regressionskoeffizienten verbunden sind, führen alle zu Statistik, die diese Form hat.

Ganz häufig werden Lehrbuch-Probleme die Bevölkerungsstandardabweichung behandeln, als ob sie bekannt war und dadurch das Bedürfnis vermeidet, den T-Vertrieb des Studenten zu verwenden. Diese Probleme sind allgemein zwei Arten: (1) diejenigen, in denen die Beispielgröße so groß ist, dass man eine datenbasierte Schätzung der Abweichung behandeln kann, als ob es, und (2) diejenigen sicher war, die das mathematische Denken illustrieren, in dem das Problem, die Standardabweichung zu schätzen, provisorisch ignoriert wird, weil das nicht der Punkt ist, dass der Autor oder Lehrer dann erklären.

Hypothese-Prüfung

Wie man

zeigen kann, haben mehrere Statistiken T-Vertrieb für Proben der gemäßigten Größe laut ungültiger Hypothesen, die von Interesse sind, so dass der T-Vertrieb die Basis für Bedeutungstests bildet. Zum Beispiel wird dem Vertrieb des Rangkorrelationskoeffizienten von Spearman ρ, im ungültigen Fall (Nullkorrelation) durch den t Vertrieb für Beispielgrößen über ungefähr 20 gut näher gekommen.

Vertrauensintervalle

Nehmen Sie an, dass die Zahl A das so gewählt wird

:

wenn T einen T-Vertrieb mit n &minus hat; 1 Grade der Freiheit. Durch die Symmetrie ist das dasselbe, sagend dass A befriedigt

:

so ist A der "95. Prozentanteil" dieses Wahrscheinlichkeitsvertriebs, oder. Dann

:

und das ist zu gleichwertig

:

Deshalb der Zwischenraum, dessen Endpunkte sind

:

ist ein 90-Prozent-Vertrauensintervall für μ. Deshalb, wenn wir die bösartigen von einer Reihe von Beobachtungen finden, dass wir vernünftig annehmen können, eine Normalverteilung zu haben, können wir den T-Vertrieb verwenden, um zu untersuchen, ob die Vertrauensgrenzen auf diesem bösartigen einen theoretisch vorausgesagten Wert - wie der auf einer ungültigen Hypothese vorausgesagte Wert einschließen.

Es ist dieses Ergebnis, das in den T-Tests des Studenten verwendet wird: Da der Unterschied zwischen den Mitteln von Proben von zwei Normalverteilungen selbst normalerweise verteilt wird, kann der T-Vertrieb verwendet werden, um zu untersuchen, ob dieser Unterschied vernünftig Null kann sein sollen.

Wenn die Daten normalerweise, das einseitige verteilt werden (1 &minus; a) - obere Vertrauensgrenze (UCL) des bösartigen, kann mit der folgenden Gleichung berechnet werden:

:

Der resultierende UCL wird der größte durchschnittliche Wert sein, der für ein gegebenes Vertrauensintervall und Bevölkerungsgröße vorkommen wird. Mit anderen Worten, der bösartige vom Satz von Beobachtungen seiend, ist die Wahrscheinlichkeit, dass der bösartige vom Vertrieb UCL untergeordnet ist, dem Vertrauensniveau 1 &minus gleich; a.

Vorhersagezwischenräume

Der T-Vertrieb kann verwendet werden, um einen Vorhersagezwischenraum für eine unbemerkte Probe von einer Normalverteilung mit dem unbekannten bösartig und Abweichung zu bauen.

In der Bayesian Statistik

Der T-Vertrieb des Studenten, besonders in seinem drei-Parameter-(Positionsskala) Version, entsteht oft in der Statistik von Bayesian infolge seiner Verbindung mit der Normalverteilung. Wann auch immer die Abweichung einer normalerweise verteilten zufälligen Variable unbekannt ist und ein verbundener darüber gelegter vorheriger, der einem umgekehrten Gammavertrieb folgt, wird der resultierende Randvertrieb der Variable einem T-Vertrieb eines Studenten folgen. Gleichwertige Aufbauten mit denselben Ergebnissen sind mit einem verbundenen schuppigen Gegenteil chi quadratisch gemachter Vertrieb über die Abweichung oder ein verbundener Gammavertrieb über die Präzision verbunden. Wenn ein unpassender vorheriger proportionaler dazu über die Abweichung gelegt wird, entsteht der T-Vertrieb auch. Das ist unabhängig davon der Fall, ob die bösartige von der normalerweise verteilten Variable bekannt ist, verteilt gemäß einem verbundenen normalerweise verteilt vorherig unbekannt ist, oder verteilt gemäß einer unpassenden vorherigen Konstante unbekannt ist.

Zusammenhängende Situationen, die auch einen T-Vertrieb erzeugen, sind:

  • Der spätere Randvertrieb der unbekannten bösartigen von einer normalerweise verteilten Variable, mit dem unbekannten vorherig bösartig und Abweichung im Anschluss an das obengenannte Modell.
  • Der vorherige prophetische Vertrieb und spätere prophetische Vertrieb spitzen neue normalerweise verteilte Daten an, als eine Reihe von unabhängigen identisch verteilten normalerweise verteilten Datenpunkten, mit dem vorherigen bösartig und Abweichung als im obengenannten Modell beobachtet worden ist.

Das robuste parametrische Modellieren

Der T-Vertrieb wird häufig als eine Alternative zur Normalverteilung als ein Modell für Daten verwendet. Es ist oft der Fall, dass echte Daten schwerere Schwänze haben, als die Normalverteilung berücksichtigt. Die klassische Annäherung sollte outliers identifizieren und ausschließen oder downweight sie irgendwie. Jedoch ist es nicht immer leicht, outliers (besonders in hohen Dimensionen) zu identifizieren, und der T-Vertrieb ist eine natürliche Wahl des Modells für solche Daten und stellt eine parametrische Annäherung an die robuste Statistik zur Verfügung.

Lange u. a. erforscht der Gebrauch des T-Vertriebs für das robuste Modellieren von schweren geschwänzten Daten in einer Vielfalt von Zusammenhängen. Eine Bayesian-Rechnung kann in Gelman gefunden werden u. a. Die Grade des Freiheitsparameters kontrollieren den kurtosis des Vertriebs und werden mit dem Skala-Parameter aufeinander bezogen. Die Wahrscheinlichkeit kann vielfache lokale Maxima und, als solcher haben, es ist häufig notwendig, die Grade der Freiheit an einem ziemlich niedrigen Wert zu befestigen und die anderen Rahmen zu schätzen, die das, wie gegeben, nehmen. Einige Autoren berichten, dass Werte zwischen 3 und 9 häufig gute Wahlen sind. Venables und Ripley schlagen vor, dass ein Wert von 5 häufig eine gute Wahl ist.

Tisch von ausgewählten Werten

Die meisten statistischen Lehrbücher verzeichnen t Vertriebstische. Heutzutage ist der bessere Weg zu einem völlig genauen kritischen T-Wert oder einer kumulativen Wahrscheinlichkeit die statistische Funktion, die in Spreadsheets durchgeführt ist (Büro, Ragen OpenOffice Calc, usw. Hervor), oder eine interaktive Rechenwebseite. Die relevanten Spreadsheet-Funktionen sind TDIST und TINV, während das online Rechnen von Seiten Schwierigkeiten wie Positionen von Rahmen oder Namen von Funktionen spart. Zum Beispiel kann eine durch die R Erweiterung unterstützte Seite von Mediawiki das interaktive Ergebnis von kritischen Werten oder kumulativer Wahrscheinlichkeit sogar für den NichthauptT-Vertrieb leicht geben.

Der folgende Tisch verzeichnet einige ausgewählte Werte für den T-Vertrieb mit Graden der Freiheit für eine Reihe von einseitigen oder zweiseitigen kritischen Gebieten. Für ein Beispiel dessen, wie man diesen Tisch liest, nehmen Sie die vierte Reihe, die mit 4 beginnt; das, bedeutet die Zahl von Graden der Freiheit, ist 4 (und wenn wir uns als oben, mit N-Werten mit einer festen Summe, n = 5 befassen). Nehmen Sie den fünften Zugang, in angeführten 95 % der Säule für den einseitigen (90 % für den zweiseitigen). Der Wert dieses Zugangs ist "2.132". Dann ist die Wahrscheinlichkeit, dass T weniger als 2.132 ist, 95 % oder Pr (&minus;

und so

: Pr (&minus;2.132

|0.674

|0.842

|1.036

|1.282

|1.645

|1.960

|2.326

|2.576

|2.807

|3.090

|3.291

| }\

Die Zahl am Anfang jeder Reihe im Tisch ist oben, der oben als n &minus definiert worden ist; 1. Der Prozentsatz entlang der Spitze ist 100 % (1 &minus; α). Die Zahlen im Hauptkörper des Tisches sind t. Wenn eine Menge T als ein t Vertrieb eines Studenten mit Graden der Freiheit verteilt wird, dann gibt es eine Wahrscheinlichkeit 1 &minus; α, dass T weniger sein wird als t. (Berechnet bezüglich eines einseitigen oder Ein-Schwanz-Tests im Vergleich mit einem Zwei-Schwänze-Test.)

Zum Beispiel, in Anbetracht einer Probe mit einer Beispielabweichung 2 und Probe, die 10 bösartig ist, genommen von einem Beispielsatz 11 (10 Grade der Freiheit), mit der Formel

:

Wir können beschließen, dass an 90-%-Vertrauen wir ein wahres Mittellügen unter haben

:

(Mit anderen Worten, durchschnittlich, überschreiten 90 % der Zeiten, dass eine obere Schwelle durch diese Methode, diese obere Schwelle berechnet wird, das wahre bösartige.), Und, noch an 90-%-Vertrauen, haben wir ein wahres Mittellügen über

:

(Mit anderen Worten, durchschnittlich, liegen 90 % der Zeiten, dass eine niedrigere Schwelle durch diese Methode, diese niedrigere Schwelle berechnet wird, unter dem wahren bösartigen.) So dass an 80-%-Vertrauen (berechnet von 1 &minus; 2 &times; (1 &minus; 90 %) = 80 %), wir haben ein wahres Mittellügen innerhalb des Zwischenraums

:

Das wird allgemein in der Zwischenraum-Notation z.B für diesen Fall an 80-%-Vertrauen ausgedrückt, das das wahre bösartige innerhalb des Zwischenraums [9.41490, 10.58510] ist.

(Mit anderen Worten, durchschnittlich, sind 80 % der Zeiten, dass obere und niedrigere Schwellen durch diese Methode, das wahre bösartige berechnet werden, sowohl unter der oberen Schwelle als auch über der niedrigeren Schwelle. Das ist nicht dasselbe Ding, sagend dass es eine 80-%-Wahrscheinlichkeit gibt, dass die wahren Mittellügen zwischen einem besonderen Paar von oberen und niedrigeren Schwellen, die durch diese Methode berechnet worden sind — Vertrauensintervall und den Scheinbeweis des Anklägers sehen.)

Weil die Information über die umgekehrte kumulative Vertriebsfunktion quantile sieht fungieren.

Siehe auch

  • Chi-karierter Vertrieb
  • F-Vertrieb
  • Gammavertrieb
  • Der T-squared Vertrieb von Hotelling
  • Multivariate Studentenvertrieb
  • Der t-statistic des Studenten
  • Der Lambda-Vertrieb von Wilks
  • Vertrieb von Wishart

Referenzen

  • Hogg, R.V.; Craig, A.T. (1978). Einführung in die mathematische Statistik. New York: Macmillan.
  • Venables, W.N.; B.D. Ripley, B.D. (2002) moderne angewandte Statistik mit S, der vierten Ausgabe, dem Springer

Links


Sänger von John Sargent / Drücken Sie Spiel
Impressum & Datenschutz