Vertrauensintervall

In der Statistik ist ein Vertrauensintervall (CI) eine besondere Art der Zwischenraum-Schätzung eines Parameters der Grundgesamtheit und wird verwendet, um die Zuverlässigkeit einer Schätzung anzuzeigen. Es ist ein beobachteter Zwischenraum (d. h. es wird von den Beobachtungen berechnet), im Prinzip verschieden von der Probe bis Probe, die oft den Parameter von Interesse einschließt, wenn das Experiment wiederholt wird. Wie oft der beobachtete Zwischenraum den Parameter enthält, wird durch das Vertrauensniveau oder den Vertrauenskoeffizienten bestimmt.

Ein Vertrauensintervall mit einem besonderen Vertrauensniveau ist beabsichtigt, um die Versicherung zu geben, dass, wenn das statistische Modell richtig ist, dann übernommen würden alle Daten, die, das Verfahren erhalten worden sein könnten, für den Zwischenraum zu bauen, ein Vertrauensintervall liefern, das den wahren Wert des Parameters das Verhältnis der durch das Vertrauensniveau gesetzten Zeit eingeschlossen hat. Mehr spezifisch ist die Bedeutung des Begriffes "Vertrauens-Niveau", dass, wenn Vertrauensintervalle über viele getrennte Datenanalysen von wiederholten (und vielleicht verschieden) Experimente gebaut werden, das Verhältnis solcher Zwischenräume, die den wahren Wert des Parameters enthalten, das Vertrauensniveau ungefähr vergleichen wird; das wird durch das Denken versichert, das dem Aufbau von Vertrauensintervallen unterliegt.

Ein Vertrauensintervall sagt nicht voraus, dass der wahre Wert des Parameters eine besondere Wahrscheinlichkeit hat, im Vertrauensintervall gegeben die wirklich erhaltenen Daten zu sein. (Ein Zwischenraum, der beabsichtigt ist, um solch ein Eigentum zu haben, genannt einen glaubwürdigen Zwischenraum, kann mit Methoden von Bayesian geschätzt werden; aber solche Methoden bringen mit ihnen ihre eigenen verschiedenen Kräfte und Schwächen).

Begriffsbasis

Einführung

Zwischenraum-Schätzungen kann mit Punkt-Schätzungen gegenübergestellt werden. Eine Punkt-Schätzung ist ein einzelner Wert, der als die Schätzung eines Parameters der Grundgesamtheit gegeben ist, der von Interesse, zum Beispiel die bösartige von etwas Menge ist. Eine Zwischenraum-Schätzung gibt stattdessen eine Reihe an, innerhalb deren, wie man schätzt, der Parameter liegt. Wie man allgemein berichtet, zeigen Vertrauensintervalle in Tischen oder Graphen zusammen mit Punkt-Schätzungen derselben Rahmen, die Zuverlässigkeit der Schätzungen.

Zum Beispiel kann ein Vertrauensintervall verwendet werden, um zu beschreiben, wie zuverlässige Überblick-Ergebnisse sind. In einer Wahl von Wahlwahlabsichten könnte das Ergebnis darin bestehen, dass 40 % von Befragten vorhaben, für eine bestimmte Partei zu stimmen. Ein 90-%-Vertrauensintervall für das Verhältnis in der ganzen Bevölkerung, die dieselbe Absicht auf dem Überblick-Datum hat, könnte 38 % bis 42 % sein. Von denselben Daten kann man ein 95-%-Vertrauensintervall berechnen, das in diesem Fall 36 % bis 44 % sein könnte. Ein Hauptfaktor, der die Länge eines Vertrauensintervalls bestimmt, ist die Größe der Probe, die im Bewertungsverfahren, zum Beispiel die Anzahl der Leute verwendet ist, die an einem Überblick teilnimmt.

Beziehung mit anderen statistischen Themen

Statistische Hypothese-Prüfung

Vertrauensintervalle sind nah mit der statistischen Bedeutungsprüfung verbunden. Zum Beispiel, wenn für einen geschätzten Parameter θ man die ungültige Hypothese prüfen will, dass θ = 0 gegen die Alternative, die θ  0 dann dieser Test durch die Bestimmung durchgeführt werden kann, ob das Vertrauensintervall für θ 0 enthält.

Mehr allgemein, in Anbetracht der Verfügbarkeit einer Hypothese, die Verfahren prüft, das die ungültige Hypothese θ = θ gegen die Alternative prüfen kann, dass θ  θ für jeden Wert von θ dann ein Vertrauensintervall mit dem Vertrauensniveau γ = 1  α als enthaltend jede Zahl θ definiert werden kann, für den die entsprechende ungültige Hypothese an der Signifikanzebene α nicht zurückgewiesen wird.

In der Folge, wenn die Schätzungen von zwei Rahmen (zum Beispiel, die Mittelwerte einer Variable in zwei unabhängigen Gruppen von Gegenständen) Vertrauensintervalle an einem gegebenen γ-Wert haben, die dann nicht überlappen, ist der Unterschied zwischen den zwei Werten am entsprechenden Wert von α bedeutend. Jedoch ist dieser Test zu konservativ. Wenn zwei Vertrauensintervalle überlappen, kann der Unterschied zwischen den zwei Mitteln noch bedeutsam verschieden sein.

Vertrauensgebiet

Vertrauensgebiete verallgemeinern das Vertrauensintervall-Konzept, um sich mit vielfachen Mengen zu befassen. Solche Gebiete können nicht nur das Ausmaß von wahrscheinlichen Stichprobenfehlern anzeigen, aber können auch offenbaren, ob (zum Beispiel) es der Fall ist, dass, wenn die Schätzung für eine Menge dann der andere unzuverlässig ist, auch wahrscheinlich unzuverlässig sein wird. Siehe auch Vertrauensbänder.

In der angewandten Praxis werden Vertrauensintervalle normalerweise am 95-%-Vertrauensniveau festgesetzt. Jedoch, wenn präsentiert, grafisch, können Vertrauensintervalle an mehreren Vertrauensniveaus, zum Beispiel 50 %, 95 % und 99 % gezeigt werden.

Statistische Theorie

Definition

Lassen Sie X eine zufällige Probe von einem Wahrscheinlichkeitsvertrieb mit Rahmen θ sein, der eine Menge ist, die, und φ zu schätzen ist, Mengen nicht vom unmittelbaren Interesse vertretend. Ein Vertrauensintervall für den Parameter θ, mit dem Vertrauensniveau oder Vertrauenskoeffizienten γ, ist ein Zwischenraum mit zufälligen Endpunkten, die vom Paar der Statistik (d. h., erkennbare zufällige Variablen) und mit dem Eigentum bestimmt sind:

:

Die Mengen φ, an dem es kein unmittelbares Interesse gibt, werden Ärger-Rahmen genannt, weil statistische Theorie noch eine Weise finden muss, sich mit ihnen zu befassen.

Die Zahl γ, mit typischen Werten in der Nähe von, aber nicht größer als 1, wird manchmal in der Form 1  α gegeben (oder als ein Prozentsatz 100% · (1  α)), wo α eine kleine nichtnegative Zahl, in der Nähe von 0 ist.

Hier wird Pr verwendet, um die Wahrscheinlichkeit anzuzeigen, wenn die zufällige Variable X den Vertrieb durch (θ, φ) charakterisieren ließ. Ein wichtiger Teil dieser Spezifizierung ist, dass der zufällige Zwischenraum (U, V) den unbekannten Wert θ mit einer hohen Wahrscheinlichkeit bedeckt, egal was der wahre Wert von θ wirklich ist.

Bemerken Sie, dass hier sich Pr auf eine ausführlich gegebene parametrisierte Familie des Vertriebs nicht zu beziehen braucht, obwohl er häufig tut. Da die zufällige Variable X begrifflich anderen möglichen Verwirklichungen von x von derselben Bevölkerung oder von derselben Version der Wirklichkeit entspricht, zeigen die Rahmen (θ, φ) an, dass wir andere Versionen der Wirklichkeit denken müssen, in der der Vertrieb X verschiedene Eigenschaften haben könnte.

In einer spezifischen Situation, wenn x das Ergebnis der Probe X ist, wird der Zwischenraum auch ein Vertrauensintervall für θ genannt. Bemerken Sie, dass es nicht mehr möglich ist zu sagen, dass der (beobachtete) Zwischenraum Wahrscheinlichkeit γ hat, um den Parameter θ zu enthalten. Dieser beobachtete Zwischenraum ist gerade eine Verwirklichung aller möglichen Zwischenräume, für die die Wahrscheinlichkeitsbehauptung hält.

Zwischenräume für zufällige Ergebnisse

Vertrauensintervalle können für zufällige Mengen sowie für feste Mengen als im obengenannten definiert werden. Sieh Vorhersagezwischenraum. Dafür, denken Sie eine zusätzliche einzeln geschätzte zufällige Variable Y, der kann oder von X nicht statistisch abhängig sein kann. Dann stellt die Regel, für den Zwischenraum (u (x), v (x)) zu bauen, ein Vertrauensintervall für als noch zukünftiger beobachteter Wert y Y wenn zur Verfügung

:

Hier wird Pr verwendet, um die Wahrscheinlichkeit über den gemeinsamen Vertrieb der zufälligen Variablen anzuzeigen (X, Y), wenn das durch Rahmen (θ, φ) charakterisiert wird.

Ungefähre Vertrauensintervalle

Für Sonderanwendungen ist es manchmal nicht möglich, Regeln zu finden, um Vertrauensintervalle zu bauen, die genau die erforderlichen Eigenschaften haben. Aber praktisch nützliche Zwischenräume können noch gefunden werden. Die Einschluss-Wahrscheinlichkeit c (θ, φ) für einen zufälligen Zwischenraum wird durch definiert

:

und die Regel, für den Zwischenraum zu bauen, kann als Versorgung eines Vertrauensintervalls wenn akzeptiert werden

:

zu einem annehmbaren Niveau der Annäherung.

Vergleich zu Zwischenraum-Schätzungen von Bayesian

Eine Bayesian Zwischenraum-Schätzung wird einen glaubwürdigen Zwischenraum genannt. Mit viel von derselben Notation wie oben ist die Definition eines glaubwürdigen Zwischenraums für den unbekannten wahren Wert von θ, für einen gegebenen α,

:

Hier wird Θ verwendet, um zu betonen, dass der unbekannte Wert von θ als eine zufällige Variable behandelt wird. Die Definitionen der zwei Typen von Zwischenräumen können wie folgt verglichen werden.

  • Die Definition eines Vertrauensintervalls schließt Wahrscheinlichkeiten ein, die vom Vertrieb X für den gegebenen (θ, φ) berechnet sind (oder bedingt durch diese Werte), und die Bedingung muss für alle Werte (θ, φ) halten.
  • Die Definition eines glaubwürdigen Zwischenraums schließt Wahrscheinlichkeiten ein, die vom Vertrieb von Θ berechnet sind, die durch die beobachteten Werte von X = x bedingt sind und marginalisiert sind (oder durchschnittlich sind) über die Werte von Φ, wo diese letzte Menge die zufällige Variable entsprechend der Unklarheit über die Ärger-Rahmen in φ ist.

Bemerken Sie, dass die Behandlung der Ärger-Rahmen häufig oben aus Diskussionen weggelassen wird, die Vertrauen und glaubwürdige Zwischenräume vergleichen, aber es ist zwischen den zwei Fällen deutlich verschieden.

In einigen einfachen Standardfällen haben die Zwischenräume als Vertrauen erzeugt, und glaubwürdige Zwischenräume von derselben Datei können identisch sein. Sie sind sehr verschieden, wenn informative vorherige Information in die Analyse von Bayesian eingeschlossen wird; und kann für einige Teile des Raums von möglichen Daten sehr verschieden sein, selbst wenn vorheriger Bayesian relativ uninformativ ist.

Wünschenswerte Eigenschaften

Wenn

es statistische Standardverfahren anwenden wird, wird es häufig Standardweisen geben, Vertrauensintervalle zu bauen. Diese werden ausgedacht worden sein, um bestimmte wünschenswerte Eigenschaften zu entsprechen, die halten werden vorausgesetzt, dass die Annahmen, auf die sich das Verfahren verlassen, wahr sind. Diese wünschenswerten Eigenschaften können als beschrieben werden: Gültigkeit, optimality und invariance. Dieser ist "Gültigkeit" am wichtigsten, nah von "optimality" gefolgt. "Invariance" kann als ein Eigentum der Methode der Abstammung eines Vertrauensintervalls aber nicht der Regel betrachtet werden, für den Zwischenraum zu bauen. In Sonderanwendungen würden dieselben wünschenswerten Eigenschaften gesucht.

  • Gültigkeit. Das bedeutet, dass die nominelle Einschluss-Wahrscheinlichkeit (Vertrauensniveau) des Vertrauensintervalls halten sollte entweder genau oder zu einer guten Annäherung.
  • Optimality. Das bedeutet, dass die Regel, für das Vertrauensintervall zu bauen, so viel Gebrauch der Information in der Datei wie möglich machen sollte. Rufen Sie zurück, dass man Hälfte eines dataset wegwerfen und noch im Stande sein konnte, ein gültiges Vertrauensintervall abzuleiten. Eine Weise, optimality zu bewerten, ist durch die Länge des Zwischenraums, so dass eine Regel, für ein Vertrauensintervall zu bauen, besser beurteilt wird als ein anderer, wenn es zu Zwischenräumen führt, deren Längen normalerweise kürzer sind.
  • Invariance. In vielen Anwendungen könnte die Menge, die wird schätzt, nicht als solcher dicht definiert werden. Zum Beispiel könnte ein Überblick auf eine Schätzung des mittleren Einkommens in einer Bevölkerung hinauslaufen, aber es könnte als Versorgung einer Schätzung des Logarithmus des mittleren Einkommens ebenso betrachtet werden, vorausgesetzt, dass das eine allgemeine Skala ist, um grafische Ergebnisse zu präsentieren. Es würde wünschenswert sein, dass die Methode, die verwendet ist, für ein Vertrauensintervall für das mittlere Einkommen zu bauen, gleichwertige Ergebnisse, wenn angewandt, auf das Konstruieren eines Vertrauensintervalls für den Logarithmus des mittleren Einkommens geben würde: Spezifisch würden die Werte an den Enden des letzten Zwischenraums die Logarithmen der Werte an den Enden des ehemaligen Zwischenraums sein.

Methoden der Abstammung

Für Sonderanwendungen gibt es mehrere Wege, die genommen werden könnten, um eine Regel für den Aufbau von Vertrauensintervallen abzuleiten. Feststehende Regeln für Standardverfahren könnten gerechtfertigt oder über mehrere dieser Wege erklärt werden. Normalerweise wird eine Regel, um Vertrauensintervalle zu bauen, an eine besondere Weise nah gebunden, eine Punkt-Schätzung der Menge zu finden, die wird betrachtet.

Statistik

: Das ist nah mit der Methode von Momenten für die Bewertung verbunden. Ein einfaches Beispiel entsteht, wo die zu schätzende Menge das bösartige ist, in welchem Fall eine natürliche Schätzung die bösartige Probe ist. Die üblichen Argumente zeigen an, dass die Beispielabweichung verwendet werden kann, um die Abweichung der bösartigen Probe zu schätzen. Ein naives Vertrauensintervall für das wahre bösartige kann in den Mittelpunkt gestellt auf die Probe gebaut werden, die mit einer Breite bösartig ist, die ein Vielfache der Quadratwurzel der Beispielabweichung ist.

Wahrscheinlichkeitstheorie

: Wo Schätzungen mit dem maximalen Wahrscheinlichkeitsgrundsatz gebaut werden, stellt die Theorie dafür zwei Weisen zur Verfügung, Vertrauensintervalle oder Vertrauensgebiete für die Schätzungen zu bauen.

Das Schätzen von Gleichungen

: Die Bewertungsannäherung hier kann sowohl als eine Generalisation der Methode von Momenten als auch als eine Generalisation der maximalen Wahrscheinlichkeitsannäherung betrachtet werden. Es gibt entsprechende Generalisationen der Ergebnisse der maximalen Wahrscheinlichkeitstheorie, die Vertrauensintervallen erlauben, gestützt auf abgeleiteten Schätzungen gebaut zu werden, Gleichungen schätzend.

Über die Bedeutung, die prüft

: Wenn Bedeutungstests für allgemeine Werte eines Parameters verfügbar sind, dann können Vertrauenszwischenräume/Gebiete durch das Umfassen im 100-Punkt-%-Vertrauensgebiet alle jene Punkte gebaut werden, für die der Bedeutungstest der ungültigen Hypothese dass der wahre Wert der gegebene Wert ist, wird an einer Signifikanzebene von (1-p) nicht zurückgewiesen.

Das Urladeverfahren

: In Situationen, wo die Verteilungsannahmen dafür über Methoden unsicher sind oder erlauben verletzte, wiederausfallende Methoden Aufbau von Vertrauensintervallen oder Vorhersagezwischenräumen. Der beobachtete Datenvertrieb und die inneren Korrelationen werden als der Stellvertreter für die Korrelationen in der breiteren Bevölkerung verwendet.

Beispiele

Praktisches Beispiel

Eine Maschine füllt Tassen mit der Margarine, und soll angepasst werden, so dass der Inhalt der Tassen 250 g der Margarine ist. Da die Maschine jede Tasse mit genau 250 g nicht füllen kann, zeigt der zu individuellen Tassen hinzugefügte Inhalt etwas Schwankung, und wird als eine zufällige Variable X betrachtet. Wie man annimmt, wird diese Schwankung normalerweise um den gewünschten Durchschnitt von 250 g mit einer Standardabweichung von 2.5 g verteilt. Um zu bestimmen, ob die Maschine, eine Probe von n = entsprechend kalibriert wird, werden 25 Tassen der Margarine aufs Geratewohl gewählt, und die Tassen werden gewogen. Die resultierenden gemessenen Massen der Margarine sind X..., X, eine zufällige Probe von X.

Um einen Eindruck der Erwartung μ zu bekommen, ist es genügend, eine Schätzung zu geben. Der passende Vorkalkulator ist die bösartige Probe:

:

Die Probe zeigt wirkliche Gewichte x..., x mit dem bösartigen:

:

Wenn wir eine andere Probe von 25 Tassen nehmen, konnten wir leicht annehmen, Massenwerte wie 250.4 oder 251.1 Gramme zu finden. Ein Beispielmittelwert von 280 Grammen würde jedoch äußerst selten sein, wenn der Mittelinhalt der Tassen tatsächlich 250 Grammen nah ist. Es gibt einen ganzen Zwischenraum um den beobachteten Wert 250.2 Gramme der bösartigen Probe, innerhalb dessen wenn die ganze Bevölkerung bösartig wirklich einen Wert in dieser Reihe nimmt, würden die beobachteten Daten besonders ungewöhnlich nicht betrachtet. Solch ein Zwischenraum wird ein Vertrauensintervall nach dem Parameter μ genannt. Wie berechnen wir solch einen Zwischenraum? Die Endpunkte des Zwischenraums müssen von der Probe berechnet werden, so sind sie Statistik, Funktionen der Probe X..., X und folglich zufälligen Variablen selbst.

In unserem Fall können wir die Endpunkte bestimmen, indem wir denken, dass die von einer normalerweise verteilten Probe bösartige Probe auch normalerweise, mit derselben Erwartung μ, aber mit einem Standardfehler verteilt wird:

:Indem

wir standardisieren, bekommen wir eine zufällige Variable

:

Abhängiger auf dem Parameter μ, um geschätzt zu werden, aber mit einer Standardnormalverteilung, die des Parameters μ unabhängig ist. Folglich ist es möglich, Zahlen z und z zu finden, der von μ unabhängig ist, zwischen dem Z mit der Wahrscheinlichkeit 1  α, ein Maß dessen liegt, wie überzeugt wir sein wollen. Wir nehmen 1  α = 0.95. So haben wir:

:

Die Nummer z folgt aus der kumulativen Vertriebsfunktion, in diesem Fall die kumulative Normalverteilungsfunktion:

:

\begin {richten }\aus

\Phi (z) & = P (Z \le z) = 1 - \tfrac {\\Alpha} 2 = 0.975, \\[6pt]

z & = \Phi^ {-1} (\Phi (z)) = \Phi^ {-1} (0.975) = 1.96,

\end {richten }\aus

</Mathematik>

und wir kommen:

: \begin {richten }\aus

0.95 & = 1-\alpha=P (-z \le Z \le z) =P \left (-1.96 \le \frac {\\Bar X-\mu} {\\sigma/\sqrt {n}} \le 1.96 \right) \\[6pt]

& = P \left (\bar X - 1.96 \frac {\\Sigma} {\\sqrt {n}} \le \mu \le \bar X + 1.96 \frac {\\Sigma} {\\sqrt {n} }\\Recht) \\[6pt]

& = P\left (\bar X - 1.96 \times 0.5 \le \mu \le \bar X + 1.96 \times 0.5\right) \\[6pt]

& = P \left (\bar X - 0.98 \le \mu \le \bar X + 0.98 \right).

\end {richten }\aus</Mathematik>

Das könnte als interpretiert werden: Mit der Wahrscheinlichkeit 0.95 werden wir ein Vertrauensintervall finden, in dem wir den Parameter μ zwischen den stochastischen Endpunkten entsprechen werden

:

und

:

Das bedeutet nicht, dass es 0.95 Wahrscheinlichkeit gibt, den Parameter μ im erhaltenen Zwischenraum durch das Verwenden des zurzeit geschätzten Werts der Probe bösartig, zu entsprechen

:

Statt dessen jedes Mal, wenn die Maße wiederholt werden, wird es einen anderen Wert für die bösartige von der Probe geben. In 95 % der Fälle wird μ zwischen den davon berechneten Endpunkten sein bedeuten, aber in 5 % der Fälle wird es nicht sein. Das wirkliche Vertrauensintervall wird durch das Eingehen in die gemessenen Massen in der Formel berechnet. Unser 0.95 Vertrauensintervall wird:

:

Als der Sollwert sind 250 von μ innerhalb des resultierten Vertrauensintervalls, es gibt keinen Grund zu glauben, dass die Maschine falsch kalibriert wird.

Der berechnete Zwischenraum hat Endpunkte befestigt, wo μ zwischen (oder nicht) sein könnte. So hat dieses Ereignis Wahrscheinlichkeit entweder 0 oder 1. Man kann nicht sagen: "Mit der Wahrscheinlichkeit (1  α) liegt der Parameter μ im Vertrauensintervall." Ein einziger weiß, dass durch die Wiederholung in 100 (1  α) der % der Fälle, μ im berechneten Zwischenraum sein wird. In 100α % der Fälle jedoch tut es nicht. Und leider weiß man nicht, in welchem von den Fällen das geschieht. Deshalb kann man sagen: "Mit dem Vertrauensniveau 100 (1  α) liegt %, μ im Vertrauensintervall."

Die Figur auf dem Recht zeigt, dass 50 Verwirklichungen eines Vertrauensintervalls für eine gegebene Bevölkerung μ bedeuten. Wenn wir zufällig eine Verwirklichung wählen, ist die Wahrscheinlichkeit 95 % wir enden, einen Zwischenraum gewählt, der den Parameter enthält; jedoch können wir unglücklich sein und haben den falschen aufgepickt. Wir werden nie wissen; wir werden mit unserem Zwischenraum durchstochen.

Theoretisches Beispiel

Denken Sie X..., X sind eine unabhängige Probe von einer normalerweise verteilten Bevölkerung mit Mittel-μ und Abweichung (von Rahmen) σ. Lassen Sie

::

Wo; ist die Statistik: Probe bösartig, und S ist die Beispielabweichung. Dann

:

hat einen T-Vertrieb eines Studenten mit n  1 Grade der Freiheit. Bemerken Sie, dass der Vertrieb von T von den Werten der unbeobachtbaren Rahmen μ und σ nicht abhängt; d. h. es ist eine Angelmenge. Nehmen Sie an, dass wir ein 90-%-Vertrauensintervall für μ haben berechnen wollen. Dann, c als der 95. Prozentanteil dieses Vertriebs, anzeigend

:

(Zeichen: "95." und "0.9" sind in den vorhergehenden Ausdrücken richtig. Es gibt eine 5-%-Chance, dass T weniger sein wird als c und eine 5-%-Chance, dass es größer sein wird als +c. So ist die Wahrscheinlichkeit, dass T zwischen c und +c sein wird, 90 %.)

Folglich

:

und wir haben ein theoretisches (stochastisches) 90-%-Vertrauensintervall für μ.

Nach dem Beobachten der Probe finden wir Werte für und s für S, von dem wir das Vertrauensintervall schätzen

:

ein Zwischenraum mit festgelegten Zahlen als Endpunkte, von denen wir nicht mehr sagen können, gibt es eine bestimmte Wahrscheinlichkeit es enthält den Parameter μ; entweder μ ist in diesem Zwischenraum oder ist nicht.

Beziehung zur Hypothese-Prüfung

Während die Formulierungen der Begriffe von Vertrauensintervallen und der statistischen Hypothese-Prüfung verschieden sind, sind sie in einigen Sinnen verbunden und einigermaßen ergänzend. Während nicht alle Vertrauensintervalle auf diese Weise gebaut werden, soll eine allgemeine Zweck-Annäherung an das Konstruieren von Vertrauensintervallen 100 (1  α) %-Vertrauensintervall definieren, um aus allen jenen Werten θ zu bestehen, für den ein Test der Hypothese θ = θ an einer Signifikanzebene 100α % nicht zurückgewiesen wird. Solch eine Annäherung kann nicht immer verfügbar sein, da sie die praktische Verfügbarkeit eines passenden Bedeutungstests voraussetzt. Natürlich würden irgendwelche für den Bedeutungstest erforderlichen Annahmen zu den Vertrauensintervallen vortragen.

Es kann günstig sein, die allgemeine Ähnlichkeit zu machen, dass Parameter-Werte innerhalb eines Vertrauensintervalls zu jenen Werten gleichwertig sind, die durch einen Hypothese-Test nicht zurückgewiesen würden, aber das würde gefährlich sein. In vielen Beispielen sind die Vertrauensintervalle, die angesetzt werden, nur, vielleicht abgeleiteten "plus oder minus zweimal der Standardfehler" ungefähr gültig, und die Implikationen davon für die vermutlich entsprechenden Hypothese-Tests sind gewöhnlich unbekannt.

Die Bedeutung und Interpretation

Für Benutzer von frequentist Methoden können verschiedene Interpretationen eines Vertrauensintervalls gegeben werden.

  • Das Vertrauensintervall kann in Bezug auf Proben (oder wiederholte Proben) ausgedrückt werden: "Waren dieses Verfahren, das auf vielfachen Proben, das berechnete Vertrauensintervall zu wiederholen ist (der sich für jede Probe unterscheiden würde), würde den wahren Parameter der Grundgesamtheit 90 % der Zeit umfassen." Bemerken Sie, dass das nicht wiederholt zu werden braucht, von derselben Bevölkerung, gerade wiederholte Stichprobenerhebung ausfallend.
  • Die Erklärung eines Vertrauensintervalls kann sich auf etwas belaufen wie: "Das Vertrauensintervall vertritt Werte für den Parameter der Grundgesamtheit, für den der Unterschied zwischen dem Parameter und der beobachteten Schätzung am 10-%-Niveau nicht statistisch bedeutend ist". Tatsächlich bezieht sich das auf einen besonderen Weg, auf den ein Vertrauensintervall gebaut werden kann.
  • Die mit einem Vertrauensintervall vereinigte Wahrscheinlichkeit kann auch aus einem Vorexperiment-Gesichtspunkt in demselben Zusammenhang betrachtet werden, in dem Argumente für die zufällige Zuteilung von Behandlungen, Sachen zu studieren, gemacht werden. Hier legt der Experimentator den Weg dar, auf den sie vorhaben, ein Vertrauensintervall zu berechnen und zu wissen, bevor sie den wirklichen Versuch anstellen, dass der Zwischenraum, den sie damit enden werden zu berechnen, eine bestimmte Chance hat, den wahren, aber unbekannten Wert zu bedecken. Das ist der "wiederholten" Beispielinterpretation oben sehr ähnlich, außer dass sie vermeidet, sich auf das Betrachten hypothetischer Wiederholungen eines ausfallenden Verfahrens zu verlassen, das repeatable in keinem bedeutungsvollen Sinn sein kann. Sieh Neyman Aufbau.

In jedem der obengenannten gilt der folgende: Wenn der wahre Wert des Parameters außerhalb des 90-%-Vertrauensintervalls liegt, sobald es berechnet worden ist, dann ist ein Ereignis vorgekommen, der eine Wahrscheinlichkeit von 10 % (oder weniger) des Ereignisses zufällig hatte.

Bedeutung des Begriffes "Vertrauen"

Es gibt einen Unterschied in der Bedeutung zwischen dem allgemeinen Gebrauch des Wortes "Vertrauen" und seinem statistischen Gebrauch, der häufig dem Laien verwirrend ist, und das eine der Kritiken von Vertrauensintervallen nämlich ist, dass in der Anwendung von Nichtstatistikern der Begriff "Vertrauen" irreführend ist.

Im allgemeinen Gebrauch wird ein Anspruch auf 95-%-Vertrauen zu etwas normalerweise als das Anzeigen virtueller Gewissheit genommen. In der Statistik bedeutet ein Anspruch auf 95-%-Vertrauen einfach, dass der Forscher etwas gesehen hat vorkommen, der weniger als ein Mal mit 20 geschieht. Wenn man zwei Würfel rollen und doppelt sechs werden sollte (der 1/36. der Zeit, oder ungefähr 3 % geschieht), würden wenige das als Beweis fordern, dass die Würfel befestigt wurden, obwohl statistisch sprechend konnte man 97-%-Vertrauen haben, dass sie waren. Ähnlich ist die Entdeckung einer statistischen Verbindung an 95-%-Vertrauen nicht Beweis, noch sogar sehr gute Beweise, dass es jede echte Verbindung zwischen den verbundenen Dingen gibt.

Wenn eine Studie mit vielfachen statistischen Tests verbunden ist, neigen Leute dazu anzunehmen, dass das mit individuellen Tests vereinigte Vertrauen das Vertrauen ist, das man in den Ergebnissen der Studie selbst haben sollte. Tatsächlich müssen die Ergebnisse aller statistischen während einer Studie geführten Tests als Ganzes in der Bestimmung beurteilt werden, welches Vertrauen man in die positiven Verbindungen legen kann, die es erzeugt. Sagen Sie zum Beispiel, dass eine Studie geführt wird, der 40 statistische Tests an 95-%-Vertrauen einschließt, und der 3 positive Ergebnisse erzeugt. Jeder Test hat eine 5-%-Chance, einen falschen positiven zu erzeugen, so wird solch eine Studie 3 falsche positives ungefähr zweimal in drei erzeugen. So ist das Vertrauen man kann das einige der positiven Beschlüsse der Studie haben, richtig ist nur ungefähr 32 % ganz unter den 95 %, die die Forscher als ihr Standard der Annahme gesetzt haben.

Alternativen und Kritiken

Vertrauensintervalle sind eine Methode der Zwischenraum-Bewertung, und am weitesten verwendet in der frequentist Statistik.

Ein analoges Konzept in der Statistik von Bayesian ist glaubwürdige Zwischenräume,

während eine Alternative frequentist Methode die von Vorhersagezwischenräumen ist, die, anstatt Rahmen zu schätzen, das Ergebnis von zukünftigen Proben schätzen. Für andere Annäherungen an das Ausdrücken der Unklarheit mit Zwischenräumen, sieh Zwischenraum-Bewertung.

Es gibt Unstimmigkeit, über welche dieser Methoden die nützlichsten Ergebnisse erzeugt: Die Mathematik der Berechnung ist selten in Frage-Vertrauensintervallen, die auf dem ausfallenden Vertrieb, glaubwürdige Zwischenräume basieren, die auf dem Lehrsatz von Buchten basieren - aber die Anwendung dieser Methoden, des Dienstprogrammes und Interpretation der erzeugten Statistik, wird diskutiert.

Benutzer von Methoden von Bayesian, wenn sie eine Zwischenraum-Schätzung erzeugt haben, würden im Gegensatz zu Vertrauensintervallen, "Meinen Grad des Glaubens sagen wollen, dass der Parameter tatsächlich in diesem Zwischenraum ist, ist 90 %," während Benutzer von Vorhersagezwischenräumen stattdessen sagen würden, dass "Ich voraussage, dass die folgende Probe in diesem Zwischenraum 90 % der Zeit fallen wird."

Vertrauensintervalle sind ein Ausdruck der Wahrscheinlichkeit und sind den normalen Gesetzen der Wahrscheinlichkeit unterworfen. Wenn mehreren Statistiken Vertrauensintervalle, jeder berechnet getrennt auf der Annahme der Unabhängigkeit geboten wird, muss diese Annahme beachtet werden, oder die Berechnungen werden Invalide gemacht. Zum Beispiel, wenn ein Forscher eine Reihe von Statistiken mit Zwischenräumen erzeugt und einige von ihnen als bedeutend auswählt, macht die Tat des Auswählens die Berechnungen ungültig, die verwendet sind, um die Zwischenräume zu erzeugen.

Philosophische Probleme

Der Grundsatz hinter Vertrauensintervallen wurde formuliert, um eine Antwort auf die Frage zur Verfügung zu stellen, die in der statistischen Schlussfolgerung dessen aufgebracht ist, wie man sich mit der Ergebnissen innewohnenden Unklarheit befasst, ist auf Daten zurückzuführen gewesen, die selbst nur eine zufällig ausgewählte Teilmenge einer kompletten statistischen Bevölkerung von möglichem datasets sind. Es gibt andere Antworten, namentlich das, das durch die Schlussfolgerung von Bayesian in der Form von glaubwürdigen Zwischenräumen zur Verfügung gestellt ist. Die Idee von Vertrauensintervallen besteht darin, dass sie einer gewählten Regel entsprechen, für die Vertrauensgrenzen zu bestimmen, wo diese Regel im Wesentlichen bestimmt wird, bevor irgendwelche Daten erhalten werden, oder bevor ein Versuch angestellt wird. Das Kriterium, um diese Regel zu wählen, ist, dass über den ganzen möglichen datasets, der erhalten werden könnte, es eine hohe Wahrscheinlichkeit gibt, dass der durch die Regel bestimmte Zwischenraum den wahren Wert der Menge unter der Rücksicht einschließen wird. Das ist eine ziemlich aufrichtige und angemessene Weise, eine Regel anzugeben, um Unklarheitszwischenräume zu bestimmen. Die Bayesian-Annäherung scheint, Zwischenräume anzubieten, die, Thema der Annahme einer Interpretation "der Wahrscheinlichkeit" als Wahrscheinlichkeit von Bayesian können, als das Meinen interpretiert werden, dass der spezifische von einem gegebenen dataset berechnete Zwischenraum eine bestimmte Wahrscheinlichkeit des Umfassens des wahren Werts hat, der durch die Daten und andere verfügbare Information bedingt ist. Die Vertrauensintervall-Annäherung erlaubt das nicht, da in dieser Formulierung und in dieser derselben Bühne sowohl die Grenzen des Zwischenraums als auch die wahren Werte Werte befestigt werden und es keine beteiligte Zufälligkeit gibt.

Zum Beispiel, im in der Einführung entworfenen Wahlbeispiel, könnte eine Interpretation des gesunden Menschenverstands eines "95-%-Zwischenraums" sein, dass Leser dieser Information um 95 % überzeugt sein können, dass die wirkliche Zahl von Stimmberechtigten, die vorhaben, für die fragliche Partei zu stimmen, zwischen 36 % bis 44 % ist. Jedoch ist das technisch falsch. Die wirkliche Bedeutung von Vertrauensniveaus und Vertrauensintervallen ist eher feiner. Im obengenannten Fall würde eine richtige Interpretation wie folgt sein: Wenn die Stimmabgabe eine Vielzahl von Zeiten wiederholt wurde (Sie konnten ein 95-%-Vertrauensintervall für Ihr abstimmendes Vertrauensintervall erzeugen), jedes Mal ungefähr ein 95-%-Vertrauensintervall von der Wahlprobe erzeugend, dann würden etwa 95 % der erzeugten Zwischenräume den wahren Prozentsatz von Stimmberechtigten enthalten, die vorhaben, für die gegebene Partei zu stimmen. Jedes Mal, wenn die Stimmabgabe wiederholt wird, wird ein verschiedenes Vertrauensintervall erzeugt; folglich ist es nicht möglich, absolute Erklärungen über Wahrscheinlichkeiten für irgendwelchen gegebenen Zwischenraum abzugeben. Für mehr Information, sieh die Abteilung bei der Bedeutung und Interpretation.

Die Fragen dessen, wie eine Zwischenraum-Ausdrücken-Unklarheit in einer Schätzung, und davon formuliert werden könnte, wie solche Zwischenräume interpretiert werden könnten, sind nicht ausschließlich mathematische Probleme und sind philosophisch problematisch. Mathematik kann übernehmen, sobald die Kernprinzipien einer Annäherung an die Schlussfolgerung gegründet worden sind, aber es hat nur eine beschränkte Rolle im Ausspruch, warum eine Annäherung einem anderen bevorzugt werden sollte.

Vertrauensintervalle für Verhältnisse und verwandte Mengen

Ein ungefähres Vertrauensintervall für eine bösartige Bevölkerung kann für zufällige Variablen gebaut werden, die in der Bevölkerung nicht normalerweise verteilt werden, sich auf den Hauptgrenzwertsatz verlassend, wenn die Beispielgrößen und Zählungen groß genug sind. Die Formeln sind zum Fall oben identisch (wo die bösartige Probe wirklich normalerweise über die Bevölkerung bösartig verteilt wird). Die Annäherung wird mit nur einigen Dutzend Beobachtungen in der Probe ziemlich gut sein, wenn der Wahrscheinlichkeitsvertrieb der zufälligen Variable von der Normalverteilung nicht zu verschieden ist (z.B, hat seine kumulative Vertriebsfunktion keine Diskontinuitäten, und seine Schiefe ist gemäßigt).

Ein Typ der bösartigen Probe ist die bösartige von einer Anzeigevariable, die den Wert 1 für den wahren und den Wert 0 für den falschen übernimmt. Die bösartige von solch einer Variable ist dem Verhältnis gleich, die die Variable haben, die einer (sowohl in der Bevölkerung als auch in jeder Probe) gleich ist. Das ist ein nützliches Eigentum von Anzeigevariablen besonders für die Hypothese-Prüfung. Um den Hauptgrenzwertsatz anzuwenden, muss man eine genug große Probe verwenden. Eine raue Faustregel besteht darin, dass man mindestens 5 Fälle sehen sollte, in denen der Hinweis 1 und mindestens 5 ist, in denen es 0 ist. Das gebaute Verwenden von Vertrauensintervallen der obengenannten Formeln kann negative Zahlen oder Zahlen einschließen, die größer sind als 1, aber Verhältnisse können offensichtlich nicht negativ sein oder 1 zu weit gehen. Zusätzlich können Beispielverhältnisse nur eine begrenzte Zahl von Werten übernehmen, so sind der Hauptgrenzwertsatz und die Normalverteilung nicht die besten Werkzeuge, für ein Vertrauensintervall zu bauen. Sieh "Binomisches Verhältnis-Vertrauensintervall" für bessere Methoden, die zu diesem Fall spezifisch sind.

Siehe auch

Online-Rechenmaschinen

Bibliografie

Außenverbindungen


Mark Herron / David Rose
Impressum & Datenschutz