Statistische Macht

Die Macht eines statistischen Tests ist die Wahrscheinlichkeit, dass der Test die ungültige Hypothese zurückweisen wird, wenn die ungültige Hypothese (d. h. die Wahrscheinlichkeit falsch ist, einen Fehler des Typs II nicht zu begehen, oder eine falsche negative Entscheidung zu treffen). Die Macht ist im Allgemeinen eine Funktion des möglichen Vertriebs, der häufig durch einen Parameter laut der alternativen Hypothese bestimmt ist. Weil die Macht, die Chancen eines Fehlers des Typs II zunimmt, der Abnahme vorkommt. Die Wahrscheinlichkeit eines Fehlerauftretens des Typs II wird die falsche negative Rate (β) genannt. Deshalb ist Macht 1 &minus gleich; β, der auch bekannt als die Empfindlichkeit ist.

Macht-Analyse kann verwendet werden, um zu rechnen, die minimale Beispielgröße hat verlangt, so dass man vernünftig wahrscheinlich sein kann, eine Wirkung einer gegebenen Größe zu entdecken. Macht-Analyse kann auch verwendet werden, um die minimale Wirkungsgröße zu berechnen, die wahrscheinlich in einer Studie mit einer gegebenen Beispielgröße entdeckt wird. Außerdem wird das Konzept der Macht verwendet, um Vergleiche zwischen verschiedenen statistischen Probeverfahren zu machen: zum Beispiel, zwischen einem parametrischen und einem nichtparametrischen Test derselben Hypothese.

Hintergrund

Statistische Tests verwenden Daten von Proben, um Schlussfolgerungen über, eine Bevölkerung zu bewerten, oder zu machen. In der konkreten Einstellung eines Zwei-Proben-Vergleichs ist die Absicht zu bewerten, ob sich die Mittelwerte etwas Attributes, das für Personen in zwei Subbevölkerungen erhalten ist, unterscheiden. Zum Beispiel, um die ungültige Hypothese zu prüfen, dass sich die Mittelhunderte von Männern und Frauen auf einem Test nicht unterscheiden, werden Proben von Männern und Frauen gezogen, der Test wird zu ihnen verwaltet, und die Mittelkerbe einer Gruppe ist im Vergleich zu dieser der anderen Gruppe, die einen statistischen Test wie der Zwei-Proben-Z-Test verwendet. Die Macht des Tests ist die Wahrscheinlichkeit, dass der Test einen statistisch bedeutenden Unterschied zwischen Männern und Frauen als eine Funktion der Größe des wahren Unterschieds zwischen jenen zwei Bevölkerungen finden wird. Bemerken Sie, dass Macht die Wahrscheinlichkeit ist, einen Unterschied zu finden, der wirklich im Vergleich mit der Wahrscheinlichkeit besteht, einen Unterschied zu erklären, der nicht besteht (der als ein Fehler des Typs I, oder "falscher positiv" bekannt ist).

Faktoren, die Macht beeinflussen

Statistische Macht kann von mehreren Faktoren abhängen. Einige dieser Faktoren können zu einer spezifischen Probesituation besonder sein, aber an einem Minimum hängt Macht fast immer von den folgenden drei Faktoren ab:

  • das statistische Bedeutungskriterium, das im Test verwendet ist
  • der Umfang der Wirkung von Interesse in der Bevölkerung
  • die Beispielgröße hat gepflegt, die Wirkung zu entdecken

Ein Bedeutungskriterium ist eine Behauptung dessen, wie kaum ein Ergebnis sein muss, wenn die ungültige Hypothese wahr ist, um bedeutend betrachtet zu werden. Die meistens verwendeten Kriterien sind Wahrscheinlichkeiten 0.05 (5 %, 1 in 20), 0.01 (1 %, 1 in 100), und 0.001 (0.1 %, 1 in 1000). Wenn das Kriterium 0.05, die Wahrscheinlichkeit ist, die beobachtete Wirkung zu erhalten, wenn die ungültige Hypothese wahr ist, muss weniger als 0.05 und so weiter sein. Eine leichte Weise, die Macht eines Tests zu vergrößern, ist, einen weniger konservativen Test durch das Verwenden eines größeren Bedeutungskriteriums auszuführen. Das vergrößert die Chance, die ungültige Hypothese zurückzuweisen (d. h. ein statistisch bedeutendes Ergebnis zu erhalten), wenn die ungültige Hypothese falsch ist, d. h. reduziert die Gefahr eines Fehlers des Typs II. Aber es vergrößert auch die Gefahr, ein statistisch bedeutendes Ergebnis zu erhalten, wenn die ungültige Hypothese wahr ist; d. h. es vergrößert die Gefahr eines Fehlers des Typs I.

Der Umfang der Wirkung von Interesse in der Bevölkerung kann in Bezug auf eine Wirkungsgröße gemessen werden, wo es größere Macht gibt, größere Effekten zu entdecken. Eine Wirkungsgröße kann eine direkte Schätzung der Menge von Interesse sein, oder es kann ein standardisiertes Maß sein, das auch für die Veränderlichkeit in der Bevölkerung verantwortlich ist. Zum Beispiel, in einer Analyse, die Ergebnisse in einem behandelten und Kontrollbevölkerung vergleicht, bedeutet der Unterschied des Ergebnisses − würde ein direktes Maß der Wirkungsgröße, wohingegen sein (&minus)/σ, wo σ die allgemeine Standardabweichung der Ergebnisse im behandelten und den Kontrollgruppen ist, würde eine standardisierte Wirkungsgröße sein. Wenn gebaut, passend wird eine standardisierte Wirkungsgröße, zusammen mit der Beispielgröße, die Macht völlig bestimmen. Eine unstandardisierte (direkte) Wirkungsgröße wird selten genügend sein, um die Macht zu bestimmen, weil es Information über die Veränderlichkeit in den Maßen nicht enthält.

Die Beispielgröße bestimmt den Betrag des einem Testergebnis innewohnenden Stichprobenfehlers. Unter sonst gleichen Umständen sind Effekten härter, in kleineren Proben zu entdecken. Erhöhung der Beispielgröße ist häufig die leichteste Weise, die statistische Macht eines Tests zu erhöhen.

Die Präzision, mit der die Daten auch Einflüsse statistische Macht gemessen werden. Folglich kann Macht häufig durch das Reduzieren des Maß-Fehlers in den Daten verbessert werden. Ein zusammenhängendes Konzept soll die "Zuverlässigkeit" des Maßes verbessern, das (als in der psychometrischen Zuverlässigkeit) wird bewertet.

Das Design eines Experimentes oder Beobachtungsstudie beeinflusst häufig die Macht. Zum Beispiel, in einer Zwei-Proben-Probesituation mit einer gegebenen Gesamtauswahl-Größe n, ist es optimal, um gleiche Anzahlen von Beobachtungen von den zwei Bevölkerungen zu haben, die vergleichen werden (als lange, weil die Abweichungen in den zwei Bevölkerungen dasselbe sind). In der Regressionsanalyse und Analyse der Abweichung gibt es eine umfassende Theorie und praktische Strategien, für die Macht zu verbessern, die auf dem optimalen Setzen der Werte der unabhängigen Variablen im Modell gestützt ist.

Interpretation

Obwohl es keine formellen Standards für die Macht gibt (manchmal verwiesen als π), bewerten die meisten Forscher die Macht ihrer Tests mit π = 0.80 als ein Standard für die Angemessenheit. Diese Tagung bezieht vier zu einem Handel von zwischen β-risk und α-risk ein. (β ist die Wahrscheinlichkeit eines Fehlers des Typs II; α ist die Wahrscheinlichkeit eines Fehlers des Typs I, 0.2 und 0.05 sind herkömmliche Werte für β und α, β = 1-π seiend). Jedoch wird es Zeiten geben, wenn das 4 zu 1 Gewichtung unpassend ist. In der Medizin, zum Beispiel, werden Tests häufig auf solche Art und Weise entworfen, dass keine falschen Negative (Fehler des Typs II) erzeugt werden. Aber das erhebt unvermeidlich die Gefahr, einen falschen positiven (ein Fehler des Typs I) zu erhalten. Das Grundprinzip ist, dass es besser ist, einem gesunden Patienten zu erzählen, dass "wir etwas gefunden haben können - wollen wir weiter prüfen," als, einem kranken Patienten zu erzählen, "ist alles gut."

Macht-Analyse ist passend, wenn die Sorge mit der richtigen Verwerfung, oder nicht von einer ungültigen Hypothese ist. In vielen Zusammenhängen ist das Problem weniger über die Bestimmung, wenn es gibt oder nicht ein Unterschied, aber eher mit dem Bekommen einer mehr raffinierten Schätzung der Bevölkerungswirkungsgröße ist. Zum Beispiel, wenn wir erwarteten, dass eine Bevölkerungskorrelation zwischen Intelligenz und Arbeitsleistung von ungefähr.50, eine Beispielgröße 20 uns etwa 80 % Macht (Alpha =.05, zwei-Schwänze-) geben wird, um die ungültige Hypothese der Nullkorrelation zurückzuweisen. Jedoch im Tun dieser Studie interessieren wir uns wahrscheinlich mehr für das Wissen, ob die Korrelation.30 oder.60 oder.50 ist. In diesem Zusammenhang würden wir eine viel größere Beispielgröße brauchen, um das Vertrauensintervall unserer Schätzung zu einer Reihe zu reduzieren, die zu unseren Zwecken annehmbar ist. Techniken, die denjenigen ähnlich sind, die in einer traditionellen Macht-Analyse verwendet sind, können verwendet werden, um die für die Breite eines Vertrauensintervalls erforderliche Beispielgröße zu bestimmen, weniger als ein gegebene Wert zu sein.

Viele statistische Analysen sind mit der Bewertung von mehreren unbekannten Mengen verbunden. In einfachen Fällen sind alle außer einer dieser Mengen ein Ärger-Parameter. In dieser Einstellung gehört die einzige relevante Macht der einzelnen Menge, die formelle statistische Schlussfolgerung erleben wird. In einigen Einstellungen, besonders wenn die Absichten mehr "Forschungs-" sind, kann es mehrere Mengen von Interesse in der Analyse geben. Zum Beispiel in einer vielfachen Regressionsanalyse können wir mehrere covariates vom potenziellen Interesse einschließen. In Situationen wie das, wo mehrere Hypothesen unter der Rücksicht sind, ist es üblich, dass sich die mit den verschiedenen Hypothesen vereinigten Mächte unterscheiden. Zum Beispiel, in der vielfachen Regressionsanalyse, ist die Macht, für eine Wirkung einer gegebenen Größe zu entdecken, mit der Abweichung des covariate verbunden. Da verschiedener covariates verschiedene Abweichungen haben wird, werden sich ihre Mächte ebenso unterscheiden.

Jede statistische Analyse, die mit vielfachen Hypothesen verbunden ist, ist der Inflation der Fehlerrate des Typs I unterworfen, wenn passende Maßnahmen nicht ergriffen werden. Solche Maßnahmen schließen normalerweise Verwendung einer höheren Schwelle der Strenge ein, um eine Hypothese zurückzuweisen, um die vielfachen Vergleiche zu ersetzen, die (z.B als in der Methode von Bonferroni) machen werden. In dieser Situation sollte die Macht-Analyse widerspiegeln, dass sich die vielfache Prüfung nähert, um verwendet zu werden. So, zum Beispiel, kann eine gegebene Studie gut angetrieben werden, um eine bestimmte Wirkungsgröße zu entdecken, wenn nur ein Test gemacht werden soll, aber dieselbe Wirkungsgröße kann viel niedrigere Macht haben, wenn mehrere Tests durchgeführt werden sollen.

A priori gegen den Posten hoc Analyse

Macht-Analyse kann entweder getan werden vorher (a priori oder zukünftige Macht-Analyse) oder danach (schlagen hoc oder rückblickende Macht-Analyse an), werden Daten gesammelt. A priori Macht-Analyse wird vor der Forschungsstudie geführt, und wird normalerweise im Schätzen von genügend Beispielgrößen verwendet, entsprechende Macht zu erreichen. Post-hoc Macht-Analyse wird geführt, nachdem eine Studie vollendet worden ist, und die erhaltene Beispielgröße und Wirkungsgröße verwendet, um zu bestimmen, was die Macht in der Studie war, annehmend, dass die Wirkungsgröße in der Probe der Wirkungsgröße in der Bevölkerung gleich ist. Wohingegen das Dienstprogramm der zukünftigen Macht-Analyse im Versuchsplan allgemein akzeptiert wird, ist die Nützlichkeit von rückblickenden Techniken umstritten. Das Reinfallen auf die Versuchung, die statistische Analyse der gesammelten Daten zu verwenden, um die Macht zu schätzen, wird auf uninformative und irreführende Werte hinauslaufen.

Anwendung

Agenturen finanziell unterstützend, bitten Ethik-Ausschüsse und Forschungsrezensionstafeln oft, dass ein Forscher eine Macht-Analyse durchführt, um zum Beispiel die minimale Zahl von für ein Experiment erforderlichen Tiertestthemen zu bestimmen, um informativ zu sein. In der frequentist Statistik wird eine Underpowered-Studie kaum erlauben, zwischen Hypothesen an der gewünschten Signifikanzebene zu wählen. In der Bayesian Statistik wird die Hypothese-Prüfung des in der klassischen Macht-Analyse verwendeten Typs nicht getan. Im Fachwerk von Bayesian aktualisiert man seinen oder ihren vorherigen Glauben mit den in einer gegebenen Studie erhaltenen Daten. Im Prinzip konnte eine Studie, die underpowered von der Perspektive der Hypothese-Prüfung gehalten würde, noch in solch einem aktualisierenden Prozess verwendet werden. Jedoch bleibt Macht ein nützliches Maß dessen, wie viel, wie man erwarten kann, eine gegebene Experiment-Größe jemandes Glauben raffiniert. Eine Studie mit der niedrigen Macht wird kaum zu einer großen Änderung im Glauben führen.

Beispiel

Wir studieren die Wirkung einer Behandlung auf etwas Menge, und vergleichen Forschungsthemen, indem wir die Menge vorher und nach der Behandlung messen, die Daten mit einem paarweise angeordneten T-Test analysierend. Lassen Sie, zeigen Sie die Vorbehandlungs- und Postbehandlungsmaßnahmen auf dem Thema i an. Die mögliche Wirkung der Behandlung sollte in den Unterschieden sichtbar sein, die wir annehmen, um, alle mit demselben erwarteten Wert und Abweichung unabhängig verteilt zu werden.

Wir gehen weiter, indem wir D als in einem einseitigen T-Test analysieren. Die ungültige Hypothese wird sein: (keine Wirkung), und die Alternative: (positive Wirkung). Der statistische Test ist:

:

wo n die Beispielgröße ist, der Durchschnitt ist und die Beispielabweichung ist. Die ungültige Hypothese wird wenn zurückgewiesen

:

mit 1.64 die ungefähre Entscheidungsschwelle für einen Test des Niveaus 0.05, der auf einer normalen Annäherung an den statistischen Test gestützt ist.

Nehmen Sie jetzt an, dass die alternative Hypothese wahr ist und. Dann ist die Macht

:

\begin {Reihe} {ccl }\

\pi (\tau) &=&P (\sqrt {n }\\Bar {D}/\hat {\\Sigma} _D> 1.64 |\tau) \\

&=&P \left (\sqrt {n} (\bar {D}-\tau +\tau)/\hat {\\Sigma} _D> 1.64\right |\tau) \\

&=& P\left (\sqrt {n} (\bar {D}-\tau)/\hat {\\Sigma} _D> 1.64-\sqrt {n }\\tau/\hat {\\Sigma} _D\right |\tau) \\

\end {ordnen }\</Mathematik>

Seitdem ungefähr folgt einer Standardnormalverteilung, wenn die alternative Hypothese wahr ist, kann die ungefähre Macht als berechnet werden

:

Bemerken Sie, dass gemäß dieser Formel die Macht mit den Werten des Parameters zunimmt. Weil ein spezifischer Wert einer höheren Macht durch die Erhöhung der Beispielgröße n erhalten werden kann.

Es ist natürlich, nicht möglich, eine genügend große Macht für alle Werte dessen zu versichern, wie sehr 0 nah sein kann. Tatsächlich ist das Minimum (infimum) Wert der Macht der Größe des Tests, in diesem Beispiel 0.05 gleich. Jedoch ist es von keiner Wichtigkeit, um zwischen und kleine positive Werte zu unterscheiden. Wenn es wünschenswert ist, genug Macht, sagen wir mindestens 0.90 zu haben, Werte dessen zu entdecken, kann die erforderliche Beispielgröße ungefähr berechnet werden:

:

\pi (1) \approx 1-\Phi (1.64-\sqrt {n}/\hat {\\Sigma} _D)> 0{.} 90\,

</Mathematik>

von der hieraus folgt dass

:

Folglich

:oder:

Siehe auch

  • Wirkungsgröße
  • Beispielgröße
  • Lemma von Neyman-Pearson
  • Gleichförmig stärkster Test

Referenzen

  • Cohen, J.: Statistische Macht-Analyse für die Verhaltenswissenschaften. (2. Hrsg.) 1988. Internationale Standardbuchnummer 0-8058-0283-5.
  • Aberson, C. L.: Gewandte Macht-Analyse für die Verhaltenswissenschaft. 2010. Internationale Standardbuchnummer 1-84872-835-2.

Links

Weitere Erklärungen


Haptoglobin / Nordwestwinkel
Impressum & Datenschutz