Statistische Bedeutung

In der Statistik wird ein Ergebnis "statistisch bedeutend" genannt, wenn es kaum zufällig vorgekommen sein wird. Der Ausdruck-Test der Bedeutung wurde von Ronald Fisher ins Leben gerufen.

So verwendet in der Statistik, bedeutend bedeutet wichtig oder bedeutungsvoll nicht, wie sie in der Alltagssprache tut. Forschungsanalytiker, die sich allein auf bedeutende Ergebnisse konzentrieren, können wichtige Ansprechmuster verpassen, die individuell unter dem Schwellensatz für Tests der Bedeutung fallen können. Viele Forscher drängen, dass Tests der Bedeutung immer durch Wirkungsgröße-Statistiken begleitet werden sollten, die der Größe und so der praktischen Wichtigkeit vom Unterschied näher kommen.

Der Betrag von Beweisen, die erforderlich sind zu akzeptieren, dass ein Ereignis kaum zufällig entstanden sein wird, ist als die Signifikanzebene oder der kritische P-Wert bekannt: In traditionellem Fisherian statistische Hypothese-Prüfung ist der P-Wert die Wahrscheinlichkeit, Daten mindestens so äußerst zu beobachten, wie das beobachtet hat, vorausgesetzt, dass die ungültige Hypothese wahr ist. Wenn der erhaltene P-Wert dann klein ist, kann es gesagt werden, dass entweder die ungültige Hypothese falsch ist oder ein ungewöhnliches Ereignis, ist vorgekommen. P-Werte haben keine Wiederholungsstichprobenerhebungsinterpretation.

Eine Alternative (aber dennoch verbunden) statistische Hypothese, die Fachwerk prüft, ist der Neyman-Pearson frequentist Schule, die verlangt, dass sowohl eine Null als auch eine alternative Hypothese definiert wird, und die Wiederholungsstichprobenerhebungseigenschaften des Verfahrens, d. h. die Wahrscheinlichkeit untersucht, dass eine Entscheidung, die ungültige Hypothese zurückzuweisen, getroffen wird, wenn es tatsächlich wahr ist und nicht zurückgewiesen worden sein sollte (das wird "falsch positiv" oder Fehler des Typs I genannt), und die Wahrscheinlichkeit, dass eine Entscheidung getroffen wird, um die ungültige Hypothese zu akzeptieren, wenn es tatsächlich (Fehler des Typs II) falsch ist. P-Werte von Fisherian sind von Fehlern des Typs I von Neyman-Pearson philosophisch verschieden. Diese Verwirrung wird leider durch viele Statistiklehrbücher fortgepflanzt.

Verwenden Sie in der Praxis

Die Signifikanzebene wird gewöhnlich durch das griechische Symbol α (Kleinalpha) angezeigt. Populäre Niveaus der Bedeutung sind 10 % (0.1), 5 % (0.05), 1 % (0.01), 0.5 % (0.005) und 0.1 % (0.001). Wenn ein Test der Bedeutung einen P-Wert tiefer gibt als die Signifikanzebene α, wird die ungültige Hypothese zurückgewiesen. Solche Ergebnisse werden informell 'statistisch bedeutend' genannt. Zum Beispiel, wenn jemand behauptet, dass "es nur eine Chance in eintausend gibt, der das durch den Zufall geschehen sein könnte," wird ein 0.001 Niveau der statistischen Bedeutung einbezogen. Je tiefer die Signifikanzebene, desto stärker die Beweise erforderlich. Auswahl des Niveaus der Bedeutung ist eine etwas willkürliche Aufgabe, aber für viele Anwendungen wird ein Niveau von 5 % aus keinem besseren Grund gewählt, als der es herkömmlich ist.

In einigen Situationen ist es günstig, die statistische Bedeutung als 1 &minus auszudrücken; α. Im Allgemeinen, wenn man eine festgesetzte Bedeutung interpretiert, muss man darauf achten auf zu bemerken, was genau statistisch geprüft wird.

Verschiedene Niveaus von α handeln von ausreichenden Effekten. Kleinere Niveaus von α vergrößern Vertrauen zum Entschluss von der Bedeutung, aber gelaufen eine vergrößerte Gefahr des Scheiterns, eine falsche ungültige Hypothese (ein Fehler des Typs II, oder "falscher negativer Entschluss") zurückzuweisen, und so weniger statistische Macht zu haben. Die Auswahl am Niveau α ist so unvermeidlich mit einem Kompromiss zwischen Bedeutung und Macht, und folglich zwischen dem Fehler des Typs I und dem Fehler des Typs II verbunden. Stärkere Experimente - experimentieren gewöhnlich mit mehr Themen, oder Erwiderungen - können diese Wahl zu einem willkürlichen Grad begegnen.

In Bezug auf σ (Sigma)

In einigen Feldern, zum Beispiel Kern- und Partikel-Physik, ist es üblich, statistische Bedeutung in Einheiten der Standardabweichung σ von einer Normalverteilung auszudrücken. Eine statistische Bedeutung "" kann in einen Wert von α durch den Gebrauch der kumulativen Vertriebsfunktion Φ der Standardnormalverteilung durch die Beziehung umgewandelt werden:

:

oder über den Gebrauch der Fehlerfunktion:

:

Jedoch könnten Werte leichter mit tabellarisierten Werten gefunden werden, die häufig in Textbüchern gefunden werden: Sieh normalen Standardtisch. Der Gebrauch von σ nimmt implizit eine Normalverteilung von Maß-Werten an. Zum Beispiel, wenn eine Theorie voraussagt, dass ein Parameter einen Wert von, sagen wir, 109 ± 3 hat, und man den Parameter misst, um 100 zu sein, dann könnte man das Maß als "3σ Abweichung" von der theoretischen Vorhersage melden. In Bezug auf α ist diese Behauptung zum Ausspruch gleichwertig, dass "das Annehmen der Theorie wahr ist, ist die Wahrscheinlichkeit, das experimentelle Ergebnis durch den Zufall zu erhalten, 0.27 %" (da 1 − erf (3 /  2) = 0.0027).

Feste Signifikanzebenen wie diejenigen, die oben erwähnt sind, können als nützlich in Forschungsdatenanalysen betrachtet werden. Jedoch besteht moderner statistischer Rat darin, dass, wo das Ergebnis eines Tests im Wesentlichen das Endresultat eines Experimentes oder anderer Studie ist, der P-Wert ausführlich angesetzt werden sollte. Und, wichtig, sollte es angesetzt werden, ob, wie man beurteilt, der P-Wert bedeutend ist. Das soll maximaler Information erlauben, aus einer Zusammenfassung der Studie in Meta-Analysen übertragen zu werden.

Fallen und Kritik

Die wissenschaftliche Literatur enthält umfassende Diskussion des Gebrauches des Konzepts der statistischen Bedeutung und in der Einzelheit seines potenziellen Missbrauchs und Kritik seines Gebrauches.

Signalgeräuschverhältnis conceptualisation der Bedeutung

Wie man

betrachten kann, ist statistische Bedeutung das Vertrauen, das man in einem gegebenen Ergebnis hat. In einer Vergleich-Studie ist es vom Verhältnisunterschied zwischen den Gruppen verglichen, der Betrag des Maßes und des mit dem Maß vereinigten Geräusches abhängig. Mit anderen Worten hängt das Vertrauen, das man in einem gegebenen Ergebnis hat, das nichtzufällig ist (d. h. ist es nicht eine Folge der Chance), vom Verhältnis des Signals zum Geräusch (SNR) und der Beispielgröße ab.

Ausgedrückt mathematisch wird das Vertrauen, dass ein Ergebnis nicht durch die zufällige Chance ist, durch die folgende Formel von Sackett gegeben:

:

Für die Klarheit wird die obengenannte Formel in der tabellarischen Form unten präsentiert.

Abhängigkeit des Vertrauens mit dem Geräusch, signalisieren Sie und Beispielgröße (tabellarische Form)

In Wörtern ist die Abhängigkeit des Vertrauens hoch, wenn das Geräusch niedrig ist und/oder die Beispielgröße groß ist und/oder die Wirkungsgröße (Signal) groß ist. Das Vertrauen eines Ergebnisses (und sein verbundenes Vertrauensintervall) ist von der Wirkungsgröße allein nicht abhängig. Wenn die Beispielgröße groß ist und das Geräusch niedrig ist, kann eine kleine Wirkungsgröße mit dem großen Vertrauen gemessen werden. Ob eine kleine Wirkungsgröße wichtig betrachtet wird, ist vom Zusammenhang der verglichenen Ereignisse abhängig.

In der Medizin werden kleine Wirkungsgrößen (widerspiegelt durch kleine Zunahmen der Gefahr) häufig klinisch wichtig betrachtet und werden oft verwendet, um Behandlungsentscheidungen zu führen (wenn es großes Vertrauen zu ihnen gibt). Ob eine gegebene Behandlung betrachtet wird, ist ein würdiger Versuch von den Gefahren, Vorteilen und Kosten abhängig.

Siehe auch

Weiterführende Literatur

Links


NFL Europa / Lagerfeuer die USA
Impressum & Datenschutz