Statistisches Modell

Ein statistisches Modell ist eine Formalisierung von Beziehungen zwischen Variablen in der Form von mathematischen Gleichungen. Ein statistisches Modell beschreibt, wie ein oder zufälligere Variablen mit einer oder zufälligeren Variablen verbunden sind. Das Modell ist statistisch, weil die Variablen nicht deterministisch, aber stochastisch verbunden werden. In mathematischen Begriffen wird von einem statistischen Modell oft als ein Paar gedacht, wo der Satz von möglichen Beobachtungen und der Satz des möglichen Wahrscheinlichkeitsvertriebs darauf ist. Es wird angenommen, dass es ein verschiedenes Element gibt, dessen die beobachteten Daten erzeugt. Statistische Schlussfolgerung ermöglicht uns, Erklärungen abzugeben, über das Element (E) dieses Satzes wahrscheinlich der wahre sein werden.

Die meisten statistischen Tests können in der Form eines statistischen Modells beschrieben werden. Zum Beispiel kann der T-Test des Studenten darauf, die Mittel von zwei Gruppen zu vergleichen, als das Sehen formuliert werden, wenn ein geschätzter Parameter im Modell von 0 verschieden ist. Eine andere Ähnlichkeit zwischen Tests und Modellen ist, dass es beteiligte Annahmen gibt. Wie man annimmt, wird Fehler normalerweise in den meisten Modellen verteilt.

Formelle Definition

Ein Statistisches Modell ist eine Sammlung von Wahrscheinlichkeitsvertriebsfunktionen oder Wahrscheinlichkeitsdichte-Funktionen (insgesamt gekennzeichnet als Vertrieb für die Kürze). Ein parametrisches Modell ist eine Sammlung des Vertriebs, von dem jeder durch einen einzigartigen endlich-dimensionalen Parameter mit einem Inhaltsverzeichnis versehen wird: wo ein Parameter ist und das ausführbare Gebiet von Rahmen ist, das eine Teilmenge des d-dimensional Euklidischen Raums ist. Ein statistisches Modell kann verwendet werden, um den Satz des Vertriebs zu beschreiben, von dem annimmt, dass eine besondere Datei probiert wird. Zum Beispiel, wenn man annimmt, dass Daten aus einem univariate Vertrieb von Gaussian entstehen, dann hat man ein Modell von Gaussian angenommen:.

Ein nichtparametrisches Modell ist eine Reihe des Wahrscheinlichkeitsvertriebs mit unendlichen dimensionalen Rahmen, und könnte als geschrieben werden. Ein halbparametrisches Modell hat auch unendliche dimensionale Rahmen, aber ist im Raum vom Vertrieb nicht dicht. Zum Beispiel ist eine Mischung von Gaussians mit einem Gaussian an jedem Datenpunkt dicht ist der Raum des Vertriebs. Formell, wenn d die Dimension des Parameters ist, und n die Zahl von Proben ist, wenn als und als, dann ist das Modell halbparametrisch.

Mustervergleich

Modelle können im Vergleich zu einander sein. Das kann entweder getan werden, als Sie eine Forschungsdatenanalyse oder eine bestätigende Datenanalyse getan haben. In einer Forschungsanalyse formulieren Sie alle Modelle, an die Sie denken und sehen können, der Ihre Daten am besten beschreibt. In einer bestätigenden Analyse prüfen Sie, welches von Ihren Modellen Sie beschrieben haben, vor den Daten wurde gesammelt passt die Daten am besten oder Test, wenn Ihr einziges Modell die Daten passt. In der geradlinigen Regressionsanalyse können Sie den Betrag der Abweichung vergleichen, die durch die unabhängigen Variablen, R über die verschiedenen Modelle erklärt ist. Im Allgemeinen können Sie Modelle vergleichen, die durch das Verwenden eines Wahrscheinlichkeitsverhältnis-Tests verschachtelt werden. Verschachtelte Modelle sind Modelle, die durch das Einschränken eines Parameters in einem komplizierteren Modell erhalten werden können, um Null zu sein.

Ein Beispiel

Länge und Alter sind über Menschen verteilter probabilistically. Sie sind stochastisch verbunden, wenn Sie wissen, dass eine Person 7 volljährig ist, beeinflusst das die Chance dieser Person, die 6 Fuß hoch ist. Sie konnten diese Beziehung in einem geradlinigen Modell des rückwärts Gehens der folgenden Form formalisieren:

Länge = b + bage + ε, wo b der Abschnitt, b ist, ist ein Parameter, dass Alter multipliziert wird mit, eine Vorhersage der Länge zu bekommen, ist ε der Fehlerbegriff, und ich bin das Thema. Das bedeutet, dass Länge-Anfänge an einem Wert, es eine minimale Länge gibt, wenn jemand geboren ist, und er durch das Alter zu einem Betrag vorausgesagt wird. Diese Vorhersage ist nicht vollkommen, weil Fehler ins Modell eingeschlossen wird. Dieser Fehler enthält Abweichung, die vom Geschlecht und den anderen Variablen stammt. Wenn Geschlecht ins Modell eingeschlossen wird, wird der Fehlerbegriff kleiner werden, weil Sie eine bessere Idee von der Chance haben werden, dass ein besonderer 16-Jähriger 6 Fuß hoch ist, wenn Sie das wissen, sind 16 Jahre alt ein Mädchen. Das Modell würde Länge = b + bage + bsex + ε werden, wo das variable Geschlecht dichotom ist. Dieses Modell würde vermutlich einen höheren R haben. Das erste Modell wird im zweiten Modell verschachtelt: Das erste Modell wird beim zweiten erhalten, wenn b auf die Null eingeschränkt wird.

Klassifikation

Gemäß der Zahl der endogenen Variablen und der Zahl von Gleichungen können Modelle als ganze Modelle klassifiziert werden (die Zahl von Gleichungen ist zur Zahl von endogenen Variablen gleich), und unvollständige Modelle. Einige andere statistische Modelle sind das allgemeine geradlinige Modell (eingeschränkt auf dauernde abhängige Variablen), das verallgemeinerte geradlinige Modell (zum Beispiel, logistisches rückwärts Gehen), das Mehrniveau-Modell und das Strukturgleichungsmodell.

Siehe auch

  • A/B, der prüft
  • Mathematisches Diagramm
  • Regressionsanalyse

Statistische Regelmäßigkeit / Statistische Schlussfolgerung
Impressum & Datenschutz