Logistisches rückwärts Gehen

In der Statistik ist logistisches rückwärts Gehen ein Typ der Regressionsanalyse, die verwendet ist, für das Ergebnis eines kategorischen vorauszusagen (eine Variable, die eine begrenzte Zahl von Kategorien übernehmen kann) auf einer oder mehr Prophet-Variablen gestützte Kriterium-Variable. Logistisches rückwärts Gehen kann bi- oder multinomial sein. Binom oder binäres logistisches rückwärts Gehen beziehen sich auf das Beispiel, in dem das Kriterium nur zwei mögliche Ergebnisse übernehmen kann (z.B, "tot" gegen ". lebendig", "Erfolg" gegen ". Misserfolg" oder "ja" gegen ". nicht"). Logistisches rückwärts Gehen von Multinomial bezieht sich auf das Beispiel, in dem das Kriterium drei oder mehr mögliche Ergebnisse übernehmen kann (z.B, "besser' gegen "keine Änderung" gegen". schlechter"). Allgemein wird das Kriterium als "0" und "1" im binären logistischen rückwärts Gehen codiert, weil es zur aufrichtigsten Interpretation führt. Die Zielgruppe (gekennzeichnet als ein "Fall") wird gewöhnlich als "1" und die Bezugsgruppe (gekennzeichnet als ein "Nichtfall") als "0" codiert. Der binomische Vertrieb hat einen Mittelgleichen dem Verhältnis von Fällen, hat P und eine Abweichung angezeigt, die dem Produkt von Fällen und Nichtfällen, PQ gleich ist, worin Q dem Verhältnis von Nichtfällen oder 1 - P gleich ist. Entsprechend ist die Standardabweichung einfach die Quadratwurzel von PQ. Logistisches rückwärts Gehen wird verwendet, um die Verschiedenheit vorauszusagen, ein auf dem Propheten (En) gestützter Fall zu sein. Die Verschiedenheit wird als die Wahrscheinlichkeit eines durch die Wahrscheinlichkeit eines nicht Falls geteilten Falls definiert. Das Verschiedenheitsverhältnis ist das primäre Maß der Wirkungsgröße im logistischen rückwärts Gehen und wird geschätzt, um die Verschiedenheit zu vergleichen, dass die Mitgliedschaft in einer Gruppe zu einem Fall-Ergebnis mit der Verschiedenheit führen wird, dass die Mitgliedschaft in einer anderen Gruppe zu einem Fall-Ergebnis führen wird. Das Verschiedenheitsverhältnis (angezeigt ODER) ist einfach die Verschiedenheit, ein Fall für eine Gruppe zu sein, die durch die Verschiedenheit geteilt ist, ein Fall für eine andere Gruppe zu sein. Ein Verschiedenheitsverhältnis von zeigt man an, dass die Verschiedenheit eines Fall-Ergebnisses für beide Gruppen unter dem Vergleich ebenso wahrscheinlich ist. Je weiter die Verschiedenheit von einer, desto stärker die Beziehung abgeht. Das Verschiedenheitsverhältnis hat einen Fußboden der Null, aber keine Decke (obere Grenze) - theoretisch, das Verschiedenheitsverhältnis kann ungeheuer zunehmen.

Wie andere Formen der Regressionsanalyse macht logistisches rückwärts Gehen von einer oder mehr Prophet-Variablen Gebrauch, die entweder dauernd oder kategorisch sein können. Außerdem wie andere geradlinige Modelle des rückwärts Gehens ist der erwartete Wert (durchschnittlicher Wert) der Ansprechvariable den Propheten passend - der erwartete Wert eines Vertriebs von Bernoulli ist einfach die Wahrscheinlichkeit eines Falls. Mit anderen Worten im logistischen rückwärts Gehen ist der Leitzins eines Falls für das ungültige Modell (das Modell ohne irgendwelche Propheten oder das Abschnitt-Only-Modell) zum Modell einschließlich eines oder mehr Propheten passend. Verschieden vom gewöhnlichen geradlinigen rückwärts Gehen, jedoch, wird logistisches rückwärts Gehen verwendet, um binäre Ergebnisse (Proben von Bernoulli) aber nicht dauernde Ergebnisse vorauszusagen. In Anbetracht dieses Unterschieds ist es notwendig, dass logistisches rückwärts Gehen den natürlichen Logarithmus der Verschiedenheit (gekennzeichnet als der logit oder die Klotz-Verschiedenheit) nimmt, um ein dauerndes Kriterium zu schaffen. Der logit des Erfolgs ist dann den Propheten passend, die Regressionsanalyse verwenden. Die Ergebnisse des logit sind jedoch nicht intuitiv, so wird der logit zurück zur Verschiedenheit über die Exponentialfunktion oder das Gegenteil des natürlichen Logarithmus umgewandelt. Deshalb, obwohl die beobachteten Variablen im logistischen rückwärts Gehen kategorisch sind, werden die vorausgesagten Hunderte wirklich als eine dauernde Variable (der logit) modelliert. Der logit wird die Verbindungsfunktion im logistischen rückwärts Gehen genannt - obwohl die Produktion im logistischen rückwärts Gehen Binom und gezeigt in einer Kontingenztabelle ist, ist der logit ein zu Grunde liegendes dauerndes Kriterium, auf das geradliniges rückwärts Gehen geführt wird.

Zum Beispiel könnte logistisches rückwärts Gehen verwendet werden, um vorauszusagen, ob ein Patient eine gegebene Krankheit (z.B Zuckerkrankheit), gestützt auf beobachteten Eigenschaften des Patienten (Alter, Geschlecht, Körpermassenindex, Ergebnisse von verschiedenen Blutproben, usw.) hat . Ein anderes Beispiel könnte sein vorauszusagen, ob ein Stimmberechtigter zu demokratisch oder republikanisch, gestützt auf Alter, Einkommen, Geschlecht, Rasse, Staat des Wohnsitzes, der Stimmen in vorherigen Wahlen usw. wählen wird. Logistisches rückwärts Gehen wird umfassend in zahlreichen Disziplinen verwendet: Die medizinischen und Sozialwissenschaft-Felder, Verarbeitung der natürlichen Sprache, Marktanwendungen wie Vorhersage einer Neigung eines Kunden, ein Produkt zu kaufen oder ein Abonnement usw. aufzuhören. In jedem dieser Beispiele würde ein logistisches Modell des rückwärts Gehens die relevante Verschiedenheit für jeden Propheten oder Wechselwirkungsbegriff schätzen, den natürlichen Logarithmus der Verschiedenheit nehmen (schätzen Sie den logit), führen Sie eine geradlinige Regressionsanalyse auf den vorausgesagten Werten des logit, und dann nehmen Sie die Exponentialfunktion des logit, das Verschiedenheitsverhältnis zu schätzen.

Einführung

Sowohl geradlinige als auch logistische Regressionsanalysen vergleichen die beobachteten Werte des Kriteriums mit den vorausgesagten Werten mit und ohne die fragliche Variable (N), um zu bestimmen, ob das Modell, das die Variable (N) genauer einschließt, das Ergebnis voraussagt als das Modell ohne diese Variable (oder Satz von Variablen). Vorausgesetzt, dass beide Analysen durch dieselbe Absicht geführt werden, warum ist es, dass logistisches rückwärts Gehen für Analysen mit einem dichotomen Kriterium erforderlich ist? Warum ist geradliniges rückwärts Gehen unpassend, um mit einem dichotomen Kriterium zu verwenden? Es gibt mehrere Gründe, warum es unpassend ist, geradliniges rückwärts Gehen auf einem dichotomen Kriterium zu führen. Erstens verletzt es die Annahme der Linearität. Die geradlinige Linie des rückwärts Gehens ist der erwartete Wert des Kriteriums gegeben der Prophet (En) und ist dem Abschnitt gleich (der Wert des Kriteriums, wenn der Prophet (En) der Null gleich ist) plus das Produkt des Regressionskoeffizienten und ein gegebener Wert des Propheten plus ein Fehlerbegriff - deutet das an, dass es für den erwarteten Wert des Kriteriums gegeben der Wert des Propheten möglich ist, jeden Wert zu übernehmen, weil sich der Prophet (En) davon erstreckt; jedoch ist das nicht der Fall mit einem dichotomen Kriterium. Das bedingte bösartige von einem dichotomen Kriterium muss größer oder gleich der Null und weniger sein als oder gleich einer so der Vertrieb ist nicht geradlinig, aber sigmoid oder S-shaped. Da sich die Propheten den Kriterium-Asymptoten an der Null nähern, und wie sich die Propheten den Kriterium-Asymptoten an einer nähern. Geradliniges rückwärts Gehen ignoriert diese Information, und es wird möglich für das Kriterium, Wahrscheinlichkeiten weniger zu übernehmen, als Null und größer als diejenige, obwohl solche Werte nicht theoretisch erlaubt sind. Außerdem gibt es keine aufrichtige Interpretation solcher Werte.

Zweitens verletzt das Leiten geradlinigen rückwärts Gehens mit einem dichotomen Kriterium die Annahme, dass der Fehlerbegriff homoscedastic ist. Homoscedasticity ist die Annahme, dass die Abweichung im Kriterium an allen Niveaus des Propheten (En) unveränderlich ist. Diese Annahme wird immer verletzt, wenn man ein Kriterium hat, das binomisch verteilt wird. Denken Sie die Abweichungsformel: e = ist PQ, worin P dem Verhältnis "1's" oder "Fälle" und Q gleich ist (1 - P), das Verhältnis von "0's" oder "Nichtfälle" im Vertrieb gleich. Vorausgesetzt, dass es nur zwei mögliche Ergebnisse in einem binomischen Vertrieb gibt, kann man das Verhältnis von "Nichtfällen" vom Verhältnis von "Fällen" und umgekehrt bestimmen. Ebenfalls kann man auch die Abweichung des Vertriebs entweder vom Verhältnis von "Fällen" oder von "den Nichtfällen" bestimmen. Das heißt, dass die Abweichung vom Propheten ziemlich abhängig ist - ist der Fehlerbegriff nicht homoscedastic, aber heteroscedastic, bedeutend, dass die Abweichung an allen Niveaus des Propheten nicht gleich ist. Die Abweichung ist am größten, wenn das Verhältnis von Fällen.5 gleich ist. e = PQ =.5 (1-.5) =.5 (.5) =.25. Da sich das Verhältnis von Fällen den Extremen jedoch nähert, nähert sich Fehler Null. Zum Beispiel, wenn das Verhältnis von Fällen.99 gleich ist, gibt es fast Nullfehler: e = PQ =.99 (1-.99) =.99 (.01) =.009. Deshalb sind Fehler oder Abweichung im Kriterium von der Prophet-Variable (N) ziemlich abhängig.

Drittens verletzt das Leiten geradlinigen rückwärts Gehens mit einer dichotomen Variable die Annahme, dass Fehler normalerweise verteilt wird, weil das Kriterium nur zwei Werte hat. Vorausgesetzt, dass ein dichotomes Kriterium diese Annahmen des geradlinigen rückwärts Gehens verletzt, kann das Führen geradlinigen rückwärts Gehens mit einem dichotomen Kriterium zu Fehlern in der Schlussfolgerung und zumindest führen, die Interpretation des Ergebnisses wird nicht aufrichtig sein.

In Anbetracht der Mängel des geradlinigen Modells des rückwärts Gehens, um sich mit einem dichotomen Kriterium zu befassen, ist es notwendig, eine andere Analyse zu verwenden. Außer dem logistischen rückwärts Gehen gibt es mindestens eine zusätzliche alternative Analyse, um sich mit einem dichotomen Kriterium - discriminant Funktionsanalyse zu befassen. Wie logistisches rückwärts Gehen, discriminant Funktionsanalyse ist eine Technik, in der eine Reihe von Propheten verwendet wird, um Gruppenmitgliedschaft zu bestimmen. Es gibt zwei Probleme mit der Discriminant-Funktionsanalyse jedoch: Erstens, wie geradliniges rückwärts Gehen, discriminant Funktionsanalyse kann Wahrscheinlichkeiten erzeugen, die größer sind als ein oder weniger als Null, wenn auch solche Wahrscheinlichkeiten theoretisch unzulässig sind. Außerdem, discriminant Funktionsanalyse nimmt an, dass die Prophet-Variablen normalerweise verteilt werden. Logistisches rückwärts Gehen weder erzeugt Wahrscheinlichkeiten, die unter Null oder über einem liegen, noch einschränkende Normalitätsannahmen den Propheten auferlegt.

Logistisches rückwärts Gehen ist ein verallgemeinertes geradliniges Modell, spezifisch ein Typ des binomischen rückwärts Gehens. Logistisches rückwärts Gehen dient, um die beschränkte Reihe einer Wahrscheinlichkeit umzugestalten, die auf die Reihe in die volle Reihe eingeschränkt ist, die den umgestalteten Wert passender macht, um das Verwenden einer geradlinigen Funktion zu passen. Die Wirkung von beiden Funktionen ist, die Mitte der Wahrscheinlichkeitsreihe (in der Nähe von 50 %) mehr oder weniger geradlinig umzugestalten, während sie die Extreme (in der Nähe von 0 % oder 100 %) exponential ausstreckt. Das ist, weil in der Mitte der Wahrscheinlichkeitsreihe man eine relativ geradlinige Funktion erwartet - ist es zu den Extremen, die die Linie des rückwärts Gehens beginnt zu biegen, weil es sich Asymptote nähert; folglich, der sigmoidal Vertrieb (sieh Abbildung 1). Hauptsächlich, wenn man logistisches rückwärts Gehen führt, gestaltet man die Wahrscheinlichkeit eines Fall-Ergebnisses in die Verschiedenheit eines Fall-Ergebnisses um und nimmt den natürlichen Logarithmus der Verschiedenheit, um den logit zu schaffen. Die Verschiedenheit als ein Kriterium stellt eine Verbesserung über die Wahrscheinlichkeit als das Kriterium zur Verfügung, weil die Verschiedenheit kein gestelltes oberes Limit hat; jedoch, die Verschiedenheit wird noch beschränkt, in dem es ein gestelltes niedrigeres Limit der Null hat und seine Werte nicht dazu neigen, normalerweise verteilt oder geradlinig mit den Propheten verbunden zu werden. Folglich ist es notwendig, den natürlichen Logarithmus der Verschiedenheit zu bringen, um diese Beschränkungen zu beheben.

Der natürliche Logarithmus ist die Macht, zu der die Basis, e erhoben werden muss, um einen Wert Y (das Kriterium) zu erzeugen. Die Zahl oder e von Euler sind eine mathematische ungefähr 2.71828 gleiche Konstante. Ein ausgezeichnetes Beispiel dieser Beziehung ist wenn Y = 2.71828 oder e. Wenn Y = 2.71828, ln (Y oder 2.71828) = 1, weil Y e in diesem Beispiel gleichkommt, so muss e nur zur Macht 1 erhoben werden, um sich gleichzukommen. Mit anderen Worten ist Y die Macht, zu der die Basis, e, erhoben werden muss, um Y (2.71828) gleichzukommen. Vorausgesetzt, dass der logit nicht allgemein interpretiert wird, und dass das Gegenteil des natürlichen Logarithmus, die Exponentialfunktion des logit allgemein statt dessen interpretiert wird, ist es auch nützlich, diese Funktion zu untersuchen (angezeigt:) . Um die Beziehung zwischen der Exponentialfunktion und dem natürlichen Logarithmus zu illustrieren, denken Sie den exponentiation des Produktes des natürlichen Logarithmus oben. Dort war es offensichtlich, dass der natürliche Logarithmus 2.71828 1 gleich war. Hier, wenn ein exponentiates 1, das Produkt 2.71828 ist; so ist die Exponentialfunktion das Gegenstück des natürlichen Logarithmus. Vom logit kann als eine latente dauernde Variable gedacht werden, die den Propheten passend ist, die der Weise analog sind, auf die ein dauerndes Kriterium den Propheten in der geradlinigen Regressionsanalyse passend ist. Nachdem das Kriterium (der logit) den Propheten passend ist, in denen das Ergebnis exponentiated ist, den unintuitiven logit zurück zu leicht interpretable Verschiedenheit umwandelnd. Es ist wichtig zu bemerken, dass, die Wahrscheinlichkeit, das Verschiedenheitsverhältnis und logit alle dieselbe Auskunft geben. Eine Wahrscheinlichkeit dessen. 5 ist einem Verschiedenheitsverhältnis 1 und einem logit 0 gleich - alle drei Werte zeigen an, dass "Fall" und "Nichtfall"-Ergebnisse ebenso wahrscheinlich sind.

Es ist auch wichtig zu bemerken, dass, obwohl die beobachteten Ergebnisse der Ansprechvariablen — einfach "ja" oder Nein-Ergebnisse kategorisch sind — logistisches rückwärts Gehen wirklich eine dauernde Variable (die Wahrscheinlichkeit von "ja") modelliert. Diese Wahrscheinlichkeit ist eine latente Variable, die, wie man annimmt, das beobachtete ja/no Ergebnisse erzeugt. An seinem Herzen ist das dem gewöhnlichen geradlinigen rückwärts Gehen begrifflich ähnlich, das den unbemerkten erwarteten Wert des Ergebnisses (z.B das durchschnittliche Einkommen, die Höhe, usw.) voraussagt Der der Reihe nach den beobachteten Wert des Ergebnisses erzeugt (der wahrscheinlich irgendwo in der Nähe vom Durchschnitt sein wird, aber sich durch einen "Fehler"-Begriff unterscheiden kann). Der Unterschied ist, der für einen einfachen normalerweise dauernde Variable, den durchschnittlichen (erwarteten) Wert verteilt hat und bemerkt hat, dass Wert mit denselben Einheiten gemessen wird. So ist es günstig, den beobachteten Wert als einfach der erwartete Wert plus ein Fehlerbegriff zu empfangen, und häufig den Unterschied zwischen den zwei zu verschmieren. Für das logistische rückwärts Gehen, jedoch, sind der erwartete Wert und beobachtete Wert verschiedene Typen von Werten (dauernd gegen den getrennten), und das Vergegenwärtigen des beobachteten Werts, weil der erwartete Wert plus der Fehler nicht arbeitet. Infolgedessen muss die Unterscheidung zwischen dem erwarteten und beobachteten Wert immer beachtet werden.

Definition

Eine Erklärung des logistischen rückwärts Gehens beginnt mit einer Erklärung der logistischen Funktion, die, wie Wahrscheinlichkeiten, immer Werte zwischen der Null und ein übernimmt:

:

UND

:UND

:

Ein Graph der Funktion wird in der Abbildung 1 gezeigt. Der Eingang ist, und die Produktion ist. Die logistische Funktion ist nützlich, weil sie als ein Eingang jeden Wert von der negativen Unendlichkeit bis positive Unendlichkeit nehmen kann, wohingegen die Produktion auf Werte zwischen 0 und 1 beschränkt wird. In den obengenannten Gleichungen, g (X) bezieht sich auf die logit Funktion von einem gegebenen Propheten X, ln zeigt den natürlichen Logarithmus an: Ist die Wahrscheinlichkeit, ein Fall zu sein, ist der Abschnitt von der geradlinigen Gleichung des rückwärts Gehens (der Wert des Kriteriums, wenn der Prophet der Null gleich ist), ist der mit einem Wert des Propheten multiplizierte Regressionskoeffizient, Basis e zeigt die Exponentialfunktion an, und e in der geradlinigen Gleichung des rückwärts Gehens zeigt den Fehlerbegriff an. Die erste Formel illustriert, dass die Wahrscheinlichkeit, ein Fall zu sein, der Verschiedenheit der Exponentialfunktion der geradlinigen Gleichung des rückwärts Gehens gleich ist. Das ist darin wichtig es zeigt, dass sich der Eingang der logistischen Gleichung des rückwärts Gehens (die geradlinige Gleichung des rückwärts Gehens) vom negativen bis positive Unendlichkeit und noch ändern kann, nachdem exponentiating die Verschiedenheit der Gleichung, sich die Produktion zwischen der Null und ein ändern wird. Die zweite Gleichung illustriert, dass der logit (d. h., Klotz-Verschiedenheit oder natürlicher Logarithmus der Verschiedenheit) zur geradlinigen Gleichung des rückwärts Gehens gleichwertig ist. Ebenfalls illustriert die dritte Gleichung, dass die Verschiedenheit, ein Fall zu sein, zur Exponentialfunktion der geradlinigen Gleichung des rückwärts Gehens gleichwertig ist. Das illustriert, wie der logit als eine Verbindungsfunktion zwischen der Verschiedenheit und der geradlinigen Gleichung des rückwärts Gehens dient. Vorausgesetzt, dass sich der logit davon ändert, stellt ein entsprechendes Kriterium zur Verfügung, auf das man geradliniges rückwärts Gehen führt und der logit zurück in die Verschiedenheit leicht umgewandelt wird.

Das ist, wo es äußerst vernünftig wird, das Bezugszellcodieren ("0" = nicht Fall, "1" = Fall) zu verwenden. Mit diesem Codierschema ist das Verschiedenheitsverhältnis der Exponentialfunktion des Regressionskoeffizienten gleich.

Deshalb, wenn man ein Bezugscodierschema verwendet, ist der exponentiation des Regressionskoeffizienten das Verschiedenheitsverhältnis, und keine weiteren Berechnungen sind notwendig.

Musteranprobe

Maximale Wahrscheinlichkeit

Im geradlinigen rückwärts Gehen verwendet man eine analytische Lösung, Regressionskoeffizienten zu schätzen, indem man jene Werte findet, die die Summe von kariertem residuals (Fehlerabweichung) minimieren. Mit anderen Worten gibt es eine Reihe der Berechnung, die man machen kann, um eine Lösung abzuleiten. Im logistischen rückwärts Gehen gibt es keinen Satz von Gleichungen, von denen eine Lösung ableiten kann - besteht eine analytische Lösung nicht. Statt dessen verwendet logistisches rückwärts Gehen das maximale Wahrscheinlichkeitsverfahren, um die Koeffizienten zu schätzen, die die Wahrscheinlichkeit der Regressionskoeffizienten gegeben die Propheten und das Kriterium maximieren. Verschieden von analytischen Lösungen, worin es möglich ist, direkt für die Koeffizienten zu lösen, ist die maximale Wahrscheinlichkeitslösung ein wiederholender Prozess, der mit einer versuchsweisen Lösung beginnt, revidiert es ein bisschen, um zu sehen, ob es verbessert werden kann, und diesen Prozess wiederholt, bis Verbesserung Minute ist, in dem Punkt, wie man sagt, das Modell zusammengelaufen ist. Was das bedeutet, ist, dass das maximale Wahrscheinlichkeitsverfahren eine Lösung gefunden hat, die die Wahrscheinlichkeit der Koeffizienten gegeben der Prophet (En) und das Kriterium maximiert.

In einigen Beispielen kann das Modell nicht Konvergenz erreichen. Wenn ein Modell nicht zusammenläuft, zeigt das an, dass die Koeffizienten nicht zuverlässig sind, weil das Modell nie eine Endlösung erreicht hat. Fehlen Sie der Konvergenz kann sich aus mehreren Problemen ergeben: ein großes Verhältnis von Propheten zu Fällen, multicollinearity, Spärlichkeit oder ganzer Trennung habend. Obwohl nicht eine genaue Zahl, als eine allgemeine Faustregel verlangen logistische Modelle des rückwärts Gehens ein Minimum von 10 Fällen pro Variable. Ein großes Verhältnis von Variablen zu Fällen zu haben, läuft allzu Konservativer Wald statistisch (besprochen unten) hinaus und kann zu Nichtkonvergenz führen. Multicollinearity bezieht sich auf unannehmbar hohe Korrelationen zwischen Propheten. Als multicollinearity Zunahmen bleiben Koeffizienten unvoreingenommen, aber Standardfehler-Zunahme und die Wahrscheinlichkeit von Musterkonvergenz-Abnahmen. Um multicollinearity unter den Propheten zu entdecken, kann man eine geradlinige Regressionsanalyse mit den Propheten von Interesse zum alleinigen Zweck führen, die statistische Toleranz zu untersuchen, hat gepflegt zu bewerten, ob multicollinearity unannehmbar hoch ist. Die Spärlichkeit in den Daten bezieht sich darauf, ein großes Verhältnis von leeren Zellen (Zellen mit Nullzählungen) zu haben. Nullzellzählungen sind mit kategorischen Propheten besonders problematisch. Mit dauernden Propheten kann das Modell Werte für die Nullzellzählungen ableiten, aber das ist nicht der Fall mit kategorischen Propheten. Der Grund das Modell wird mit Nullzellzählen für kategorische Propheten nicht zusammenlaufen, besteht darin, weil der natürliche Logarithmus der Null ein unbestimmter Wert ist, so können Endlösungen des Modells nicht erreicht werden. Um dieses Problem zu beheben, können Forscher Kategorien auf eine theoretisch bedeutungsvolle Weise ohnmächtig werden oder können denken, eine Konstante zu allen Zellen hinzuzufügen. Ein anderes numerisches Problem, das zu einem Mangel an der Konvergenz führen kann, ist ganze Trennung, die sich auf das Beispiel bezieht, in dem die Propheten vollkommen das Kriterium voraussagen - werden alle Fälle genau klassifiziert. In solchen Beispielen sollte man die Daten nochmals prüfen, weil dort eine Art Fehler wahrscheinlich ist.

Devianz und Wahrscheinlichkeitsverhältnis-Tests

In der geradlinigen Regressionsanalyse ist man mit Verteilen-Abweichung über die Summe von Quadratberechnungen beschäftigt - die Abweichung im Kriterium wird im Wesentlichen in die Abweichung geteilt, die von den Propheten und der restlichen Abweichung verantwortlich gewesen ist. In der logistischen Regressionsanalyse wird Devianz anstatt der Summe von Quadratberechnungen verwendet. Devianz ist der Summe von Quadratberechnungen im geradlinigen rückwärts Gehen analog und ist ein Maß des Mangels an passenden zu den Daten in einem logistischen Modell des rückwärts Gehens. Devianz wird durch das Vergleichen eines gegebenen Modells mit dem durchtränkten Modell - ein Modell mit theoretisch vollkommen passend berechnet. Diese Berechnung wird den Wahrscheinlichkeitsverhältnis-Test genannt:

In der obengenannten Gleichung vertritt D die Devianz, und ln vertritt den natürlichen Logarithmus. Die Ergebnisse des Wahrscheinlichkeitsverhältnisses (das Verhältnis des taillierten Modells zum durchtränkten Modell) werden einen negativen Wert erzeugen, so wird das Produkt mit negative zweimal seinem natürlichen Logarithmus multipliziert, um einen Wert mit einem ungefähren Chi-Quadratvertrieb zu erzeugen. Kleinere Werte zeigen besser passend an, weil das taillierte Modell weniger vom durchtränkten Modell abgeht. Wenn bewertet, nach einem Chi-Quadratvertrieb zeigen unbedeutende Chi-Quadratwerte sehr wenig unerklärte Abweichung und so, gutes passendes Modell an. Umgekehrt zeigt ein bedeutender Chi-Quadratwert an, dass ein bedeutender Betrag der Abweichung unerklärt ist. Zwei Maßnahmen der Devianz sind im logistischen rückwärts Gehen besonders wichtig: ungültige Devianz und Musterdevianz. Die ungültige Devianz vertritt den Unterschied zwischen einem Modell mit nur dem Abschnitt und keinen Propheten und dem durchtränkten Modell. Und die Musterdevianz vertritt den Unterschied zwischen einem Modell mit mindestens einem Propheten und dem durchtränkten Modell. In dieser Beziehung stellt das ungültige Modell eine Grundlinie zur Verfügung, auf die man Prophet-Modelle vergleicht. In Anbetracht dessen, dass Devianz ein Maß des Unterschieds zwischen einem gegebenen Modell und dem durchtränkten Modell ist, zeigen kleinere Werte besser passend an. Deshalb, um den Beitrag eines Propheten oder Satz von Propheten zu bewerten, kann man die Musterdevianz von der ungültigen Devianz abziehen und den Unterschied auf einem Chi-Quadratvertrieb mit einem Grad der Freiheit bewerten. Wenn die Musterdevianz bedeutsam kleiner ist als die ungültige Devianz dann, kann man beschließen, dass der Prophet oder Satz von Propheten bedeutsam verbessertes Modell passen. Das ist dem in der geradlinigen Regressionsanalyse verwendeten F-Test analog, um die Bedeutung der Vorhersage zu bewerten.

Pseudo-Rs

Im geradlinigen rückwärts Gehen wird die karierte vielfache Korrelation, R verwendet, um Güte von passenden zu bewerten, weil es das Verhältnis der Abweichung im Kriterium vertritt, das von den Propheten erklärt wird. In der logistischen Regressionsanalyse, dort ist nicht dem analogen Maß abgestimmt, aber es gibt mehrere konkurrierende Maßnahmen jeder mit Beschränkungen. Drei der meistens verwendeten Indizes werden auf dieser Seite untersucht, die mit dem Wahrscheinlichkeitsverhältnis R, R beginnt:

:

Das ist der analogste Index zur karierten vielfachen Korrelation im geradlinigen rückwärts Gehen. Es vertritt die proportionale Verminderung der Devianz, worin die Devianz als ein Maß der Schwankung analog, aber nicht identisch zur Abweichung in der geradlinigen Regressionsanalyse behandelt wird. Eine Beschränkung des Wahrscheinlichkeitsverhältnisses R ist, dass es nicht monotonically verbunden mit dem Verschiedenheitsverhältnis ist, bedeutend, dass es nicht notwendigerweise zunimmt, als das Verschiedenheitsverhältnis zunimmt und nicht notwendigerweise abnimmt, als das Verschiedenheitsverhältnis abnimmt.

Der Cox und Verkauft R ist ein alternativer Index der Güte von passenden, die mit dem R-Wert vom geradlinigen rückwärts Gehen verbunden sind. Der Index von Cox und Snell ist problematisch, wie sein maximaler Wert.75 ist, wenn die Abweichung an seinem Maximum (.25) ist. Der Nagelkerke R stellt eine Korrektur dem Cox und Snell R zur Verfügung, so dass der maximale Wert einem gleich ist. Dennoch tun der Cox und Snell und das Wahrscheinlichkeitsverhältnis, das Rs größerer Abmachung mit einander zeigen als irgendein, mit dem Nagelkerke R. Natürlich könnte das nicht für Werte der Fall sein, die.75 zu weit gehen, weil der Index von Cox und Snell an diesem Wert bedeckt wird. Sich das Wahrscheinlichkeitsverhältnis R wird häufig den Alternativen bevorzugt, weil es R im geradlinigen rückwärts Gehen am analogsten ist, ist des Leitzinsen unabhängig (sowohl Cox als auch Snell und Nagelkerke Rs Zunahme, als das Verhältnis von Fällen von 0 bis.5 zunimmt) und zwischen 0 und 1 ändert.

Ein Wort der Verwarnung ist in der Ordnung, wenn es pseudo-R Statistik interpretiert. Der Grund diese Indizes von passenden werden PseudoR genannt, besteht darin, weil sie die proportionale Verminderung irrtümlicherweise nicht vertreten, wie der R im geradlinigen rückwärts Gehen tut. Geradliniges rückwärts Gehen nimmt homoscedasticity an, dass die Fehlerabweichung dasselbe für alle Werte des Kriteriums ist. Logistisches rückwärts Gehen wird immer heteroscedastic sein - die Fehlerabweichungen unterscheiden sich für jeden Wert der vorausgesagten Kerbe. Für jeden Wert der vorausgesagten Kerbe würde es einen verschiedenen Wert der proportionalen Verminderung irrtümlicherweise geben. Deshalb ist es unpassend, an R als die proportionale Verminderung irrtümlicherweise eines universalen Sinns im logistischen rückwärts Gehen zu denken.

Koeffizienten

Nach der Anprobe des Modells ist es wahrscheinlich, dass Forscher den Beitrag von individuellen Propheten werden untersuchen wollen. Um so zu tun, werden sie die Regressionskoeffizienten untersuchen wollen. Im geradlinigen rückwärts Gehen vertreten die Regressionskoeffizienten die Änderung im Kriterium für jede Einheitsänderung im Propheten. Im logistischen rückwärts Gehen, jedoch, vertreten die Regressionskoeffizienten die Rate der Änderung im logit für jede Einheitsänderung im Propheten. Vorausgesetzt, dass der logit nicht intuitiv ist, werden sich Forscher wahrscheinlich auf eine Wirkung eines Propheten auf die Exponentialfunktion des Regressionskoeffizienten - das Verschiedenheitsverhältnis konzentrieren (sieh Definition). Im geradlinigen rückwärts Gehen wird die Bedeutung eines Regressionskoeffizienten durch die Computerwissenschaft eines T-Tests bewertet. Im logistischen rückwärts Gehen gibt es einige verschiedene Tests, die entworfen sind, um die Bedeutung eines individuellen Propheten, am meisten namentlich, des Wahrscheinlichkeitsverhältnis-Tests und statistischen Wald zu bewerten.

Wahrscheinlichkeitsverhältnis-Test

Der Wahrscheinlichkeitsverhältnis-Test, der oben besprochen ist, um passendes Modell zu bewerten, ist auch das empfohlene Verfahren, um den Beitrag von individuellen Propheten zu einem gegebenen Modell zu bewerten. Im Fall von einem einzelnen Prophet-Modell vergleicht man einfach das Prophet-Modell mit dem ungültigen Modell auf einem Chi-Quadratvertrieb mit einem einzelnen Grad der Freiheit. Wenn das Prophet-Modell einen bedeutsam kleineren Chi-Quadratwert hat, dann kann man beschließen, dass der Prophet bedeutsam das Kriterium voraussagt. Vorausgesetzt, dass einige allgemeine statistische Pakete (z.B, SAS, SPSS) Wahrscheinlichkeitsverhältnis-Teststatistik nicht zur Verfügung stellen, kann es schwieriger sein, den Beitrag von individuellen Propheten im vielfachen logistischen Fall des rückwärts Gehens zu bewerten. Um den Beitrag von individuellen Propheten zu bewerten, kann man in die Propheten hierarchisch eingehen, das Vergleichen jedes neuen Modells mit davor bestimmt den Beitrag jedes Propheten.

Statistischer Wald

Wechselweise, wenn man den Beitrag von individuellen Propheten in einem gegebenen Modell bewertet, kann man die Bedeutung von statistischem Wald untersuchen. Das Wald statistische, analoge dem T-Test im geradlinigen rückwärts Gehen, wird verwendet, um die Bedeutung von Koeffizienten zu bewerten. Das Wald statistische ist das Verhältnis des Quadrats des Regressionskoeffizienten zum Quadrat des Standardfehlers des Koeffizienten und wird als ein Chi-Quadratvertrieb asymptotisch verteilt.

Obwohl mehrere statistische Pakete (z.B, SPSS, SAS) Wald anzeigen, der statistisch ist, den Beitrag von individuellen Propheten zu bewerten, ist statistischer Wald nicht ohne Beschränkungen. Wenn der Regressionskoeffizient groß ist, neigt der Standardfehler des Regressionskoeffizienten auch dazu, große Erhöhung der Wahrscheinlichkeit des Fehlers des Typs-II zu sein. Das Wald statistische neigt auch dazu, beeinflusst zu werden, wenn Daten spärlich sind.

Formelle mathematische Spezifizierung

Es gibt verschiedene gleichwertige Spezifizierungen des logistischen rückwärts Gehens, die verschiedene Typen von allgemeineren Modellen einbauen. Diese verschiedenen Spezifizierungen berücksichtigen verschiedene Sorten von nützlichen Generalisationen.

Einstellung

Die grundlegende Einstellung des logistischen rückwärts Gehens ist dasselbe bezüglich des geradlinigen Standardrückwärts Gehens.

Es wird angenommen, dass wir eine Reihe von beobachteten Datenpunkten von N haben. Jeder weisen Daten i hin (im Intervall von 1 zu N) besteht aus erklärenden Variablen von einer Reihe M x... x (auch bekannt als unabhängige Variablen, Prophet-Variablen, Eigenschaften, usw.), und ein verbundenes binär geschätztes Ergebnis Y (auch bekannt als abhängige Variable, Ansprechvariable), d. h. kann es nur die zwei möglichen Werte 0 (häufig Bedeutung von "nein" oder "Misserfolg") oder 1 (häufig Bedeutung von "ja" oder "Erfolg") annehmen. Die erklärenden Variablen und das Ergebnis vertreten normalerweise beobachtete Eigenschaften der Datenpunkte. Die Absicht des logistischen rückwärts Gehens ist, die Beziehung zwischen den erklärenden Variablen und dem Ergebnis zu erklären, so dass das Ergebnis für einen neuen Datenpunkt richtig vorausgesagt werden kann, für den nur die erklärenden Variablen verfügbar sind.

Einige Beispiele:

  • Die beobachteten Ergebnisse sind die Anwesenheit oder Abwesenheit einer gegebenen Krankheit (z.B Zuckerkrankheit) in einer Reihe von Patienten, und die erklärenden Variablen könnten Eigenschaften der Patienten sein, die vorgehabt sind (Geschlecht, Rasse, Alter, Blutdruck, Körpermassenindex, usw.) sachdienlich zu sein.
  • Die beobachteten Ergebnisse sind die Stimmen (z.B. Demokratisch oder republikanisch) einer Reihe von Menschen in einer Wahl und der erklärenden Variablen sind die demografischen Eigenschaften jeder Person (z.B Geschlecht, Rasse, Alter, Einkommen, usw.). In solch einem Fall wird eines der zwei Ergebnisse als 1, und der andere als 0 willkürlich codiert.

Als im geradlinigen rückwärts Gehen, wie man annimmt, sind die Ergebnisse Y zufällige Variablen, aber die erklärenden Variablen x... x sind nicht.

Die erklärenden Variablen

Wie gezeigt, oben in den obengenannten Beispielen können die erklärenden Variablen von jedem Typ sein: reellwertig, binär, kategorisch, usw. Die Hauptunterscheidung ist zwischen dauernden Variablen (z.B Einkommen, Alter, Blutdruck, usw.) und getrennten Variablen (z.B Geschlecht, Rasse, politische Partei, usw.) Getrennte Variablen, die sich auf mehr als zwei mögliche Wahlen beziehen, werden normalerweise mit Platzhaltervariablen (oder Anzeigevariablen) codiert, d. h. trennen erklärende Variablen, die den Wert 0 nehmen, oder 1 werden für jeden möglichen Wert der getrennten Variable geschaffen, mit einer 1 Bedeutung "hat Variable wirklich den gegebenen Wert", und eine 0 Bedeutung "Variable hat den gegebenen Wert nicht". Zum Beispiel würde eine vierwegige getrennte Variable der Blutgruppe mit den möglichen Werten "A, B, AB, O" zu vier getrennten Zweiwegeplatzhaltervariablen umgewandelt, "Ist - A, ist - B, ist - AB, ist - O", wo nur ein von ihnen den Wert 1 haben und der ganze Rest den Wert 0 haben. Das berücksichtigt getrennte Regressionskoeffizienten, die für jeden möglichen Wert der getrennten Variable zu vergleichen sind. (Bemerken Sie, dass in einem Fall wie das nur drei der vier Platzhaltervariablen von einander im Sinn unabhängig sind, dass sobald die Werte von drei der Variablen bekannt sind, wird das vierte automatisch bestimmt. So ist es wirklich nur notwendig, drei der vier Möglichkeiten als Platzhaltervariablen zu verschlüsseln. Das bedeutet auch, dass, wenn alle vier Möglichkeiten verschlüsselt werden, das gesamte Modell ohne zusätzliche Einschränkungen wie eine regularization Einschränkung nicht identifizierbar ist. Theoretisch konnte das Probleme verursachen, aber in Wirklichkeit werden fast alle logistischen Modelle des rückwärts Gehens mit regularization Einschränkungen ausgerüstet.)

Die Ergebnisse

Formell werden die Ergebnisse Y als Bernoulli-verteilt Daten beschrieben, wo jedes Ergebnis durch eine unbemerkte Wahrscheinlichkeit p bestimmt wird, der zum Ergebnis in der Nähe, aber verbundener mit den erklärenden Variablen spezifisch ist. Das kann in einigen der folgenden gleichwertigen Formen ausgedrückt werden:

:

\begin {richten }\aus

Y_i|x_ {1, ich}, \ldots, x_ {M, ich} \& \sim \operatorname {Bernoulli} (p_i) \\

\mathbb {E} [Y_i|x_ {1, ich}, \ldots, x_ {M, ich}] &= p_i \\

\Pr (Y_i|x_ {1, ich}, \ldots, x_ {M, ich})

&=

\begin {Fälle }\

p_i & \text {wenn} Y_i=1 \\

1-p_i & \text {wenn} Y_i=0 \\

\end {Fälle }\

\\

\Pr (Y_i|x_ {1, ich}, \ldots, x_ {M, ich}) &= p_i^ {Y_i} (1-p_i) ^ {(1-Y_i) }\

\end {richten }\aus

</Mathematik>

Die Bedeutungen dieser vier Linien sind:

  1. Die erste Linie drückt den Wahrscheinlichkeitsvertrieb jedes Y aus: Bedingt auf den erklärenden Variablen folgt es einem Vertrieb von Bernoulli, der durch p, die Wahrscheinlichkeit des Ergebnisses 1 ("Erfolg", "ja", usw.) für die Probe i parametrisiert ist. Wie bemerkt, oben hat jede getrennte Probe seine eigene Wahrscheinlichkeit des Erfolgs, wie jede Probe seine eigenen erklärenden Variablen hat. Die Wahrscheinlichkeit des Erfolgs p, wird nur das Ergebnis einer Probe der Person Bernoulli mit dieser Wahrscheinlichkeit nicht beobachtet.
  2. Die zweite Linie drückt die Tatsache aus, dass der erwartete Wert jedes Y der Wahrscheinlichkeit des Erfolgs p gleich ist, der ein allgemeines Eigentum des Vertriebs von Bernoulli ist. Mit anderen Worten, wenn Sie eine Vielzahl von Proben von Bernoulli mit derselben Wahrscheinlichkeit des Erfolgs p führen sollten, jeden Erfolg 1 und jeder Misserfolg codierend, würde 0, wie normal ist, und dann den Durchschnitt von allen diejenigen 1's und 0's, das Ergebnis nehmen, das Sie bekommen würden, p nah sein. Das ist, weil, einen Durchschnitt tuend, dieser Weg einfach das Verhältnis von gesehenen Erfolgen schätzt, der wir annehmen, zur zu Grunde liegenden Wahrscheinlichkeit des Erfolgs zusammenzulaufen.
  3. Die dritte Linie schreibt die Wahrscheinlichkeitsmassenfunktion des Vertriebs von Bernoulli aus, die Wahrscheinlichkeit angebend, jedes mögliche Ergebnis zu sehen (es gibt nur zwei).
  4. Die vierte Linie ist eine andere Weise, die Wahrscheinlichkeitsmassenfunktion zu schreiben, die vermeidet, getrennte Fälle ausschreiben zu müssen, und für bestimmte Typen von Berechnungen günstiger ist. Das verlässt sich auf die Tatsache, dass Y nur den Wert 0 oder 1 nehmen kann. In jedem Fall wird eine der Hochzahlen 1 sein, den Wert darunter "wählend", während der andere 0 ist, "" den Wert darunter annullierend. Folglich ist das Ergebnis entweder p oder 1 - p, als in der vorherigen Linie.

Geradlinige Prophet-Funktion

Die Grundidee des logistischen rückwärts Gehens ist, den für das geradlinige rückwärts Gehen bereits entwickelten Mechanismus durch das Modellieren der Wahrscheinlichkeit p das Verwenden einer geradlinigen Prophet-Funktion, d. h. einer geradlinigen Kombination der erklärenden Variablen und einer Reihe von Regressionskoeffizienten zu verwenden, die zum Modell in der Nähe, aber demselben über alle Proben spezifisch sind. Die geradlinige Prophet-Funktion für eine Einzelheit Daten spitzen an, dass ich als geschrieben werde:

:

wo Regressionskoeffizienten sind, die die Verhältniswirkung einer besonderen erklärenden Variable auf dem Ergebnis anzeigen.

Das Modell wird gewöhnlich in eine kompaktere Form wie folgt gestellt:

  • Die Regressionskoeffizienten β, β..., β werden in einen einzelnen Vektoren β der Größe k+1 gruppiert.
  • Für jeden weisen Daten i hin, eine zusätzliche erklärende Pseudovariable x, wird mit einem festen Wert von 1, entsprechend dem Abschnitt-Koeffizienten β hinzugefügt.
  • Die resultierenden erklärenden Variablen x, x..., x werden dann in einen einzelnen Vektoren X der Größe k+1 gruppiert.

Das macht es möglich, die geradlinige Prophet-Funktion wie folgt zu schreiben:

:

das Verwenden der Notation für ein Punktprodukt zwischen zwei Vektoren.

Als ein verallgemeinertes geradliniges Modell

Das besondere Modell, das durch das logistische rückwärts Gehen verwendet ist, das es vom geradlinigen Standardrückwärts Gehen und von anderen Typen der für binär geschätzte Ergebnisse verwendeten Regressionsanalyse unterscheidet, ist die Weise, wie die Wahrscheinlichkeit eines besonderen Ergebnisses mit der geradlinigen Prophet-Funktion verbunden wird:

:

Das schriftliche Verwenden der kompakteren Notation, die oben beschrieben ist, das ist:

:

Diese Formulierung drückt logistisches rückwärts Gehen als ein Typ des verallgemeinerten geradlinigen Modells aus, das Variablen mit verschiedenen Typen des Wahrscheinlichkeitsvertriebs durch die Anprobe einer geradlinigen Prophet-Funktion der obengenannten Form zu einer Art willkürlicher Transformation des erwarteten Werts der Variable voraussagt.

Die Intuition, für das Verwenden der Logit-Funktion (der natürliche Klotz der Verschiedenheit) umzugestalten, wurde oben erklärt. Es hat auch die praktische Wirkung, die Wahrscheinlichkeit umzuwandeln (der begrenzt wird, um zwischen 0 und 1 zu sein), zu einer Variable, die sich über — dadurch das Zusammenbringen der potenziellen Reihe der geradlinigen Vorhersagefunktion auf der richtigen Seite der Gleichung erstreckt.

Bemerken Sie, dass sowohl die Wahrscheinlichkeiten p als auch die Regressionskoeffizienten unbemerkt sind, und das Mittel der Bestimmung von ihnen nicht ein Teil des Modells selbst ist. Sie werden normalerweise durch eine Art Optimierungsverfahren bestimmt, z.B unterwirft maximale Wahrscheinlichkeitsbewertung, die Werte findet, die am besten die beobachteten Daten passen (d. h. die die genauesten Vorhersagen für die bereits beobachteten Daten geben), gewöhnlich regularization Bedingungen, die sich bemühen, kaum Werte, z.B äußerst große Werte für einigen der Regressionskoeffizienten auszuschließen. Der Gebrauch einer regularization Bedingung ist zum Tun der Bewertung des Maximums a posteriori (MAP), einer Erweiterung der maximalen Wahrscheinlichkeit gleichwertig. (Regularization wird meistens mit einer karierten Regelungsfunktion getan, die zum Stellen von nullbösartigem Gaussian vorheriger Vertrieb auf den Koeffizienten gleichwertig ist, aber andere regularizers sind auch möglich.) Ob regularization verwendet wird, ist es gewöhnlich nicht möglich, eine Lösung der geschlossenen Form zu finden; statt dessen muss eine wiederholende numerische Methode, wie wiederholend wiederbeschwert kleinste Quadrate (IRLS) oder, allgemeiner an diesen Tagen, eine Quasinewton-Methode wie die L-BFGS Methode verwendet werden.

Die Interpretation der β Parameter-Schätzungen ist als die zusätzliche Wirkung auf den Klotz der Verschiedenheit für eine Einheitsänderung in der jth erklärenden Variable. Im Fall von einer dichotomen erklärenden Variable, zum Beispiel Geschlecht, ist die Schätzung der Verschiedenheit, das Ergebnis für, sagen wir, Männer im Vergleich zu Frauen zu haben.

Eine gleichwertige Formel verwendet das Gegenteil der Logit-Funktion, die die logistische Funktion ist, d. h.:

:

Die Formel kann auch (etwas ungeschickt) als ein Wahrscheinlichkeitsvertrieb (spezifisch, mit einer Wahrscheinlichkeitsmassenfunktion) geschrieben werden:

:

Als ein latent-variables Modell

Das obengenannte Modell hat eine gleichwertige Formulierung als ein latent-variables Modell. Diese Formulierung ist in der Theorie von getrennten auserlesenen Modellen üblich, und macht es leichter, sich bis zu bestimmte mehr komplizierte Modelle mit vielfachen, aufeinander bezogenen Wahlen auszustrecken, sowie logistisches rückwärts Gehen mit dem nah zusammenhängenden Pro-Bit-Modell zu vergleichen.

Stellen Sie sich vor, dass, für jede Probe i, es eine dauernde latente Variable Y gibt (d. h. eine unbemerkte zufällige Variable), der wie folgt verteilt wird:

:wo:

d. h. die latente Variable kann direkt in Bezug auf die geradlinige Prophet-Funktion und eine zusätzliche zufällige Fehlervariable geschrieben werden, die gemäß einem logistischen Standardvertrieb verteilt wird.

Dann kann Y als ein Hinweis dafür angesehen werden, ob diese latente Variable positiv ist:

:

Die Wahl, die Fehlervariable spezifisch mit einem logistischen Standardvertrieb, aber nicht einem allgemeinen logistischen Vertrieb mit der Position und dem Skala-Satz zu willkürlichen Werten zu modellieren, scheint einschränkend, aber tatsächlich ist es nicht. Es muss beachtet werden, dass wir die Regressionskoeffizienten selbst wählen können, und sie sehr häufig verwenden können, um Änderungen in den Rahmen des Fehlervariable-Vertriebs auszugleichen. Zum Beispiel, ein logistischer fehlervariabler Vertrieb mit einem Nichtnullpositionsparameter &mu; (der untergeht, das bösartige) ist zu einem Vertrieb mit einem Nullpositionsparameter, wo &mu gleichwertig; ist zum Abschnitt-Koeffizienten hinzugefügt worden. Beide Situationen erzeugen denselben Wert für Y unabhängig von Einstellungen von erklärenden Variablen. Ähnlich ist ein willkürlicher Skala-Parameter s zum Aufstellen der Skala-Parameter zu 1 und dann das Teilen aller Regressionskoeffizienten durch s gleichwertig. Im letzten Fall wird der resultierende Wert von Y durch einen Faktor von s kleiner sein als im ehemaligen Fall, für alle Sätze von erklärenden Variablen — aber kritisch wird es immer auf derselben Seite 0 bleiben, und folglich zu derselben Y Wahl führen.

(Bemerken Sie, dass das voraussagt, dass die Belanglosigkeit des Skala-Parameters in kompliziertere Modelle nicht vortragen kann, wo mehr als zwei Wahlen verfügbar sind.)

Es stellt sich heraus, dass diese Formulierung zur vorhergehenden genau gleichwertig ist, die in Bezug auf das verallgemeinerte geradlinige Modell und ohne irgendwelche latenten Variablen ausgedrückt ist. Das kann wie folgt mit der Tatsache gezeigt werden, dass die kumulative Vertriebsfunktion (CDF) des logistischen Standardvertriebs die logistische Funktion ist, die das Gegenteil der Logit-Funktion ist, d. h.

:

Dann:

:

\begin {Reihe} {rlll }\

\Pr (Y_i=1 |\mathbf {X} _i) &=& \Pr (Y_i^\\ast> 0 |\mathbf {X} _i) & \\

&=& \Pr (\boldsymbol\beta \cdot \mathbf {X} _i + \varepsilon> 0) & \\

&=& \Pr (\varepsilon>-\boldsymbol\beta \cdot \mathbf {X} _i) &\\\

&=& \Pr (\varepsilon

Diese Formulierung — der in getrennten auserlesenen Modellen normal ist — macht die Beziehung zwischen dem logistischen rückwärts Gehen ("logit Modell") und dem Pro-Bit-Modell verständlich, das eine Fehlervariable verwendet, die gemäß einer Standardnormalverteilung statt eines logistischen Standardvertriebs verteilt ist. Sowohl die logistischen als auch Normalverteilungen sind mit einem grundlegenden unimodalen symmetrisch, "Glockenkurve" formt sich. Der einzige Unterschied ist, dass der logistische Vertrieb etwas schwerere Schwänze hat, was bedeutet, dass es zu abgelegenen Daten weniger empfindlich (und folglich zu Mustermis-Spezifizierungen oder falschen Daten etwas robuster ist).

Als ein latent-variables Zweiwegemodell

Und doch verwendet eine andere Formulierung zwei trennen latente Variablen:

: \begin {richten }\aus

Y_i^ {0\ast} &= \boldsymbol\beta_0 \cdot \mathbf {X} _i + \varepsilon_0 \, \\

Y_i^ {1\ast} &= \boldsymbol\beta_1 \cdot \mathbf {X} _i + \varepsilon_1 \, \\

\end {richten }\aus</Mathematik>wo: \begin {richten }\aus

\varepsilon_0 & \sim \operatorname {EV} _1 (0,1) \\

\varepsilon_1 & \sim \operatorname {EV} _1 (0,1) \\

\end {richten }\aus</Mathematik>

wo EV (0,1) ein normaler Typ 1 äußerster Wertvertrieb ist: d. h.

:

Dann

:

0 &\\Text {otherwise.} \end {Fälle} </Mathematik>

Dieses Modell hat eine getrennte latente Variable und einen getrennten Satz von Regressionskoeffizienten für jedes mögliche Ergebnis der abhängigen Variable. Der Grund für diese Trennung besteht darin, dass sie es leicht macht, logistisches rückwärts Gehen zum Mehrergebnis kategorische Variablen, als im multinomial logit Modell zu erweitern. In solch einem Modell ist es natürlich, jedes mögliche Ergebnis mit einem verschiedenen Satz von Regressionskoeffizienten zu modellieren. Es ist auch möglich, jede der getrennten latenten Variablen als das theoretische Dienstprogramm zu motivieren, das mit dem Bilden der verbundenen Wahl vereinigt ist, und so logistisches rückwärts Gehen in Bezug auf die Dienstprogramm-Theorie zu motivieren. (In Bezug auf die Dienstprogramm-Theorie wählt ein vernünftiger Schauspieler immer die Wahl mit dem größten verbundenen Dienstprogramm.) Das ist tatsächlich die von Wirtschaftswissenschaftlern genommene Annäherung, wenn es getrennte auserlesene Modelle formuliert, weil sie sowohl ein theoretisch starkes Fundament zur Verfügung stellt als auch Intuitionen über das Modell erleichtert, das es der Reihe nach leicht macht, verschiedene Sorten von Erweiterungen zu denken. (Sieh das Beispiel unten.)

Die Wahl des Typs 1 äußerster Wertvertrieb scheint ziemlich willkürlich, aber es macht die Mathematik-Arbeit aus, und kann es möglich sein, seinen Gebrauch durch die vernünftige auserlesene Theorie zu rechtfertigen.

Es stellt sich heraus, dass dieses Modell zum vorherigen Modell gleichwertig ist, obwohl das nichtoffensichtlich scheint, da es jetzt zwei Sätze von Regressionskoeffizienten und Fehlervariablen gibt, und die Fehlervariablen einen verschiedenen Vertrieb haben. Tatsächlich nimmt dieses Modell direkt zum vorherigen mit den folgenden Ersetzungen ab:

::

Eine Intuition dafür kommt aus der Tatsache, dass, da wir gestützt auf dem Maximum von zwei Werten, nur ihre Unterschied-Sachen, nicht die genauen Werte wählen — und das effektiv einen Grad der Freiheit entfernt. Eine andere kritische Tatsache ist, dass der Unterschied von zwei Typ 1 äußerster Wert hat Variablen verteilt, ein logistischer Vertrieb, d. h. wenn ist

Wir können die Entsprechung wie folgt demonstrieren:

:\begin {Reihe} {rlll }\

\Pr (Y_i=1\mid\mathbf {X} _i) &=& \Pr (Y_i^ {1\ast}> Y_i^ {0\ast }\\mid\mathbf {X} _i) & \\

&=& \Pr (Y_i^ {1\ast} - Y_i^ {0\ast}> 0\mid\mathbf {X} _i) & \\

&=& \Pr (\boldsymbol\beta_1 \cdot \mathbf {X} _i + \varepsilon_1 - (\boldsymbol\beta_0 \cdot \mathbf {X} _i + \varepsilon_0)> 0) & \\

&=& \Pr ((\boldsymbol\beta_1 \cdot \mathbf {X} _i - \boldsymbol\beta_0 \cdot \mathbf {X} _i) + (\varepsilon_1 - \varepsilon_0)> 0) & \\

&=& \Pr ((\boldsymbol\beta_1 - \boldsymbol\beta_0) \cdot \mathbf {X} _i + (\varepsilon_1 - \varepsilon_0)> 0) & \\

&=& \Pr ((\boldsymbol\beta_1 - \boldsymbol\beta_0) \cdot \mathbf {X} _i + \varepsilon> 0) & \text {(setzen }\\varepsilon\text {als oben ein),} \\

&=& \Pr (\boldsymbol\beta \cdot \mathbf {X} _i + \varepsilon> 0) & \text {(setzen }\\boldsymbol\beta\text {als oben ein),} \\

&=& \Pr (\varepsilon>-\boldsymbol\beta \cdot \mathbf {X} _i) & \text {(jetzt, dasselbe als über dem Modell) }\\\

&=& \Pr (\varepsilon

Beispiel

Als ein Beispiel, denken Sie eine Wahl des Provinz-Niveaus, wo die Wahl zwischen einer Partei des Rechts auf das Zentrum, einer des Zentrums nach links Partei und einer Abtrünniger-Partei (z.B Parti Québécois ist, der will, dass sich Quebec von Kanada trennt), wessen primäre Plattform einer des Abfalls ist und keine starken Ansichten auf anderen Problemen hat. Wir würden dann drei latente Variablen, ein für jede Wahl verwenden. Dann, in Übereinstimmung mit der Dienstprogramm-Theorie, können wir dann die latenten Variablen als das Ausdrücken des Dienstprogrammes interpretieren, das sich aus dem Bilden von jeder der Wahlen ergibt. Wir können auch die Regressionskoeffizienten als das Anzeigen der Kraft interpretieren, die der verbundene Faktor (d. h. erklärende Variable) im Beitragen zum Dienstprogramm — oder richtiger, der Betrag hat, durch den eine Einheitsänderung in einer erklärenden Variable das Dienstprogramm einer gegebenen Wahl ändert. Ein Stimmberechtigter könnte erwarten, dass die Partei des Rechts auf das Zentrum Steuern besonders auf reichen Leuten senken würde. Das würde Leuten des niedrigen Einkommens keinen Vorteil geben, d. h. keine Änderung im Dienstprogramm (da sie gewöhnlich Steuern nicht bezahlen); würde gemäßigten Vorteil (d. h. etwas mehr Geld oder gemäßigte Dienstprogramm-Zunahme) für mittler-nachfolgend Leute verursachen; und würde bedeutende Vorteile für Leute des hohen Einkommens verursachen. Andererseits, wie man erwarten könnte, hat die des Zentrums nach links Partei Steuern erhoben und es mit der vergrößerten Sozialfürsorge und anderen Hilfe für den niedrigeren und Mittelstand ausgeglichen. Das würde bedeutenden positiven Vorteil für Leute des niedrigen Einkommens, vielleicht schwacher Vorteil für Leute mit mittlerem Einkommen und bedeutender negativer Vorteil für Leute des hohen Einkommens verursachen. Schließlich würde die Abtrünniger-Partei keine direkten Handlungen auf der Wirtschaft nehmen, aber sich einfach trennen. Ein niedriges Einkommen oder Stimmberechtigter mit mittlerem Einkommen könnten grundsätzlich keinen klaren Dienstprogramm-Gewinn oder Verlust davon erwarten, aber ein Stimmberechtigter des hohen Einkommens könnte negatives Dienstprogramm erwarten, da er/sie wahrscheinlich Gesellschaften besitzen wird, die härtere Zeitmachen-Geschäfte in solch einer Umgebung haben und wahrscheinlich Geld verlieren werden.

Diese Intuitionen können wie folgt ausgedrückt werden:

Das zeigt klar dem

  1. Getrennte Sätze von Regressionskoeffizienten müssen für jede Wahl bestehen. Wenn ausgedrückt, in Bezug auf das Dienstprogramm kann das sehr leicht gesehen werden. Verschiedene Wahlen haben verschiedene Effekten auf das Nettodienstprogramm; außerdem ändern sich die Effekten auf komplizierte Weisen, die von den Eigenschaften jeder Person abhängen, so muss es getrennte Sätze von Koeffizienten für jede Eigenschaft, nicht einfach eine einzelne Extraeigenschaft pro Wahl geben.
  2. Wenn auch Einkommen eine dauernde Variable ist, ist seine Wirkung auf das Dienstprogramm dafür zu kompliziert, um als eine einzelne Variable behandelt zu werden. Entweder es muss in Reihen direkt aufgeteilt werden, oder höhere Mächte des Einkommens müssen hinzugefügt werden, so dass das polynomische rückwärts Gehen auf dem Einkommen effektiv getan wird.

Als ein "mit dem Klotz geradliniges" Modell

Und doch verbindet eine andere Formulierung die variable latente Zweiwegeformulierung oben mit der ursprünglichen Formulierung höher ohne latente Variablen, und im Prozess stellt eine Verbindung zu einer der Standardformulierungen des multinomial logit zur Verfügung.

Hier, anstatt den logit über die Wahrscheinlichkeiten p als ein geradliniger Prophet zu schreiben, trennen wir den geradlinigen Propheten in zwei, ein für jedes der zwei Ergebnisse:

: \begin {richten }\aus

\ln p (Y_i=0) &= \boldsymbol\beta_0 \cdot \mathbf {X} _i - \ln Z \, \\

\ln p (Y_i=1) &= \boldsymbol\beta_1 \cdot \mathbf {X} _i - \ln Z \, \\

\end {richten }\aus</Mathematik>

Bemerken Sie, dass zwei getrennte Sätze von Regressionskoeffizienten, ebenso im variablen latenten Zweiwegemodell eingeführt worden sind, und die zwei Gleichungen eine Form erscheinen, die den Logarithmus über die verbundene Wahrscheinlichkeit als ein geradliniger Prophet mit einem Extrabegriff am Ende schreibt. Dieser Begriff, wie es sich erweist, dient als der Normalisieren-Faktor, der sicherstellt, dass das Ergebnis ein Vertrieb ist. Das kann durch exponentiating beide Seiten gesehen werden:

: \begin {richten }\aus

p (Y_i=0) &= \frac {1} {Z} e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i} \, \\

p (Y_i=1) &= \frac {1} {Z} e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i} \, \\

\end {richten }\aus</Mathematik>

In dieser Form ist es klar, dass der Zweck von Z ist sicherzustellen, dass der resultierende Vertrieb über Y tatsächlich ein Wahrscheinlichkeitsvertrieb ist, d. h. es zu 1 resümiert. Das bedeutet, dass Z einfach die Summe aller unnormalisierten Wahrscheinlichkeiten, und durch das Teilen jeder Wahrscheinlichkeit durch Z ist, werden die Wahrscheinlichkeiten "normalisiert]". Das ist:

:

und die resultierenden Gleichungen sind

:\begin {richten }\aus

p (Y_i=0) &= \frac {e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i}} {e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i} + e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} \, \\

p (Y_i=1) &= \frac {e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} {e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i} + e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} \, \\

\end {richten }\aus</Mathematik>

Oder allgemein:

:

Das zeigt klar, wie man diese Formulierung zu mehr als zwei Ergebnissen, als in multinomial logit verallgemeinert.

Jetzt wie können wir beweisen, dass das zum vorherigen Modell gleichwertig ist? Beachten Sie, dass das obengenannte Modell, darin überangegeben wird und nicht unabhängig angegeben werden kann: Eher so das Wissen von demjenigen bestimmt automatisch den anderen. Infolgedessen ist das Modell, in diesem Vielfache Kombinationen &beta nichtidentifizierbar; und &beta; wird dieselben Wahrscheinlichkeiten für alle möglichen erklärenden Variablen erzeugen. Tatsächlich kann es gesehen werden, dass das Hinzufügen jedes unveränderlichen Vektoren zu ihnen beiden dieselben Wahrscheinlichkeiten erzeugen wird:

:\begin {richten }\aus

p (Y_i=1) &= \frac {e^ {(\boldsymbol\beta_1 + \mathbf {C}) \cdot \mathbf {X} _i}} {e^ {(\boldsymbol\beta_0 + \mathbf {C}) \cdot \mathbf {X} _i} + e^ {(\boldsymbol\beta_1 + \mathbf {C}) \cdot \mathbf {X} _i}} \, \\

&= \frac {e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i} e^ {-\mathbf {C} \cdot \mathbf {X} _i}} {e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i} e^ {\\mathbf {C} \cdot \mathbf {X} _i} + e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i} e^ {\\mathbf {C} \cdot \mathbf {X} _i}} \, \\

&= \frac {e^ {\\mathbf {C} \cdot \mathbf {X} _i} e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} {e^ {\\mathbf {C} \cdot \mathbf {X} _i} (e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i} + e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i})} \, \\

&= \frac {e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} {e^ {\\boldsymbol\beta_0 \cdot \mathbf {X} _i} + e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} \, \\

\end {richten }\aus</Mathematik>

Infolgedessen können wir Sachen vereinfachen, und identifiability wieder herstellen, indem wir einen willkürlichen Wert für einen der zwei Vektoren aufpicken. Wir beschließen, Dann, unterzugehen

:

und so

:

p (Y_i=1) = \frac {e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} {1 + e^ {\\boldsymbol\beta_1 \cdot \mathbf {X} _i}} = \frac {1} {1+e^ {-\boldsymbol\beta_1 \cdot \mathbf {X} _i}} = p_i </Mathematik>

der zeigt, dass diese Formulierung tatsächlich zur vorherigen Formulierung gleichwertig ist. (Als in der variablen latenten Zweiwegeformulierung, irgendwelche Einstellungen, wo gleichwertige Ergebnisse erzeugen wird.)

Bemerken Sie, dass die meisten Behandlungen des multinomial logit Modell entweder durch das Verlängern der "mit dem Klotz geradlinigen" Formulierung präsentiert hier oder der variablen latenten Zweiwegeformulierung aufbrechen, die oben präsentiert ist, da beide klar die Weise zeigen, wie das Modell zu mehrwegigen Ergebnissen erweitert werden konnte. Im Allgemeinen ist die Präsentation mit latenten Variablen in econometrics und Staatswissenschaft üblicher, wo getrennte auserlesene Modelle und Dienstprogramm-Theorie-Regierung, während die "mit dem Klotz geradlinige" Formulierung hier in der Informatik, z.B das Maschinenlernen und die Verarbeitung der natürlichen Sprache üblicher ist.

Als eine einzelne Schicht perceptron

Das Modell hat eine gleichwertige Formulierung

:

Diese funktionelle Form wird eine einzelne Schicht perceptron oder einzelne Schicht künstliches Nervennetz allgemein genannt. Eine einzelne Schicht Nervennetz schätzt eine dauernde Produktion statt einer Schritt-Funktion. Die Ableitung von p in Bezug auf X = x... x wird von der allgemeinen Form geschätzt:

:

wo f (X) eine analytische Funktion in X ist. Mit dieser Wahl die einzelne Schicht ist Nervennetz zum logistischen Modell des rückwärts Gehens identisch. Diese Funktion hat eine dauernde Ableitung, die ihr erlaubt, in der Rückübertragung verwendet zu werden. Diese Funktion wird auch bevorzugt, weil seine Ableitung leicht berechnet wird:

:

In Bezug auf binomische Daten

Ein nah zusammenhängendes Modell nimmt an, dass jeder ich werde nicht mit einer einzelnen Probe von Bernoulli, aber mit n unabhängigen identisch verteilten Proben vereinigt, wo die Beobachtung Y die Zahl von Erfolgen beobachtet (die Summe der individuellen Bernoulli-verteilten zufälligen Variablen) ist, und folglich einem binomischen Vertrieb folgt:

:

Ein Beispiel dieses Vertriebs ist der Bruchteil von Samen (p), die keimen, nachdem n gepflanzt werden.

In Bezug auf erwartete Werte wird dieses Modell wie folgt ausgedrückt:

:

so dass

:

Oder gleichwertig:

:

Dieses Modell kann das passende Verwenden derselben Sorten von Methoden wie das obengenannte grundlegendere Modell sein.

Bayesian logistisches rückwärts Gehen

In einem Statistikzusammenhang von Bayesian wird vorheriger Vertrieb normalerweise auf den Regressionskoeffizienten gewöhnlich in der Form des Vertriebs von Gaussian gelegt. Leider ist der Vertrieb von Gaussian nicht die verbundene vorherige von der Wahrscheinlichkeitsfunktion im logistischen rückwärts Gehen; tatsächlich ist die Wahrscheinlichkeitsfunktion nicht eine Exponentialfamilie und hat so keinen verbundenen vorherigen überhaupt. Infolgedessen ist der spätere Vertrieb schwierig, sogar mit Standardsimulierungsalgorithmen (z.B Gibbs zu rechnen, der ausfällt).

Es gibt verschiedene Möglichkeiten:

  • Tun Sie keine richtige Analyse von Bayesian, aber rechnen Sie einfach ein Maximum spitzen a posteriori Schätzung der Rahmen an. Das, ist zum Beispiel, im "maximalen Wärmegewicht" classifiers im Maschinenlernen üblich.
  • Verwenden Sie eine allgemeinere Annäherungsmethode wie Metropole-Hastings.
  • Verwenden Sie ein latentes variables Modell und kommen Sie dem logistischen Vertrieb mit einem lenksameren Vertrieb, z.B einem T-Vertrieb eines Studenten oder einer Mischung von Normalverteilungen näher.
  • Tun Sie Pro-Bit-rückwärts Gehen statt des logistischen rückwärts Gehens. Das ist wirklich ein spezieller Fall der vorherigen Situation, mit einer Normalverteilung im Platz eines t eines Studenten, der Mischung von normals usw. Das wird weniger genau sein, aber hat den Vorteil, dass Pro-Bit-rückwärts Gehen äußerst üblich ist, und eine Konfektionsdurchführung von Bayesian bereits verfügbar sein kann.
  • Verwenden Sie die Annäherung von Laplace des späteren Vertriebs. Das kommt dem späteren mit einem Vertrieb von Gaussian näher. Das ist nicht eine schrecklich gute Annäherung, aber sie genügt, ob alles, was gewünscht wird, eine Schätzung des späteren bösartigen und der Abweichung ist. In solch einem Fall kann ein Annäherungsschema wie abweichender Bayes verwendet werden.

Gibbs, der mit einem näher kommenden Vertrieb ausfällt

Wie gezeigt, oben ist logistisches rückwärts Gehen zu einem latenten variablen Modell mit einer gemäß einem logistischen Standardvertrieb verteilten Fehlervariable gleichwertig. Der gesamte Vertrieb der latenten Variable ist auch ein logistischer Vertrieb, mit dem Mittelgleichen (d. h. die feste Menge, die zur Fehlervariable hinzugefügt ist). Dieses Modell vereinfacht beträchtlich die Anwendung von Techniken wie Gibbs, der ausfällt. Jedoch ist Stichprobenerhebung der Regressionskoeffizienten noch wegen des Mangels an conjugacy zwischen dem normalen und logistischen Vertrieb schwierig. Das Ändern des vorherigen Vertriebs über die Regressionskoeffizienten ist keiner Hilfe, weil der logistische Vertrieb nicht in der Exponentialfamilie ist und so nicht verbunden vorherig hat.

Eine Möglichkeit ist, mehr Kette von General Markov Technik von Monte Carlo wie Metropole-Hastings zu verwenden, die willkürlicher Beispielvertrieb kann. Eine andere Möglichkeit ist jedoch, den logistischen Vertrieb durch einen Vertrieb in der ähnlichen Form zu ersetzen, der leichter ist, mit dem Verwenden von Gibbs zu arbeiten, der ausfällt. Tatsächlich haben die logistischen und Normalverteilungen eine ähnliche Gestalt, und so ist eine Möglichkeit einfach, Fehler normalerweise verteilt zu haben. Weil die Normalverteilung zu sich verbunden ist, wird Stichprobenerhebung der Regressionskoeffizienten leicht. Tatsächlich ist dieses Modell genau das im Pro-Bit-rückwärts Gehen verwendete Modell.

Jedoch unterscheidet sich der normale und logistische Vertrieb, in dem das logistische schwerere Schwänze hat. Infolgedessen ist es zu Ungenauigkeiten im zu Grunde liegenden Modell robuster (die unvermeidlich sind, in dem das Modell im Wesentlichen immer eine Annäherung ist), oder zu Fehlern in den Daten. Pro-Bit-rückwärts Gehen verliert etwas von dieser Robustheit.

Eine andere Alternative soll als ein T-Vertrieb eines Studenten verteilte Fehler verwenden. Der T-Vertrieb des Studenten hat schwere Schwänze, und ist zur Probe davon leicht, weil es der zusammengesetzte Vertrieb einer Normalverteilung mit der als ein umgekehrter Gammavertrieb verteilten Abweichung ist. Mit anderen Worten, wenn eine Normalverteilung für die Fehlervariable verwendet wird, und eine andere latente Variable, im Anschluss an einen umgekehrten Gammavertrieb, entsprechend der Abweichung dieser Fehlervariable hinzugefügt wird, wird der Randvertrieb der Fehlervariable einem T-Vertrieb eines Studenten folgen. Wegen der verschiedenen conjugacy Beziehungen sind alle Variablen in diesem Modell zur Probe davon leicht.

Der T-Vertrieb des Studenten, der am besten einem logistischen Standardvertrieb näher kommt, kann durch das Zusammenbringen der Momente des zwei Vertriebs bestimmt werden. Der T-Vertrieb des Studenten hat drei Rahmen, und da die Schiefe von beidem Vertrieb immer 0 ist, können die ersten vier Momente alle mit den folgenden Gleichungen verglichen werden:

:\begin {richten }\aus

\mu &= 0 \\

\frac {\\nu} {\\nu-2} s^2 &= \frac {\\pi^2} {3} \\

\frac {6} {\\nu-4} &= \frac {6} {5 }\

\end {richten }\aus</Mathematik>

Das gibt die folgenden Werte nach:

:\begin {richten }\aus\mu &= 0 \\

s &= \sqrt {\\frac {7} {9} \frac {\\pi^2} {3}} \\

\nu &= 9

\end {richten }\aus</Mathematik>

Die folgenden Graphen vergleichen den logistischen Standardvertrieb mit dem T-Vertrieb des Studenten, der die ersten vier Momente mit über-entschlossenem Werte, sowie die Normalverteilung vergleicht, die die ersten zwei Momente vergleicht. Bemerken Sie, wie viel näher der T-Vertrieb des Studenten besonders in den Schwänzen zustimmt. Außer ungefähr zwei Standardabweichungen vom bösartigen weichen die logistischen und Normalverteilungen schnell ab, aber der logistische T-Vertrieb und der T-Vertrieb des Studenten fangen nicht an, bedeutsam bis zu mehr als 5 Standardabweichungen weg abzuweichen.

(Eine andere Möglichkeit, die auch Gibbs zugänglich ist, der ausfällt, soll dem logistischen Vertrieb mit einer Mischungsdichte von Normalverteilungen näher kommen.)

Erweiterungen

Es gibt große Anzahl von Erweiterungen:

  • Multinomial logistisches rückwärts Gehen (oder multinomial logit) behandelt den Fall einer mehrwegigen kategorischen abhängigen Variable (mit nicht eingeordneten Werten, auch genannt "Klassifikation"). Bemerken Sie, dass der allgemeine Fall, abhängige Variablen mit mehr als zwei Werten zu haben, polytomous rückwärts Gehen genannt wird.
  • Bestelltes logistisches rückwärts Gehen (oder bestellter logit) behandelt abhängige Ordnungsvariablen (bestellte Werte).
  • Gemischter logit ist eine Erweiterung von multinomial logit, der Korrelationen unter den Wahlen der abhängigen Variable berücksichtigt.
  • Eine Erweiterung des logistischen Modells zu Sätzen von voneinander abhängigen Variablen ist das bedingte zufällige Feld.

Mustergenauigkeit

Eine Weise, für Fehler in durch das schrittweise rückwärts Gehen geschaffenen Modellen zu prüfen, soll sich auf den F-statistic des Modells, Bedeutung, oder vielfach-r nicht verlassen, aber stattdessen das Modell gegen eine Reihe von Daten bewerten, das nicht verwendet wurde, um das Modell zu schaffen. Die Klasse von Techniken wird Quer-Gültigkeitserklärung genannt.

Genauigkeit wird als richtig klassifizierte Aufzeichnungen in der holdout Probe gemessen. Es gibt vier mögliche Klassifikationen:

  1. Vorhersage 0, wenn die holdout Probe 0 (Wahrer Negative/TN) hat
  2. Vorhersage 0, wenn die holdout Probe 1 (Falscher Negative/FN) hat
  3. Vorhersage 1, wenn die holdout Probe 0 (Falscher Positive/FP) hat
  4. Vorhersage 1, wenn die holdout Probe 1 (Wahrer Positive/TP) hat

Diese Klassifikationen werden verwendet, um Präzision und Rückruf zu messen:

::

Das Prozent richtig klassifizierter Beobachtungen in der holdout Probe wird auf die bewertete Mustergenauigkeit verwiesen. Zusätzliche Genauigkeit kann als die Fähigkeit des Modells ausgedrückt werden, 0, oder die Fähigkeit richtig zu klassifizieren, 1 im holdout dataset richtig zu klassifizieren. Die holdout Musterbewertungsmethode ist besonders wertvoll, wenn Daten in verschiedenen Einstellungen (z.B, zu verschiedenen Zeiten oder Plätze) gesammelt werden, oder wenn, wie man annimmt, Modelle generalizable sind.

Siehe auch

Links


Liste von englischen Wörtern ohne Reime / EINFACH
Impressum & Datenschutz