Korrelation und Abhängigkeit

In der Statistik bezieht sich Abhängigkeit auf jede statistische Beziehung zwischen zwei zufälligen Variablen oder zwei Sätzen von Daten. Korrelation bezieht sich auf einige einer breiten Klasse von statistischen Beziehungen, die Abhängigkeit einschließen.

Vertraute Beispiele von abhängigen Phänomenen schließen die Korrelation zwischen den physischen Staturen von Eltern und ihrer Nachkommenschaft, und die Korrelation zwischen der Nachfrage nach einem Produkt und seinem Preis ein. Korrelationen sind nützlich, weil sie eine prophetische Beziehung anzeigen können, die in der Praxis ausgenutzt werden kann. Zum Beispiel kann ein elektrisches Dienstprogramm weniger Macht an einem milden Tag erzeugen, der auf der Korrelation zwischen Elektrizitätsnachfrage und Wetter gestützt ist. In diesem Beispiel gibt es eine kausale Beziehung, weil äußerstes Wetter Leute veranlasst, mehr Elektrizität zu verwenden, um zu heizen oder kühl zu werden; jedoch ist statistische Abhängigkeit nicht genügend, um die Anwesenheit solch einer kausalen Beziehung zu demonstrieren.

Formell bezieht sich Abhängigkeit auf jede Situation, in der zufällige Variablen keine mathematische Bedingung der probabilistic Unabhängigkeit befriedigen. Im losen Gebrauch kann sich Korrelation auf jede Abfahrt von zwei oder mehr zufälligen Variablen von der Unabhängigkeit beziehen, aber technisch bezieht es sich auf einigen von mehreren mehr spezialisierten Typen der Beziehung zwischen Mittelwerten. Es gibt mehrere Korrelationskoeffizienten, häufig hat ρ oder r angezeigt, den Grad der Korrelation messend. Der allgemeinste von diesen ist der Korrelationskoeffizient von Pearson, der nur zu einer geradlinigen Beziehung zwischen zwei Variablen empfindlich ist (der bestehen kann, selbst wenn man eine nichtlineare Funktion vom anderen ist). Andere Korrelationskoeffizienten sind entwickelt worden, um robuster als die Korrelation von Pearson - d. h. zu nichtlinearen Beziehungen empfindlicher zu sein.

Der Produktmoment-Koeffizient von Pearson

Das vertrauteste Maß der Abhängigkeit zwischen zwei Mengen ist der Produktmoment-Korrelationskoeffizient von Pearson, oder "die Korrelation von Pearson." Es wird durch das Teilen der Kovarianz der zwei Variablen durch das Produkt ihrer Standardabweichungen erhalten. Karl Pearson hat den Koeffizienten von einer ähnlichen, aber ein bisschen verschiedenen Idee durch Francis Galton entwickelt.

Der Bevölkerungskorrelationskoeffizient ρ zwischen zwei zufälligen Variablen X und Y mit erwarteten Werten μ und μ und Standardabweichungen σ und σ wird als definiert:

:

wo E der erwartete Wertmaschinenbediener, cov Mittel-Kovarianz, und, corr eine weit verwendete alternative Notation für die Korrelation von Pearson ist.

Die Korrelation von Pearson wird nur definiert, wenn beide der Standardabweichungen begrenzt sind und sie beide Nichtnull sind. Es ist eine Folgeerscheinung der Ungleichheit von Cauchy-Schwarz, die die Korrelation 1 im absoluten Wert nicht überschreiten kann. Der Korrelationskoeffizient ist symmetrisch: corr (X, Y) = corr (Y, X).

Die Korrelation von Pearson ist +1 im Fall von einer vollkommenen positiven (zunehmenden) geradlinigen Beziehung (Korrelation), 1 im Fall von einer vollkommenen abnehmenden (negativen) geradlinigen Beziehung (Antikorrelation) und ein Wert zwischen 1 und 1 in allen anderen Fällen, den Grad der geradlinigen Abhängigkeit zwischen den Variablen anzeigend. Da es sich Null nähert, gibt es weniger von einer Beziehung (näher am unkorrelierten). Je näher der Koeffizient entweder zu 1 oder zu 1, desto stärker die Korrelation zwischen den Variablen ist.

Wenn die Variablen unabhängig sind, ist der Korrelationskoeffizient von Pearson 0, aber das gegenteilige ist nicht wahr, weil der Korrelationskoeffizient nur geradlinige Abhängigkeiten zwischen zwei Variablen entdeckt. Nehmen Sie zum Beispiel an, dass die zufällige Variable X über die Null und Y = X symmetrisch verteilt wird. Dann wird Y durch X völlig bestimmt, so dass X und Y vollkommen abhängig sind, aber ihre Korrelation ist Null; sie sind unkorreliert. Jedoch im speziellen Fall, wenn X und Y gemeinsam normal sind, ist Unkorreliertkeit zur Unabhängigkeit gleichwertig.

Wenn wir eine Reihe von n Maßen X und Y schriftlich als x und y haben, wo ich = 1, 2..., n, dann kann der Beispielkorrelationskoeffizient verwendet werden, um die Bevölkerung Korrelation von Pearson r zwischen X und Y zu schätzen. Der Beispielkorrelationskoeffizient wird geschrieben

:

r_ {xy} = \frac {\\sum\limits_ {i=1} ^n (x_i-\bar {x}) (y_i-\bar {y})} {(n-1) s_x s_y }\

= \frac {\\sum\limits_ {i=1} ^n (x_i-\bar {x}) (y_i-\bar {y}) }\

{\\sqrt {\\sum\limits_ {i=1} ^n (x_i-\bar {x}) ^2 \sum\limits_ {i=1} ^n (y_i-\bar {y}) ^2}},

</Mathematik>

wo und die Beispielmittel X und Y sind, und s und s die Beispielstandardabweichungen X und Y sind.

Das kann auch als geschrieben werden:

:

r_ {xy} = \frac {\\summieren x_iy_i-n \bar {x} \bar {y}} {(n-1) s_x s_y} = \frac {n\sum x_iy_i-\sum x_i\sum y_i }\

{\\sqrt {n\sum X_i^2-(\sum x_i) ^2} ~ \sqrt {n\sum Y_i^2-(\sum y_i) ^2}}.

</Mathematik>

Wenn x und y Ergebnisse von Maßen sind, die Maß-Fehler enthalten, sind die realistischen Grenzen auf dem Korrelationskoeffizienten nicht 1 zu +1, aber eine kleinere Reihe.

Rangkorrelationskoeffizienten

Rangkorrelationskoeffizienten, wie der Rangkorrelationskoeffizient von Spearman und der Rangkorrelationskoeffizient von Kendall (τ) messen das Ausmaß, zu dem weil eine Variable zunimmt, neigt die andere Variable dazu, zuzunehmen, ohne dass Zunahme zu verlangen, durch eine geradlinige Beziehung vertreten zu werden. Wenn, als eine Variable, die anderen Abnahmen zunimmt, die Rangkorrelationskoeffizienten negativ sein werden. Es ist üblich, diese Rangkorrelationskoeffizienten als Alternativen zum Koeffizienten von Pearson, verwendet zu betrachten, entweder um den Betrag der Berechnung zu reduzieren oder den Koeffizienten weniger empfindlich zur Nichtnormalität im Vertrieb zu machen. Jedoch hat diese Ansicht wenig mathematische Basis, weil Rangkorrelationskoeffizienten einen verschiedenen Typ der Beziehung messen als der Produktmoment-Korrelationskoeffizient von Pearson, und am besten als Maßnahmen eines verschiedenen Typs der Vereinigung, aber nicht als alternatives Maß des Bevölkerungskorrelationskoeffizienten gesehen werden.

Um die Natur der Rangkorrelation und seinen Unterschied zur geradlinigen Korrelation zu illustrieren, denken die folgenden vier Paare von Zahlen (x, y):

: (0, 1), (10, 100), (101, 500), (102, 2000).

Da wir von jedem Paar dem folgenden Paar x Zunahmen gehen, und y auch. Diese Beziehung ist im Sinn vollkommen, dass eine Zunahme in x immer durch eine Zunahme in y begleitet wird. Das bedeutet, dass wir eine vollkommene Rangkorrelation haben, und sowohl die Korrelationskoeffizienten von Spearman als auch Kendalls sind 1, wohingegen in diesem Beispiel Produktmoment-Korrelationskoeffizient von Pearson 0.7544 ist, anzeigend, dass die Punkte davon weit sind, auf einer Gerade zu liegen. Ebenso, wenn y immer abnimmt, wenn x zunimmt, werden die Rangkorrelationskoeffizienten 1 sein, während der Produktmoment-Korrelationskoeffizient von Pearson kann oder 1, je nachdem nicht nah sein kann, wie nahe die Punkte zu einer Gerade sind. Obwohl in den äußersten Fällen der vollkommenen Rangkorrelation die zwei Koeffizienten beide gleich sind (beider +1 oder beider 1 seiend), ist das nicht im Allgemeinen so, und Werte der zwei Koeffizienten können nicht bedeutungsvoll verglichen werden. Zum Beispiel, für die drei Paare (1, 1) (2, 3) (3, 2) ist der Koeffizient von Spearman 1/2, während der Koeffizient von Kendall 1/3 ist.

Andere Maßnahmen der Abhängigkeit unter zufälligen Variablen

Die durch einen Korrelationskoeffizienten gegebene Information ist nicht genug, um die Abhängigkeitsstruktur zwischen zufälligen Variablen zu definieren. Der Korrelationskoeffizient definiert völlig die Abhängigkeitsstruktur nur in sehr besonderen Fällen zum Beispiel, wenn der Vertrieb eine multivariate Normalverteilung ist. (Sieh Diagramm oben.) Im Fall vom elliptischen Vertrieb charakterisiert es (hyper-) Ellipsen der gleichen Dichte jedoch, es charakterisiert die Abhängigkeitsstruktur nicht völlig (zum Beispiel, Grade eines multivariate T-Vertriebs der Freiheit bestimmen das Niveau der Schwanz-Abhängigkeit).

Entfernungskorrelation und Kovarianz von Brownian / Korrelation von Brownian wurde eingeführt, um den Mangel an der Korrelation von Pearson zu richten, dass es Null für abhängige zufällige Variablen sein kann; Nullentfernungskorrelation und Nullkorrelation von Brownian beziehen Unabhängigkeit ein.

Das Korrelationsverhältnis ist im Stande, fast jede funktionelle Abhängigkeit zu entdecken, und die Wärmegewicht-basierte gegenseitige Information, Gesamtkorrelation und Doppelgesamtkorrelation sind dazu fähig, noch allgemeinere Abhängigkeiten zu entdecken. Diese werden manchmal Mehrmoment-Korrelationsmaßnahmen, im Vergleich mit denjenigen genannt, die nur den zweiten Moment (pairwise oder quadratisch) als Abhängigkeit betrachten.

Die polychoric Korrelation ist eine andere auf Ordnungsdaten angewandte Korrelation, der zum Ziel hat, die Korrelation zwischen theoretisierten latenten Variablen zu schätzen.

Eine Weise, eine mehr ganze Ansicht von der Abhängigkeitsstruktur zu gewinnen, ist, ein Satzband zwischen ihnen zu denken.

Empfindlichkeit zum Datenvertrieb

Der Grad der Abhängigkeit zwischen Variablen X und Y hängt von der Skala nicht ab, auf der die Variablen ausgedrückt werden. D. h. wenn wir die Beziehung zwischen X und Y analysieren, sind die meisten Korrelationsmaßnahmen durch das Umwandeln X zu + bX und Y zu c + dY ungekünstelt, wo a, b, c, und d Konstanten sind. Das trifft auf etwas Korrelationsstatistik sowie ihre Bevölkerungsentsprechungen zu. Einige Korrelationsstatistiken, wie der Rangkorrelationskoeffizient, sind auch invariant zu Eintönigkeitstransformationen des Randvertriebs X und/oder Y.

Die meisten Korrelationsmaßnahmen sind zur Weise empfindlich, auf die X und Y probiert werden. Abhängigkeiten neigen dazu, wenn angesehen, über einen breiteren Wertbereich stärker zu sein. So, wenn wir den Korrelationskoeffizienten zwischen den Höhen von Vätern und ihren Söhnen über alle erwachsenen Männer denken und uns vergleichen, hat er zu demselben Korrelationskoeffizienten gerechnet, wenn die Väter ausgewählt werden, um zwischen 165 Cm und 170 Cm in der Höhe zu sein, wird die Korrelation im letzten Fall schwächer sein.

Verschiedene Korrelationsmaßnahmen im Gebrauch können für den bestimmten gemeinsamen Vertrieb X und Y unbestimmt sein. Zum Beispiel wird der Korrelationskoeffizient von Pearson in Bezug auf Momente definiert, und wird folglich unbestimmt sein, wenn die Momente unbestimmt sind. Maßnahmen der auf quantiles gestützten Abhängigkeit werden immer definiert. Beispielbasierte Statistik hat vorgehabt einzuschätzen, dass Bevölkerungsmaßnahmen der Abhängigkeit können oder wünschenswerte statistische Eigenschaften solcher als unvoreingenommen seiend, oder asymptotisch konsequent, gestützt auf der Raumstruktur der Bevölkerung nicht haben können, von der die Daten probiert wurden.

Die Empfindlichkeit zum Datenvertrieb kann zu einem Vorteil verwendet werden. Zum Beispiel wird schuppige Korrelation entworfen, um die Empfindlichkeit an der Reihe zu verwenden, um Korrelationen zwischen schnellen Bestandteilen der Zeitreihe auszuwählen. Durch das Reduzieren des Wertbereichs auf eine kontrollierte Weise werden die Korrelationen auf der Skala der langen Zeit herausgefiltert, und nur die Korrelationen auf Skalen der kurzen Zeit werden offenbart.

Korrelation matrices

Die Korrelationsmatrix von n zufälligen Variablen X..., X ist der n × n Matrix, deren ich, j Zugang corr (X, X) bin. Wenn die Maßnahmen der verwendeten Korrelation Produktmoment-Koeffizienten sind, ist die Korrelationsmatrix dasselbe als die Kovarianz-Matrix der standardisierten zufälligen Variablen X / σ (X) weil ich = 1..., n. Das wendet auf beide die Matrix von Bevölkerungskorrelationen an (in welchem Fall "&sigma;" ist die Bevölkerungsstandardabweichung), und zur Matrix von Beispielkorrelationen (in welchem Fall "&sigma;" zeigt die Beispielstandardabweichung an). Folglich ist jeder notwendigerweise eine positiv-halbbestimmte Matrix.

Die Korrelationsmatrix ist symmetrisch, weil die Korrelation zwischen X und X dasselbe als die Korrelation zwischen X und X ist.

Häufige Irrtümer

Korrelation und Kausalität

Der herkömmliche Machtspruch, dass "Korrelation Verursachung nicht einbezieht", bedeutet, dass Korrelation nicht verwendet werden kann, um eine kausale Beziehung zwischen den Variablen abzuleiten. Dieser Machtspruch sollte nicht genommen werden, um zu bedeuten, dass Korrelationen die potenzielle Existenz von kausalen Beziehungen nicht anzeigen können. Jedoch können die Ursachen, die der Korrelation unterliegen, falls etwa, indirekte und unbekannte und hohe Korrelationen sein auch überlappen mit Identitätsbeziehungen (Tautologie), wo kein kausaler Prozess besteht. Folglich ist das Herstellen einer Korrelation zwischen zwei Variablen nicht eine genügend Bedingung, eine kausale Beziehung (in jeder Richtung) herzustellen. Zum Beispiel kann man eine Korrelation zwischen einem gewöhnlichen Wecker-Klingeln und Morgendämmerung beobachten, obwohl es keine direkte kausale Beziehung zwischen diesen Ereignissen gibt.

Eine Korrelation zwischen Alter und Höhe in Kindern ist ziemlich kausal durchsichtig, aber eine Korrelation zwischen Stimmung und Gesundheit in Leuten ist weniger. Führt verbesserte Stimmung zu verbesserter Gesundheit, oder führt gute Gesundheit zu guter Stimmung oder beiden? Oder ein anderer Faktor unterliegen beiden? Mit anderen Worten kann eine Korrelation als Beweise für eine mögliche kausale Beziehung genommen werden, aber kann nicht anzeigen, wie die kausale Beziehung falls etwa, sein könnte.

Korrelation und Linearität

Der Korrelationskoeffizient von Pearson zeigt die Kraft einer geradlinigen Beziehung zwischen zwei Variablen an, aber sein Wert charakterisiert allgemein ihre Beziehung nicht völlig. Insbesondere wenn der bedingte bösartige von Y gegeben X, angezeigter E (YX), in X nicht geradlinig ist, wird der Korrelationskoeffizient die Form von E (YX) nicht völlig bestimmen.

Das Image auf dem Recht zeigt scatterplots des Quartetts von Anscombe, eine Reihe vier verschiedene Paare von von Francis Anscombe geschaffenen Variablen. Die vier y Variablen haben dasselbe bösartige (7.5), Standardabweichung (4.12), Korrelation (0.816) und Linie des rückwärts Gehens (y = 3 + 0.5x). Jedoch, wie auf den Anschlägen gesehen werden kann, ist der Vertrieb der Variablen sehr verschieden. Der erste (Spitze verlassen) scheint, normalerweise verteilt zu werden, und entspricht, was man erwarten würde, wenn man zwei Variablen als aufeinander bezogen und im Anschluss an die Annahme der Normalität betrachtet. Der zweite (Spitzenrecht) wird normalerweise nicht verteilt; während eine offensichtliche Beziehung zwischen den zwei Variablen beobachtet werden kann, ist es nicht geradlinig. In diesem Fall zeigt der Korrelationskoeffizient von Pearson nicht an, dass es eine genaue funktionelle Beziehung gibt: Nur das Ausmaß, in dem dieser Beziehung durch eine geradlinige Beziehung näher gekommen werden kann. Im dritten Fall (unten links) ist die geradlinige Beziehung abgesehen von einem outlier vollkommen, der genug Einfluss nimmt, um den Korrelationskoeffizienten von 1 bis 0.816 zu senken. Schließlich zeigt das vierte Beispiel (unterstes Recht) ein anderes Beispiel, wenn ein outlier genug ist, um einen hohen Korrelationskoeffizienten zu erzeugen, wenn auch die Beziehung zwischen den zwei Variablen nicht geradlinig ist.

Diese Beispiele zeigen an, dass der Korrelationskoeffizient, als eine statistische Zusammenfassung, Sehüberprüfung der Daten nicht ersetzen kann. Bemerken Sie, dass, wie man manchmal sagt, die Beispiele demonstrieren, dass die Korrelation von Pearson annimmt, dass die Daten einer Normalverteilung folgen, aber das ist nicht richtig.

Der Koeffizient des Entschlusses verallgemeinert den Korrelationskoeffizienten für Beziehungen außer dem einfachen geradlinigen rückwärts Gehen.

Normalverteilung von Bivariate

Wenn ein Paar (X, Y) zufälliger Variablen einer bivariate Normalverteilung folgt, ist der bedingte bösartige E (XY) eine geradlinige Funktion von Y, und der bedingte bösartige E (YX) ist eine geradlinige Funktion X. Der Korrelationskoeffizient r zwischen X und Y, zusammen mit den Randmitteln und Abweichungen X und Y, bestimmt diese geradlinige Beziehung:

:

E (Y|X) = EY + r\sigma_y\frac {X-EX} {\\sigma_x},

</Mathematik>

wo AB und EY die erwarteten Werte von X und Y beziehungsweise sind, und σ und σ die Standardabweichungen X und Y beziehungsweise sind.

Teilweise Korrelation

Wenn eine Bevölkerung oder Datei durch mehr als zwei Variablen charakterisiert werden, misst ein teilweiser Korrelationskoeffizient die Kraft der Abhängigkeit zwischen einem Paar von Variablen, das übrigens in der sie beide Änderung als Antwort auf Schwankungen in einer ausgewählten Teilmenge der anderen Variablen nicht verantwortlich gewesen wird.

Siehe auch

  • Vereinigung (Statistik)
  • Autokorrelation
  • Kanonische Korrelation
  • Koeffizient des Entschlusses
  • Übereinstimmungskorrelationskoeffizient
  • Korrelation von Cophenetic
  • Satzband
  • Korrelationsfunktion
  • Quer-Korrelation
  • Ökologische Korrelation
  • Bruchteil der Abweichung unerklärter
  • Genetische Korrelation
  • Goodman und das Lambda von Kruskal
  • Illusorische Korrelation
  • Zwischenklassenkorrelation
  • Intraklassenkorrelation
  • (wikiversity)
  • Modifizierbares Flächeneinheitsproblem
  • Vielfache Korrelation
  • Korrelationskoeffizient des Punkts-biserial
  • Statistische Arbitrage
  • Subunabhängigkeit

Weiterführende Literatur

Links


Gesetz der großen Anzahl / Kovarianz
Impressum & Datenschutz