Korrelationskoeffizientenformeln, Berechnung, Interpretation, Beispiel

3598
Sherman Hoover

Das Korrelationskoeffizient In der Statistik ist es ein Indikator, der die Tendenz zweier quantitativer Variablen X und Y misst, eine lineare oder proportionale Beziehung zwischen ihnen zu haben.

Im Allgemeinen sind die Variablenpaare X und Y zwei Merkmale derselben Population. Zum Beispiel kann X die Größe einer Person und Y ihr Gewicht sein..

Abbildung 1. Korrelationskoeffizient für vier Datenpaare (X, Y). Quelle: F. Zapata.

In diesem Fall würde der Korrelationskoeffizient angeben, ob in einer bestimmten Population ein Trend zu einer proportionalen Beziehung zwischen Größe und Gewicht besteht oder nicht..

Der lineare Korrelationskoeffizient von Pearson wird mit dem Buchstaben bezeichnet r Kleinbuchstaben und ihre Minimal- und Maximalwerte sind -1 bzw. +1. 

Ein Wert r = +1 würde anzeigen, dass die Menge der Paare (X, Y) perfekt ausgerichtet ist und dass Y im gleichen Verhältnis wächst, wenn X wächst. Wenn andererseits r = -1 wäre, wäre die Menge der Paare ebenfalls perfekt ausgerichtet, aber in diesem Fall nimmt Y im gleichen Verhältnis ab, wenn X zunimmt.

Abbildung 2. Unterschiedliche Werte des linearen Korrelationskoeffizienten. Quelle: Wikimedia Commons.

Andererseits würde ein Wert von r = 0 anzeigen, dass es keine lineare Korrelation zwischen den Variablen X und Y gibt, während ein Wert von r = +0,8 anzeigen würde, dass die Paare (X, Y) dazu neigen, sich auf einer Seite zu gruppieren und eine andere von einer bestimmten Straße.

Die Formel zur Berechnung des Korrelationskoeffizienten r lautet wie folgt:

Wie berechnet man den Korrelationskoeffizienten??

Der lineare Korrelationskoeffizient ist eine statistische Größe, die in wissenschaftlichen Taschenrechnern, den meisten Tabellenkalkulationen und statistischen Programmen gefunden wird..

Es ist jedoch zweckmäßig zu wissen, wie die Formel, die sie definiert, angewendet wird, und dazu wird eine detaillierte Berechnung gezeigt, die an einem kleinen Datensatz durchgeführt wird.

Und wie im vorherigen Abschnitt gesagt wurde, ist der Korrelationskoeffizient die Kovarianz Sxy geteilt durch das Produkt der Standardabweichung Sx für die Variablen X und Sy für die Variable Y..

Kovarianz und Varianz

Die Kovarianz Sxy ist:

Sxy = [Σ (Xi - ) (Yi - )] / (N-1)

Wobei die Summe von 1 zu den N Datenpaaren geht (Xi, Yi). und sind die arithmetischen Mittelwerte der Daten Xi bzw. Yi.

Die Standardabweichung für die Variable X ist ihrerseits die Quadratwurzel der Varianz des Datensatzes Xi mit i von 1 bis N:

Sx = √ [Σ (Xi - ) ^ 2) / (N-1)]

In ähnlicher Weise ist die Standardabweichung für die Variable Y die Quadratwurzel der Varianz des Datensatzes Yi mit i von 1 bis N:

Sy = √ [Σ (Yi - )zwei ) / (N-1)]

Illustrativer Fall

Um detailliert zu zeigen, wie der Korrelationskoeffizient berechnet wird, nehmen wir den folgenden Satz von vier Datenpaaren 

(X, Y): (1, 1); (2. 3); (3, 6) und (4, 7).

Zuerst berechnen wir das arithmetische Mittel für X und Y wie folgt:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Dann werden die restlichen Parameter berechnet:

Kovarianz Sxy

Sxy = [(1 - 2,5) (1 - 4,25) + (2 - 2,5) (3 - 4,25) + (3 - 2,5) (6 - 4,25) + ... (4 - 2,5) (7 - 4,25) ] / (4-1)

Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) + ... . 

… (1,5) (2,75)] / (3) = 10,5 / 3 = 3.5

Standardabweichung Sx

Sx = √ [(-1,5)zwei + (-0,5)zwei + (0,5)zwei + (1.5)zwei) / (4-1)] = √ [5/3] = 1.29

Standardabweichung Sy

Sx = √ [(-3,25)zwei + (-1,25)zwei + (1,75)zwei + (2,75)zwei) / (4-1)] = 

√ [22,75 / 3] = 2,75

Korrelationskoeffizient r

r = 3,5 / (1,29 · 2,75) = 0,98

Interpretation

Im Datensatz des vorherigen Falles wird eine starke lineare Korrelation zwischen den Variablen X und Y beobachtet, die sich sowohl im Streudiagramm (in Abbildung 1 gezeigt) als auch im Korrelationskoeffizienten manifestiert, was einen Wert ergibt, der ziemlich nahe an der Einheit liegt.

In dem Maße, in dem der Korrelationskoeffizient näher an 1 oder -1 liegt, ist es das Ergebnis einer linearen Regression, je sinnvoller es ist, die Daten an eine Linie anzupassen..

Lineare Regression

Die lineare Regressionslinie ergibt sich aus Methode der kleinsten Quadrate. wobei die Parameter der Regressionslinie aus der Minimierung der Summe des Quadrats der Differenz zwischen dem geschätzten Y-Wert und dem Yi der N-Daten erhalten werden.

Andererseits sind die Parameter a und b der Regressionslinie y = a + bx, die durch die Methode der kleinsten Quadrate erhalten werden:

* b = Sxy / (Sxzwei) Für die Steigung

* a = - b für den Schnittpunkt der Regressionslinie mit der Y-Achse.

Denken Sie daran, dass Sxy die oben definierte Kovarianz und Sx istzwei ist die Varianz oder das Quadrat der oben definierten Standardabweichung. und sind die arithmetischen Mittelwerte der Daten X bzw. Y..

Beispiel

Der Korrelationskoeffizient wird verwendet, um zu bestimmen, ob zwischen zwei Variablen eine lineare Korrelation besteht. Es ist anwendbar, wenn die zu untersuchenden Variablen quantitativ sind und außerdem angenommen wird, dass sie einer normalen Typverteilung folgen..

Wir haben ein anschauliches Beispiel unten: Ein Maß für den Grad der Fettleibigkeit ist der Body-Mass-Index, der erhalten wird, indem das Gewicht einer Person in Kilogramm durch die quadratische Größe derselben in Einheiten von Quadratmetern dividiert wird.

Sie möchten wissen, ob eine starke Korrelation zwischen dem Body-Mass-Index und der Konzentration von HDL-Cholesterin im Blut besteht, gemessen in Millimol pro Liter. Zu diesem Zweck wurde eine Studie mit 533 Personen durchgeführt, die in der folgenden Grafik zusammengefasst ist, in der jeder Punkt die Daten einer Person darstellt.

Abbildung 3. Untersuchung des BMI und des HDL-Cholesterins bei 533 Patienten. Quelle: Aragonesisches Institut für Gesundheitswissenschaften (IACS).

Eine sorgfältige Betrachtung des Diagramms zeigt, dass zwischen der HDL-Cholesterinkonzentration und dem Body-Mass-Index ein gewisser linearer Trend (nicht sehr ausgeprägt) besteht. Das quantitative Maß für diesen Trend ist der Korrelationskoeffizient, der sich in diesem Fall als r = -0,276 herausstellte.

Verweise

  1. González C. Allgemeine Statistik. Wiederhergestellt von: tarwi.lamolina.edu.pe
  2. IACS. Aragonesisches Institut für Gesundheitswissenschaften. Wiederhergestellt von: ics-aragon.com 
  3. Salazar C. und Castillo S. Grundprinzipien der Statistik. (2018). Wiederhergestellt von: dspace.uce.edu.ec
  4. Superprof. Korrelationskoeffizient. Wiederhergestellt von: superprof.es
  5. USAC. Beschreibendes Statistikhandbuch. (2011). Wiederhergestellt von: statistics.ingenieria.usac.edu.gt
  6. Wikipedia. Pearson-Korrelationskoeffizient. Wiederhergestellt von: es.wikipedia.com.

Bisher hat noch niemand einen Kommentar zu diesem Artikel abgegeben.