1.Corrélation et régressionlinéaire simple
Laoussati M
Service d’épidémiologie, Faculté de Médecine de Bejaia
1ère année médecine
2016/2017
2.Plan
I- Corrélation et régression linéaire
I-1 Nature des variables
I-2 Corrélation versus régression : exemples
I-3 Conditions d’application
II. Coefficient de corrélation
II-1 Covariance
II-2 Coefficient de corrélation et interprétation
II-3 Estimation du coefficient de corrélation
II-4 Test du coefficient de corrélation
III. Régression linéaire simple
III-1 Régression linéaire simple
III-2 Estimation par la méthode des moindres carrés
III-3 Test de la pente de la droite de régression
3.
I- Corrélation et régression linéaire
4.I-1 Nature des variables
Le terme de corrélation est utilisé dans le langage courant pour désigner la liaison (relation / association) entre 2 variables quelconques.
En statistique, le terme de corrélation est réservé pour désigner la liaison entre 2 variables quantitatives (le plus souvent continues).
Corrélation / régression : liaison entre 2 variables quantitatives
5.I-2 Corrélation versus régression
Corrélation :
• Liaison entre 2 variables quantitatives X et Y
• Rôle symétrique (on peut permuter X et Y)
• Régression :
• Liaison entre 2 variables quantitatives X et Y
• Rôle asymétrique uniquement :
– X = variable explicative / Y = variable expliquée
– X = variable indépendante / Y = variable dépendante
• (on ne peut pas permuter X et Y)
6.1. Exemple : corrélation (positive)
• X = ventes de paires de lunettes de soleil en été
• Y = ventes de crèmes glacées en été
• Il existe une liaison entre X et Y :
– Quand X augmente, Y augmente (météo estivale)
– Quand X diminue, Y diminue (météo pluvieuse)
• La liaison est symétrique :
– X est liée à Y, et Y est liée à X
– mais X ne dépend pas de Y et Y ne dépend pas de X
– on peut permuter X et Y en abscisses et en ordonnées
• Y ne peut pas être prédite par X
7.2. Exemple : corrélation (négative)
• X = ventes de paires de lunettes de soleil en été
• Y = ventes de parapluies en été
• Il existe une liaison entre X et Y :
– Quand X augmente, Y diminue (météo estivale)
– Quand X diminue, Y augmente (météo pluvieuse)
• La liaison est symétrique :
– X est liée à Y, et Y est liée à X
– mais X ne dépend pas de Y et Y ne dépend pas de X
– on peut permuter X et Y en abscisses et en ordonnées
• Y ne peut pas être prédite par X
8.3. Exemple : régression
• X = âge (de 0 à 15 ans)
• Y = taille (cm)
• Il existe une liaison entre X et Y :
– Quand l’âge augmente, la taille augmente
– Quand l’âge diminue, la taille diminue
• La liaison est asymétrique :
– la taille dépend de l’âge mais l’âge ne dépend pas de la taille
– on ne peut pas permuter X et Y en abscisses et en ordonnées
• On peut prédire la taille par l’âge à l’aide d’une équation
de droite ou de courbe de régression (cf carnet de santé)
9.
10.I-3 Conditions d’application de la corrélation et de la régression linéaire simple
Indépendance des observations
• Liaison linéaire entre X et Y
• Distribution conditionnelle normale et de variance constante
11.
Indépendance des observations
Observations indépendantes (et variables corrélées)
12.2. Liaison linéaire entre X et Y
Avant d’appliquer le test du coefficient de corrélation ou d’estimer la droite de régression, il faut vérifier -empiriquement (graphiquement) - que la liaison entre les 2 variables est de nature linéaire.
.
13.Cas 1
La nature de la liaison est linéaire (le nuage de points est
résumé au mieux par une droite horizontale d’équation y = a)
La condition d’application est vérifiée
Il est possible d’utiliser le coefficient de corrélation et la
régression linéaire simple pour quantifier la liaison entre les
2 variables (conclusion : X et Y sont indépendants [Y constant
quelle que soit la valeur de X])
14.Cas 2
Il existe une liaison entre X et Y mais cette liaison n’est pas
linéaire :Y varie avec les valeurs de X.
Le nuage de points n’est pas résumé au mieux par une
droite mais plutôt par une fonction quadratique.
La condition d’application n’est pas vérifiée
→ Il ne faut pas utiliser le coefficient de corrélation ni la régression linéaire simple pour quantifier la liaison entre les 2 variables
15.Cas 3
La nature de la liaison est linéaire (le nuage de points est résumé au
mieux par une droite d’équation y = a+bx)
La condition d’application est vérifiée
Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables
(conclusion : il existe une liaison linéaire entre X et Y)
16.
Cas 4
La nature de la liaison n’est pas linéaire (le nuage de points n’est pas
résumé au mieux par une droite mais plutôt par une fonction
exponentielle)
La condition d’application n’est pas vérifiée
→ Il ne faut pas utiliser le coefficient de corrélation ni la régression
linéaire simple pour quantifier la liaison entre les 2 variables
17.3. Distribution conditionnelle normale et de variance constante
• Distribution de Y normale et de variance
constante pour chaque valeur de X
• (difficilement vérifiable en pratique)
18.
La condition d’application n’est pas vérifiée
19.
II- Coefficient de corrélation
20.II-1 Covariance
Variance conjointe de 2 variables X et Y
Cas particulier : X = Y → cov(X,Y) = cov(X,X) = var(X)
21.Équivalent de la formule de Huyghens pour la covariance
22.Rappel
La moyenne arithmétique en x et en y
µX = 1/n xi et µY = 1/n Yi
La variance en x et en y
S²x = 1/n (Xi – µX ) ² = 1/n Xi² – (µX ) ²
S²Y = 1/n (Yi – µY ) ² = 1/n Yi² – (µY ) ²
La covariance → C’est la variance commune entre les deux variables x et y
Cov (x , y) = 1/n (Xi – µX ) (Yi – µY ) Ou encore
Cov (x , y) = 1/n XiYi – µX . µY
23.Rappel
Variance
Covariance
cov(X,Y) = E(XY) – [E(X) x E(Y)]
24.II-2 Coefficient de corrélation
Le coefficient de corrélation entre 2 variables quantitatives X et Y est égal au rapport de la covariance de X et Y divisé par le produit des écart- types de X et Y.
Le coefficient de corrélation est noté ρ dans la population.
25.II-2 Interprétation du coefficient de corrélation
X et Y indépendantes : ρ = 0
• Y = fluctue autour d’une constante quelle que soit la valeur de X
• Nuage de points horizontal
• cov(X, Y) = 0
26.2. X et Y corrélées : ρ > 0
• Liaison linéaire croissante entre X et Y
• cov(X, Y) > 0
NB : si Y = X → cov(X,Y) = var(X) et var(Y) = var(X) → ρ =1
27.3. X et Y corrélées : ρ < 0
• Liaison linéaire décroissante entre X et Y
• cov(X, Y) <0
NB : si Y = - X → cov(X,Y) = - var(X) et var(Y) = var(X) → ρ =-1
28.II-3 Estimation du coefficient de corrélation
Le coefficient de corrélation estimé sur un échantillon issu d’une
population est noté r.
Il s’interprète comme le coefficient de corrélation ρ mesuré sur la
population.
Il est calculé à partir des estimations de la covariance et des
variances de X et de Y sur l’échantillon.
29.on obtient l’expression de l’estimateur du ncoefficient de corrélation r à partir d’un échantillon.
30.A partir de la formule de Huyghens l’estimation de r à partir d’un échantillon devient:
31.Coefficient de corrélation linéaire r (x; y):Propriétés
-1 ≤ r (x; y) ≤ 1
r (x; y) > 0 → relation linéaire croissante
r (x; y) < 0 → relation linéaire décroissante
r (x; y) = 0 → pas de relation linéaire
r (x; y) = ±1 → relation linéaire parfaite
Relation linéaire Relation linéaire Pas de relation
Croissante décroissante linéaire
32.II-4 Test du coefficient de corrélation
Après le calcul du coefficient de corrélation r estimé sur un
échantillon,il faut déterminer si le coefficient de corrélation ρ est
Significativement différent de 0.
H0 : ρ = 0 (absence de liaison [linéaire] entre X et Y)
H1 bilatérale : ρ ≠ 0 (existence d’une liaison entre X et Y)
33.Sous l’hypothèse nulle (H0) :
Le rapport de l’estimateur du coefficient de corrélation r sur son
Écart-type suit une loi de Student à (n-2) degrés de liberté.
n est l’effectif de l’échantillon.
L’estimateur de l’écart-type du coefficient de corrélation est égal à
34.Le test du coefficient de corrélation consiste à calculer la grandeur
To et à la comparer à la valeur seuil tα sur la table de la loi de
Student à (n-2) degrés de libertés.
Conditions d’application
• indépendance des observations
• liaison linéaire entre X et Y
• distribution conditionnelle normale et de variance constante
35.Détermination du degré de signification associé à to (P- value)
Exemple :
• to = 2.12
• n = 20
0.02 < P <0.05
P < α → rejet de H0
(n-2) = 18 ddl
Rappel : P- value = probabilité
d’observer une valeur plus grande
Que to sous l’hypothèse nulle H0
36.
III- Régression linéaire simple
37.III-1 Régression linéaire simple
La régression s’adresse à un type de problème où les 2 Variables quantitatives continues X et Y ont un rôle asymétrique : la variable Y dépend de la variable X.
La liaison entre la variable Y dépendante et la variable X Indépendante peut être modélisée par une fonction de type
Y = α + βX, représentée graphiquement par une droite.
Y = α + βX
Y : variable dépendante (expliquée)
X : variable indépendante (explicative)
α : ordonnée à l’origine (valeur de Y pour x = 0)
β : pente (variation moyenne de la valeur
de Y pour une augmentation d’une unité de X)
38.III-2 Estimation par la méthode des moindres carrés
Chaque individu i est caractérisé par un couple de
coordonnées (xi,yi) et est représenté par un point sur le
graphique.
L’ensemble des individus forme un nuage de points.
39.
La droite de régression Y = α + βX est la droite qui résume le mieux
Le nuage de points. Intuitivement, il s’agit de la droite dont les
points du nuage sont en moyenne les plus proches (c’est-à-dire la
droite qui passe à la plus faible distance de chaque point du nuage,
En moyenne).
40.
on calcule la somme des carrés des distances de chaque point à la droite. La droite de régression est la droite qui minimise la somme des carrés des écarts. Elle est aussi appelée droite des moindres carrés.
41.
Une particularité de la droite de régression est de passer par le point
moyen théorique de coordonnée (mx, my).
42.a et b sont les estimations de
l’ordonnée à l’origine α et de la
pente β de la droite de régression.
L’estimation de la pente de la
droite de régression b est égale
au rapport de la covariance de X
et Y sur la variance de X.
43.III-3 Test de la pente de la droite de régression
La droite de régression d’équation Y = α + βX comporte 2
paramètres (α et β).
L’hypothèse nulle est que la pente β de la droite de
Régression de Y en X est égale à 0 (soit Y est égal à α,
c’est-à-dire que la droite de régression est horizontale et
qu’il n’y a pas de liaison entre X et Y).
H0 : β = 0 (droite de régression horizontale : Y = α)
H1: β ≠ 0
44.Sous l’hypothèse nulle (H0) :
Le rapport de l’estimateur de la pente b sur son écart-type
suit une loi de Student à (n-2) degrés de liberté.
n est l’effectif de l’échantillon.
L’estimateur de l’écart-type de la pente est égal à :
45.Le test de la pente consiste à calculer la grandeur to et à la
comparer à la valeur seuil tα sur la table de la loi de Student à
(n-2) degrés de libertés
Conditions d’application
• indépendance des observations
• liaison linéaire entre X et Y
• distribution conditionnelle normale et de variance constante
46.Corrélation et régression
47.Les références:
Schwartz D. Méthodes statistiques.1992
Bouyer J. Méthodes statistiques.1996
Ancelle T. Statistique Épidémiologie. Édition 2002
Abrouk S. Biostatistique. INSP octobre 2005
Mesli MF, Mokhtari A. Biostatistique. Édition mai 2007
Causeur D. Régression linéaire. Laboratoire de Mathématiques Appliquées.Agrocampus Rennes
Labarere J. Corrélation et régression
linéaire simple. Université Joseph Fourier de
Grenoble. 2010-2011