COEFFICIENT DE CORRÉLATION

Rech./Stat. Statistique indiquant le degré d’association ou de relation entre deux ou plusieurs variables au sein d’un même groupe de sujets. EA recherche corrélationnelle.

A. Signification. Une absence de relation ou d’association est indiquée par un coefficient de valeur 0. Une corrélation parfaite est indiquée par un coefficient de valeur 1 (ce maximum est moindre lorsque les variables mises en relation sont dichotomiques ou lorsque au moins l’une des variables est nominalement dichotomique). Un coefficient de corrélation peut être négatif lorsque les variables concernées sont en relation inverse (les valeurs de l’une décroissent pendant que croissent les valeurs de l’autre). Toutefois, les coefficients sont toujours positifs lorsqu’ils sont calculés comme résultant d’une extraction de racine carrée au numérateur de la formule utilisée. L’échelle suivante (GUILFORD, J. P., 1965) est souvent utilisée pour interpréter l’intensité de la corrélation selon la valeur absolue du coefficient.

| coefficient | ≥ 0,90 → corrélation très forte

0,70 ≤ | coefficient | ≤ 0,89 → corrélation forte

0,40 ≤ | coefficient | ≤ 0,69 → corrélation modérée

0,20 ≤ | coefficient | ≤ 0,39 → corrélation faible

| coefficient | ≤ 0,19 → corrélation presque négligeable

Toutefois, une corrélation peut être forte, mais non significative si elle a été obtenue avec un très petit nombre de sujets; ou elle peut être faible, mais statistiquement significative si elle a été obtenue au sein d’un très grand nombre de sujets.

B. Pluralité. Il existe différents coefficients de corrélation simple entre deux variables mises en corrélation, dépendant des types d’échelles de mesure utilisées pour décrire ces deux variables :

Échelle pour variable Y

Échelle pour variable X

nominalement dichotomique

artificiellement dichotomique (sous-jacente continue normale)

continue,
ordinale

continue, à intervalles
égaux ou de rapport

dichotomique nominale

H, L, M

dichotomique artificielle

G

continue, ordinale

F

continue, à intervalles égaux ou de rapport

E

D

C

Selon le tableau précédent, une dizaine de coefficients de corrélation simple peuvent exister (car rxy = ryx) dont huit sont présentés et discutés ci-après parce qu’ils représentent les cas les plus courants dans le domaine de l’éducation. Les quatre cas non discutés peuvent être étudiés en utilisant des ouvrages spécialisés. En outre, lorsque plus de deux variables sont mises en corrélation, d’autres coefficients doivent alors être calculés (VA I, J et K).

C. Coefficient de Bravais-Pearson : méthode classique de calcul du degré de relation linéaire entre deux variables continues.


où : x : écart entre les scores de la variable X et leur moyenne

y : écart entre les scores de la variable Y et leur moyenne

n : nombre de sujets

Sx : écart type de x pour les n sujets

Sy : écart type de y pour les n sujets

2. Exemple : Un enseignant veut savoir s’il existe une corrélation significative entre le nombre d’heures que les élèves de 4e année de son école consacrent à l’étude personnelle et leur rendement scolaire. Il choisit un échantillon aléatoire de trente-deux élèves de 4e année et pour chaque élève, il associe le nombre d’heures moyen alloué par semaine à l’étude et le score moyen obtenu pour l’ensemble des cours. En utilisant la formule de Bravais-Pearson, il obtient :

r = + 0,40 (corrélation positive)

3. Interprétation : L’enseignant doit vérifier si cette valeur de « r », indiquant une corrélation modérée, est statistiquement significative ou si elle n’est pas tout simplement le fruit du hasard. En consultant la table des valeurs critiques de r, il constate que pour n = 32 et α = 0,05 (seuil de signification), le « r critique » vaut 0,30, pour un test unilatéral. Puisque (r calculé = 0,40) > (r critique = 0,30), l’enseignant est amené à conclure qu’il existe une corrélation statistiquement significative au seuil de 0,05 entre le nombre d’heures d’étude de ses élèves et leur rendement scolaire. Plus le nombre d’heures d’étude est élevé, meilleur est le rendement scolaire. L’enseignant doit admettre que cette corrélation est modérée en regard de l’échelle (GUILFORD, J. P., 1965) pour interpréter l’intensité de la corrélation selon la valeur absolue du coefficient. VA A.

D. Coefficient de corrélation bisériale : coefficient qui mesure le degré de relation linéaire entre une variable continue (Y) et une variable artificiellement dichotomique (X).


où : Y1 = moyenne à Y de ceux qui ont obtenu le score 1 à X

Y0 = moyenne à Y de ceux qui ont obtenu le score 0 à X

Sy = écart type de Y pour les n sujets

n1 = nombre de sujets qui ont obtenu 1 à la variable X

n0 = nombre de sujets qui ont obtenu 0 à la variable X

n = nombre total de sujets = n1 + n 0

u = ordonnée de la distribution normale centrée réduite à p (selon table appropriée)

p = proportion de personnes ayant obtenu 1 à la variable X (p = n1/n)

2. Exemple : Considérer l’exemple donné en C. Ici, l’enseignant veut savoir s’il existe une corrélation significative entre le rendement scolaire (variable continue) et la performance à un item de mathématique bien particulier, corrigé 0 (échec) et 1 (réussite) (variable artificiellement dichotomique), des trente-deux élèves. En utilisant la formule ci-dessus, il obtient :

rbis = + 0,60

3. Interprétation : Selon l’échelle de GUILFORD (VA A), il semble exister une relation positive et modérée entre les deux variables. Pour tester la signification de ce coefficient, le lecteur est invité à consulter des ouvrages spécialisés, notamment Gene V. GLASS et Kenneth D. HOPKINS (1984).

E. Coefficient de corrélation point bisérial : coefficient qui mesure le degré de relation entre une variable continue (Y) et une variable vraiment dichotomique (X).

1. Expression mathématique : On peut appliquer directement la formule du coefficient « r » de Bravais-Pearson (VA C) ou la formule équivalente suivante :


où : Y1 = moyenne à Y de ceux qui ont obtenu le score 1 à X

Y0 = moyenne à Y de ceux qui ont obtenu le score 0 à X

Sy = écart type de Y pour les n sujets

n1 = nombre de sujets qui ont obtenu 1 à la variable X

n0 = nombre de sujets qui ont obtenu 0 à la variable X

n = nombre total de sujets = n1 + n 0

2. Exemple : Considérer l’exemple donné en C. Ici, l’enseignant veut savoir s’il existe une corrélation entre le rendement scolaire (variable continue) et le sexe (variable dichotomique, féminin = 0; masculin = 1) des trente-deux élèves. Après calcul, il obtient : rpb = + 0,16

3. Interprétation : L’enseignant vérifie la signification statistique de cette valeur en utilisant la table des valeurs critiques de r, toujours pour n = 32 et α = 0,05. Puisque (rpb calculé = 0,16) < (r critique = 0,30, pour un test unilatéral), il n’existe donc pas de corrélation statistiquement significative au seuil de 0,05 entre le rendement scolaire et le sexe. Les garçons ont un aussi bon rendement scolaire que les filles et vice versa.

F. Coefficient de corrélation de rangs de Spearman : coefficient qui mesure le degré de relation entre deux variables constituées de rangs.


où :

di = RXi - RYi (différence entre le rang à la variable X et le rang à la variable Y pour le même sujet i)

n = nombre total de sujets

2. Exemple : Considérons l’exemple donné en C. Ici, l’enseignant décide de classer en ordre décroissant les élèves selon, dans un premier temps, leur rendement scolaire et, dans un deuxième temps, leur nombre d’heures d’étude par semaine. Il attribue ainsi pour chacun des trente-deux élèves un rang pour le rendement scolaire et un rang pour le nombre d’heures d’étude par semaine. En utilisant la formule ci-dessus, il obtient : rs = + 0,5

3. Interprétation : L’enseignant consulte la table des valeurs critiques de r puisque le nombre de sujets est plus grand que 30. (Pour un nombre de sujets égal ou inférieur à 30, on consulte la table des valeurs critiques de rs). Il constate que pour n = 32 et α = 0,05, le r critique vaut 0,30, pour un test unilatéral. La conclusion est donc similaire à celle obtenue en C.

G. Coefficient de corrélation tétrachorique : coefficient quimesure le degré de relation entre deux variables artificiellement dichotomiques.


où : a = nombre de sujets ayant la valeur 1 à la variable Y et 0 à la variable X

b = nombre de sujets ayant la valeur 1 aux deux variables

c = nombre de sujets ayant la valeur 0 aux deux variables

d = nombre de sujets ayant la valeur 0 à la variable Y et 1 à la variable X

uX = ordonnée de la distribution normale centrée réduite à pX (selon table appropriée)

uY = ordonnée de la distribution normale centrée réduite à pY (selon table appropriée)

pX = proportion de ceux qui ont la valeur 1 à la variable X = (b + d)/n

pY = proportion de ceux qui ont la valeur 1 à la variable Y = (b + a)/n

n = nombre total de sujets

Les données (scores et fréquences) sont habituellement entrées dans un tableau de contingence 2 X 2 :

Y

X

1

0

ou

Y

X

1

0

1

b

d

1

b

a

0

a

c

0

d

c


2. Exemple : Considérons les exemples donnés en C et D. Ici, l’enseignant veut savoir s’il existe une relation entre la performance des trente-deux élèves à deux items, un item de mathématique et un item de français, corrigés 1 (réussite) et 0 autrement (échec ou omission). En utilisant l’expression ci-dessus, l’enseignant obtient : rtet = + 0,75.

     3. Interprétation : Il semble exister une relation positive (forte selon l’échelle de GUILFORD) entre les scores obtenus aux deux items. Dans l’ensemble, les élèves qui ont réussi l’item de mathématique ont aussi réussi l’item de français et vice versa. Pour tester la signification statistique de ce coefficient, le lecteur est invité à consulter des ouvrages spécialisés, notamment G. V. GLASS et K. D. HOPKINS (1984).

H.  Coefficient phi : coefficient qui mesure le degré de relation entre deux variables vraiment dichotomiques.

     1. Expression mathématique : On peut appliquer la formule du coefficient « r » de Bravais-Pearson (VA C) aux scores dichotomiques des deux variables mises en relation. On peut aussi disposer ces scores dichotomiques dans un tableau de contingence de 2 X 2 (VA G) et procéder comme suit :



           où :

                    a = nombre de sujets ayant la valeur 1 à la variable Y et 0 à la variable X

                    b = nombre de sujets ayant la valeur 1 aux deux variables

                    c = nombre de sujets ayant la valeur 0 aux deux variables

                    d = nombre de sujets ayant la valeur 0 à la variable Y et 1 à la variable X

2. Exemple : Considérons l’exemple donné en C. Ici, l’enseignant désire savoir s’il existe un lien entre le sexe et le fait de prendre ou non un petit déjeuner. Les garçons sont classés (0) et les filles (1). De même, la prise d’un petit déjeuner est notée (1) et l’absence d’un petit déjeuner (0).

     Après calcul, l’enseignant obtient : rΦ = + 0,11

     3. Interprétation : La signification statistique de cette valeur est vérifiée grâce au test du χ2 (khi-deux) où la valeur critique du χ2, pour un seuil de signification de 0,05 et 1 degré de liberté, est de 3,8414. Si le χ2 calculé est inférieur ou égal au χ2 critique alors la valeur de rΦ ne sera pas statistiquement significative, l’enseignant conclura qu’il n’y a pas de lien ou de relation entre le sexe et la prise ou non d’un petit déjeuner. Dans le cas contraire, c’est-à-dire si le χ2 calculé est supérieur au χ2 critique, on dira qu’il existe un lien entre ces deux variables. V épreuve du khi-deux.

I.   Coefficient de corrélation multiple : coefficient qui mesure le degré de relation entre une variable dépendante et deux ou plusieurs variables indépendantes. VA K.

     1.  Expression mathématique :

           a)      pour le modèle à deux variables indépendantes :



où :  Y est la variable dépendante

         1 et 2 sont les variables indépendantes

     b)  pour le modèle à n variables indépendantes :

          le symbole du coefficient est RY,12...n; l’expression étant très complexe, le lecteur est invité à consulter des ouvrages spécialisés de statistiques.

     2. Exemple avec deux variables indépendantes : Un enseignant désire savoir si la performance en français et l’intelligence (variables indépendantes) de ses élèves sont deux variables qui influencent leur rendement en mathématique (variable dépendante). Après avoir recueilli les résultats des trente élèves pour les trois variables étudiées, l’enseignant calcule le coefficient de corrélation multiple et obtient : RY,12 = 0,60.

     3. Interprétation : Le test de signification statistique de ce coefficient étant assez complexe, là encore le lecteur est invité à consulter des ouvrages spécialisés de statistiques. Si le coefficient est statistiquement significatif, on peut dire que les deux variables indépendantes permettent de prédire la variable dépendante.

J.   Coefficient de corrélation partielle : coefficient qui mesure le degré de relation linéaire entre deux variables quand l’effet d’une ou de plusieurs autres variables est maintenu constant ou annulé. Les coefficients de corrélation partielle les plus souvent utilisés sont les coefficients de corrélation partielle d’ordre un et d’ordre deux.

     1.  Expression mathématique :

           a)  pour le coefficient de corrélation partielle d’ordre un (l’effet d’une variable est maintenu constant ou annulé)


           où :1       : première variable

                2       : deuxième variable

                0,3    : troisième variable (dont l’effet sur chacune des variables 1 et 2 est ici annulé)

                r12     : coefficient de corrélation de Bravais-Pearson entre les première et deuxième variables

 

                r13     : coefficient de corrélation de Bravais-Pearson entre les première et troisième variables

                r23     : coefficient de corrélation de Bravais-Pearson entre les deuxième et troisième variables

          b)  pour le coefficient de corrélation partielle d’ordre deux (l’effet de deux variables est maintenu constant ou annulé)


     où :1   :        première variable

                2       :  deuxième variable

                0,34  :  troisième et quatrième variables (dont l’effet sur chacune des variables 1 et 2 est ici annulé)

                r12,3   :  coefficient de corrélation partielle entre les première et deuxième variables quand l’effet de la troisième variable est ici annulé

                r14,3   :  coefficient de corrélation partielle entre les première et quatrième variables quand l’effet de la troisième variable est ici annulé

                r24,3   :  coefficient de corrélation partielle entre les deuxième et quatrième variables quand l’effet de la troisième variable est ici annulé

     2. Exemple : Le directeur d’une école primaire veut déterminer s’il existe une corrélation entre l’intelligence et le rendement scolaire de ses élèves du second cycle. Mais, puisqu’il soupçonne une corrélation possible entre l’âge et ces deux variables (corrélation qui pourrait influencer le degré de relation réel entre l’intelligence et le rendement scolaire), il utilisera le coefficient de corrélation partielle. Après calcul, le directeur obtient les valeurs suivantes :


3. Interprétation : Même interprétation que pour le coefficient de corrélation de Bravais-Pearson. De plus, le directeur peut comparer r12 et r12,3 pour voir l’influence de l’âge sur la corrélation entre l’intelligence et le rendement scolaire.

     4. Remarque : Le directeur pourrait également stabiliser la variable âge en ne prenant que des élèves du même âge pour son étude. Toutefois, cela demeure difficile à réaliser, car rares sont les enfants qui ont exactement le même âge.

K.  Corrélation simple/multiple/partielle. Lorsque plusieurs variables semblent intervenir sur une variable cible dépendante dans le cadre d’un phénomène, il peut être utile de calculer les trois types de coefficient de corrélation en titre. C’est ce que firent Benjamin S. BLOOM et ses collaborateurs qui ont maintes fois calculé les diverses relations qui pouvaient exister entre le quotient intellectuel (QI) d’un élève, ses préalables (P) ainsi que son rendement scolaire (RS). Le tableau suivant donne la valeur moyenne des coefficients obtenus en tenant compte des données de milliers d’élèves à tous les ordres d’enseignement et dans une diversité d’objectifs d’apprentissage.

SIMPLE

PARTIELLE

MULTIPLE

QI et RS → r = 0,50

corrélation modérée

(QI et RS) - P → r = 0,30

baisse de 0,20 : corrélation faible

 

P   et RS → r = 0,80

corrélation forte

(P   et RS) - QI → r = 0,70

baisse de 0,10 : corrélation forte

(P et RS) + QI → r = 0,85

hausse de 0,05 : corrélation forte

Par une telle analyse, BLOOM a démontré le faible impact du QI sur le rendement scolaire. Par les corrélations partielles et multiples, il s’est aperçu que le fait de soustraire ou d’ajouter le QI aux préalables ne fait pas varier significativement la corrélation déjà forte qui existe entre les préalables d’un élève et son rendement scolaire. Ainsi, lorsque l’on soustrait l’effet des préalables (P) des variables quotient intellectuel (QI) et rendement scolaire (RS), la corrélation simple de 0,50 qui existe entre ces deux variables chute alors à 0,30 (corrélation partielle), ce qui est une corrélation faible. Par contre, si l’on soustrait l’effet du quotient intellectuel (QI) des variables préalables (P) et rendement scolaire (RS), la corrélation partielle est de 0,70 alors que la corrélation simple entre les variables préalables (P) et rendement scolaire (RS) est de 0,80. La corrélation chute de 0,80 à 0,70 mais elle se maintient néanmoins forte si on enlève l’effet du QI Si, à la corrélation simple, on ajoute l’impact du QI, le coefficient déjà significativement élevé de 0,80 indiquant la forte relation des préalables P sur le rendement scolaire RS, ne s’élève alors que de 0,05 à une valeur de 0,85 en corrélation multiple.

L.  Coefficient de contingence : coefficient qui mesure le degré de relation ou d’association entre deux variables possédant deux ou plusieurs catégories. À cause de ses limites, ce coefficient est maintenant peu utilisé en faveur du coefficient V de CRAMER (VA M).

                Expression mathématique : 


où :         χ2  :   la valeur du χ2 calculée à partir des fréquences observées et théoriques de chaque catégorie. V épreuve du khi-deux.

               n   :   nombre total de sujets

M. Coefficient de CRAMER : coefficient qui mesure le degré de relation ou d’association entre deux variables possédant deux ou plusieurs catégories.

1. Expression mathématique : 


χ2          :    la valeur du χ2 calculée à partir des fréquences observées et théoriques de chaque catégorie. V épreuve du khi-deux.

               n   :   nombre total de sujets

               L   :   nombre minimal de rangées ou de colonnes dans le tableau de contingence

     2. Interprétation et limites : La valeur de V est 0 lorsqu’il y a absence de toute relation entre les variables, mais la valeur de V peut être égale à 1 même s’il n’existe pas une relation parfaite entre les deux variables concernées. Cette situation peut se produire lorsqu’on a un tableau de contingence pour lequel le nombre de rangées est différent du nombre de colonnes. Le coefficient de CRAMER possède toutefois un avantage par rapport au coefficient de contingence. En effet, on peut comparer les coefficients de CRAMER obtenus de tableaux de contingence de différentes dimensions, ce qu’on ne peut pas faire avec le coefficient de contingence. On notera aussi que V ne peut être calculé que pour des données pour lesquelles χ2 peut l’être, c’est-à-dire seulement si moins de 20 % des cases du tableau de contingence ont une fréquence théorique inférieure à 5 et qu’aucune case n’a une fréquence théorique inférieure à 1.

     3. Exemple : Pour l’épreuve du khi-deux où χ2 = 1,90 avec L = 2 et n= 100, on a V = 0,14. Ce coefficient indique une association faible. C’est l’épreuve du khi-deux qui indique la signification statistique de cette relation. Selon cet exemple, l’épreuve du khi-deux (test du χ2) démontre que cette association n’est pas statistiquement significative au seuil de 0,05.


» Dictionnaire