La statistique fournit des dénombrements, des moyennes, des
totaux ; elle fournit aussi une mesure de dispersion pour les variables
quantitatives, l'écart-type ; enfin, elle fournit une mesure de la relation entre variables quantitatives, la corrélation
(pour les variables qualitatives,
l'équivalent de la corrélation est le chi2). J'épargne au
lecteur les expressions mathématiques de ces notions : on les trouve
dans les manuels de statistique.
Lorsqu'une relation linéaire (fonction affine Y = aX +
b) existe entre deux variables X et Y la valeur absolue de leur coefficient de corrélation est égale à
1 : on dit qu'elles sont "corrélées". Lorsque aucune relation
n'existe, le coefficient de corrélation est égal à 0 : les deux variables ne
sont pas corrélées. Lorsque la relation existe, mais qu'elle est floue,
la valeur absolue du coefficient de corrélation se trouve quelque part entre 0 et 1.
* *
Devant les descriptions que fournit la statistique nous sommes
comme ces enfants qui veulent toujours savoir pourquoi les choses sont comme
elles sont, nous voulons connaître les causes. Felix qui potuit rerum
cognoscere causas !
Certains statisticiens (Karl Pearson dans le sillage de Ernst
Mach, Jean-Paul Benzécri) critiquent la notion de cause : ils cultivent une
statistique anticausaliste qui, se refusant à aller plus loin que le constat des
corrélations, ne veut connaître que des contingences censées révéler "le
pur diamant de la véridique nature" (Benzécri).
Il est vrai que l'explication causale suppose des hypothèses.
Ils estiment que poser des hypothèses est "subjectif", voire "idéologique" et
poussent à l'extrême, parfois jusqu'à la mystique, la position contemplative du
statisticien. Pourtant quand il leur faut agir - au volant de leur voiture,
quand ils se lavent les dents etc. - ils anticipent assurément le résultat de
leur action, ce qui suppose de postuler une causalité...
Nous poursuivrons sans tenir compte de leurs objections.
* *
L'examen des corrélations met sur la piste. Si X est la
cause de Y, peut-être X et Y seront-elles corrélées ; inversement, si X est
sans influence sur Y, peut-être leur corrélation sera-t-elle nulle.
Mais il faut bien dire "peut-être" car :
- corr(X,Y) = corr(Y,X) : étant symétrique, la corrélation n'indique pas le sens
de la causalité, elle ne distingue pas la "variable explicative" de la "variable
expliquée" ;
- il peut exister des relations fonctionnelles qui ne soient pas linéaires : la corrélation ne
les indiquera pas toutes ;
- il peut exister une relation fonctionnelle (y compris linéaire) entre deux
variables alors que celles-ci ne sont pas reliées par un rapport de causalité ;
- il peut exister un rapport de causalité entre deux variables sans
qu'apparaisse entre elles une relation fonctionnelle qui saute aux yeux ;
- la notion de "cause" elle-même est susceptible de plusieurs
interprétations, situées à des degrés divers de profondeur.
Relation fonctionnelle non linéaire
Considérons à titre d'exemple un mobile lancé dans le vide et soumis à l'action
de la pesanteur. L'équation de son mouvement dans un repère convenablement
choisi est X = (1/2)gT2.
Supposons que l'on observe X et T à intervalles réguliers, les positions du
mobile composant alors une "population" sur laquelle on construit une statistique.
Si les valeurs observées de T sont symétriques par rapport à
zéro la corrélation entre X et T sera nulle : il en est ainsi lorsqu'il existe entre deux
variables une relation du
second degré et que l'observation est symétrique par rapport à la moyenne.
Ainsi la nullité de la corrélation peut correspondre soit à
l'indépendance de deux variables soit à une relation fonctionnelle du second degré, qu'elle
masque.
Un statisticien astucieux verra que la vitesse du mobile et le temps
sont corrélés puisque V = gT et cela le mettra sur la piste d'une modélisation
correcte. Mais tout le monde n'est pas astucieux.
Relation fonctionnelle sans
cause
Un même phénomène peut être cause de deux autres qui
paraîtront corrélés sans qu'il existe de relation de causalité entre eux.
Ainsi dans les épisodes de croissance économique (ou de
décroissance) beaucoup de variables sont corrélées parce qu'elles sont
entraînées par une même tendance, sans être pour autant reliées par une
causalité.
Cause sans relation fonctionnelle apparente
Si les évolutions d'une variable causent celles d'une autre
variable il existera évidemment entre leurs valeurs une relation fonctionnelle mais celle-ci peut être masquée, par exemple par un décalage temporel : on
cherche la relation entre les observations de même date alors qu'il faudrait pour
la faire apparaître décaler une des variables de quelques semaines ou quelques mois.
C'est le cas par exemple pour les relations entre le niveau
des stocks et la production, entre la demande et l'investissement etc.
L'économètre astucieux sait repérer de tels décalages, l'économètre naïf (il en
existe) n'y voit goutte.
Les étapes de la causalité
Reprenons l'exemple du mobile en chute libre. Si l'on considère les seules
valeurs positives de T, une corrélation entre X et T apparaît. Peut-on dire
alors que T est la cause de X ?
Le naïf répondra oui : plus le temps passe, plus le mobile
descend. Cependant un physicien, plus profond, dira que la cause réside non dans le temps mais
dans l'accélération g de la pesanteur.
Il pourra aussi, allant plus loin, expliquer cette accélération
en suivant Newton par la
force f = kmm'/d2 : cela fournit une modélisation de portée plus générale. Il pourra encore
expliquer cette force, en suivant Einstein, par la courbure de l'espace et les
ondes gravitationnelles, et la
théorie des cordes fournit des hypothèses pour expliquer la propagation de ces
ondes...
Ainsi la cause peut être formulée selon diverses théories
dont chacune considère le phénomène selon des hypothèses de profondeur différente. Il en est
de même, évidemment, en économie : l'expression de la cause qu'il convient de
retenir correspond à la portée, à la profondeur du modèle que l'on bâtit.
Ajoutons enfin qu'à un même niveau de profondeur la cause peut
encore s'articuler en couches solidaires, obéissant chacune à une logique qui
lui est propre (voir
L'entreprise et Aristote).
Économie et économétrie
L'économétrie repose tout entière sur l'exploitation des
corrélations : qu'il s'agisse des modèles Logit que l'on affectionne aujourd'hui ou des formes élémentaires de la régression, elles lui fournissent
de quoi étalonner les équations, de quoi produire des projections.
Elle risque donc d'être victime des ambiguïtés de la corrélation. Les
économètres exercés savent éviter certains pièges - comme la corrélation
générale des variables entre elles, et avec le temps, lors des périodes de
croissance ou de décroissance, ou comme les décalages qui masquent les corrélations etc. - mais il
leur est difficile de les éviter tous.
Pour identifier les causalités à l'oeuvre l'économétrie ne
suffit donc pas : il faut un savoir en théorie économique, de l'habileté dans le
choix des hypothèses. Un modèle n'est d'ailleurs rien d'autre que la mise en
scène d'un faisceau d'hypothèses.
* *
La description pure, la statistique pure appellent
l'interprétation, et elle suppose :
(1) que l'on soit conscient des choix qui ont présidé à
l'observation, que l'on sache en vue de quelle action elle a été organisée ;
(2) que l'on soit conscient des éventuels défauts de mesure
(exemple : savoir que tout recensement comporte un biais de l'ordre de 1 %, soit 600 000 personnes
en France) ;
(3) que l'on dispose d'un bagage théorique suffisant pour
choisir habilement les hypothèses sur la causalité et pouvoir, enfin, interpréter les corrélations.
____________
Virgile, Géorgiques, II, 489. |