La méthode décrite ici a déjà été publiée dans Économie et Statistique
en 1974. Elle a été utile. Comme
cet article est maintenant difficile à trouver, je la publie de nouveau mais en la
complétant par des exemples et par un projet d'extension aux hypercubes.
* *
La statistique
et la comptabilité produisent en quantité de grands tableaux de nombres que la
masse des données rend opaques à l’interprétation.
Je présente ici
une méthode qui aide à analyser et commenter rapidement une grande quantité de
gros tableaux. Elle relève logiquement de l’analyse des données. Toutefois les
calculs qu’elle nécessite sont plus simples que ceux qu’exigerait une analyse
factorielle : on les réalise facilement sur un tableur.
Cette
méthode ne s’applique qu’aux tableaux de contingence,
que l’on appelle aussi « tableaux carrés » (même quand ils sont rectangulaires),
c’est-à-dire aux tris croisés qui représentent la ventilation d’une quantité ou
d’une « population » (nombre de personnes, nombre d’euros comptabilisés etc.)
selon deux caractères qualitatifs.
Exemple : le tableau qui répartit le chiffre d’affaires d’une entreprise par produit et
par mois sur une période d’une ou plusieurs années.
Les tableaux de
nombres ne sont pas tous des tableaux de contingence : cette méthode n’est donc
pas universelle. Cependant elle est utile, car les tableaux de contingence
représentent une importante proportion dans les résultats que produisent la
statistique et la comptabilité.
Nous
montrerons enfin que cette méthode peut s’appliquer au croisement de plus de
deux caractères. Le tableau multidimensionnel est appelé un « cube » s’il croise
trois caractères et, s’il en croise plus de trois, un « hypercube ». Parmi les
collections de tableaux on rencontre souvent des cubes (par exemple lorsqu’on
publie une série de tableaux représentant le croisement de deux caractères sur
des périodes successives : le découpage du temps constitue alors le troisième
caractère du cube). Les hypercubes sont d’usage fréquent dans les datawarehouses,
où ils sont une façon de présenter les « tables de faits ».
Principe de la méthode
Considérons le
tableau que fournit un tri croisé. On peut lui associer une mesure de la
« quantité d’information » qu’il apporte, en donnant au mot « information » le
sens que lui attribue Shannon. On peut aussi associer à chacune de ses cases une
mesure de la contribution de la case à cette quantité d’information.
On est alors
naturellement conduit à classer les cases dans l’ordre des contributions
décroissantes, puis à concentrer son attention sur celles qui apportent le plus
d’information.
Si en effet nous
trouvons que dans un tableau de vingt lignes et dix colonnes, comportant donc
200 cases, 5 cases apportent 90 % de l’information, ce sont ces cases que nous
devrons examiner et commenter en premier. Il sera peut-être inutile de parler
des autres.
On analysera à
titre d’exemple un tableau de 260 cases donnant la répartition de la population
française en 1999 par région, sexe et classe d’âge. Les deux tiers de
l’information qu’apporte ce tableau sont concentrés dans 7 régions sur 26, la
moitié de l’information est concentrée dans 10 % des cases. Si l’on veut
interpréter et commenter ce tableau, c’est sur ces régions-là et sur ces
cases-là qu’il faudra focaliser l’attention, puis attirer celle du lecteur.
* *
Nota Bene : La présentation du formulaire
étant plus lisible sous LaTeX, la description complète de la méthode se trouve
dans le fichier methodetableau.pdf que l'on est
invité à télécharger.
Un exemple d'application est fourni par le fichier
Excel pop1999.xls. |