RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Une méthode simple pour analyser rapidement de grands tableaux de nombres

27 avril 2006


Pour lire un peu plus :

- Analyse des données
- L'analyse factorielle des correspondances
- Fichier pdf
- Exemple d'application

La méthode décrite ici a déjà été publiée dans Économie et Statistique en 1974. Elle a été utile. Comme cet article est maintenant difficile à trouver, je la publie de nouveau mais en la complétant par des exemples et par un projet d'extension aux hypercubes.

*     *

La statistique et la comptabilité produisent en quantité de grands tableaux de nombres que la masse des données rend opaques à l’interprétation.

Je présente ici une méthode qui aide à analyser et commenter rapidement une grande quantité de gros tableaux. Elle relève logiquement de l’analyse des données. Toutefois les calculs qu’elle nécessite sont plus simples que ceux qu’exigerait une analyse factorielle : on les réalise facilement sur un tableur.

Cette méthode ne s’applique qu’aux tableaux de contingence, que l’on appelle aussi « tableaux carrés » (même quand ils sont rectangulaires), c’est-à-dire aux tris croisés qui représentent la ventilation d’une quantité ou d’une « population » (nombre de personnes, nombre d’euros comptabilisés etc.) selon deux caractères qualitatifs.

Exemple : le tableau qui répartit le chiffre d’affaires d’une entreprise par produit et par mois sur une période d’une ou plusieurs années.

Les tableaux de nombres ne sont pas tous des tableaux de contingence : cette méthode n’est donc pas universelle. Cependant elle est utile, car les tableaux de contingence représentent une importante proportion dans les résultats que produisent la statistique et la comptabilité.

Nous montrerons enfin que cette méthode peut s’appliquer au croisement de plus de deux caractères. Le tableau multidimensionnel est appelé un « cube » s’il croise trois caractères et, s’il en croise plus de trois, un « hypercube ». Parmi les collections de tableaux on rencontre souvent des cubes (par exemple lorsqu’on publie une série de tableaux représentant le croisement de deux caractères sur des périodes successives : le découpage du temps constitue alors le troisième caractère du cube). Les hypercubes sont d’usage fréquent dans les datawarehouses, où ils sont une façon de présenter les « tables de faits ».

Principe de la méthode

Considérons le tableau que fournit un tri croisé. On peut lui associer une mesure de la « quantité d’information » qu’il apporte, en donnant au mot « information » le sens que lui attribue Shannon. On peut aussi associer à chacune de ses cases une mesure de la contribution de la case à cette quantité d’information.

On est alors naturellement conduit à classer les cases dans l’ordre des contributions décroissantes, puis à concentrer son attention sur celles qui apportent le plus d’information.

Si en effet nous trouvons que dans un tableau de vingt lignes et dix colonnes, comportant donc 200 cases, 5 cases apportent 90 % de l’information, ce sont ces cases que nous devrons examiner et commenter en premier. Il sera peut-être inutile de parler des autres.

On analysera à titre d’exemple un tableau de 260 cases donnant la répartition de la population française en 1999 par région, sexe et classe d’âge. Les deux tiers de l’information qu’apporte ce tableau sont concentrés dans 7 régions sur 26, la moitié de l’information est concentrée dans 10 % des cases. Si l’on veut interpréter et commenter ce tableau, c’est sur ces régions-là et sur ces cases-là qu’il faudra focaliser l’attention, puis attirer celle du lecteur.

*   *

Nota Bene : La présentation du formulaire étant plus lisible sous LaTeX, la description complète de la méthode se trouve dans le fichier methodetableau.pdf que l'on est invité à télécharger.

Un exemple d'application est fourni par le fichier Excel pop1999.xls.