RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Le métier de statisticien

CHAPITRE V

 La publication statistique

Retour à la table des matières

Le " gâchis de collecte " est la plus grave des erreurs professionnelles qu'un statisticien puisse commettre. La collecte, la saisie et les vérifications qui leur sont immédiatement associées sont, de toutes les opérations statistiques, celles qui demandent la plus grande quantité de travail - travail des statisticiens eux-mêmes, et aussi travail de ceux qui se sont donné la peine de leur répondre. Tout ce travail est gâché si, d'une façon ou d'une autre, le " fichier propre " n'est pas exploité en vue d'une publication - soit directement, soit indirectement, par exemple par une fusion avec un autre fichier qui permettra de préparer une publication. Ce qui reste sur les bandes magnétiques ou dans les tiroirs perd très vite l'essentiel de sa valeur, car l'information ne vaut dans la plupart des cas que si elle est fraîche. La publication, c'est-à-dire la remise de l'information entre les mains du public (ou du " client ") sous une forme qui en permette l'usage, est à la fois le couronnement et la justification d'une opération statistique. Sans elle, tout le reste a été fait en pure perte.

Or la publication des statistiques est difficile. Dans quelques cas, certes, il suffit de fournir des chiffres bruts, qu'un public bien informé saura utiliser : certains ont l'habitude de suivre quelques indicateurs de cours de bourse, de prix, de commerce extérieur. Mais ce type d'utilisation nécessite une certaine familiarité avec les séries, familiarité qui n'existe que dans une faible partie du domaine couvert par la statistique. Dans la plupart des cas, les résultats doivent être commentés pour être intelligibles : et ici se présentent de redoutables difficultés.

Bien des travaux statistiques, par ailleurs correctement conçus et exécutés, avortent en effet ou échouent à demi lors de la phase de publication. Les résultats de l'observation sont souvent présentés de façon insipide, et beaucoup de textes répondent au plan suivant : une introduction technique, comportant la description des nomenclatures utilisées et des méthodes d'exploitation (cette introduction sera parfois hérissée d'équations, car " cela fait bien ", même lorsqu'il ne s'agit que d'empiler des règles de trois) ; puis des pages et des pages de tableaux, présentant les résultats sous forme de tris croisés, chaque tableau étant éventuellement muni d'un titre ésotérique comme " COLCONJ 02 " ou " EENTR 01 ". Rien ne permet de distinguer entre les tableaux ceux qui présentent le plus d'intérêt. Le commentaire, généralement très bref, contient des indications sur les hypothèses retenues et sur les limites de l'information publiée, mais reste timide ou même muet sur son interprétation, de sorte qu'il ne reste plus au lecteur qu'à fouiller dans les tableaux et à se risquer lui-même dans l'interprétation, s'il en a le courage et le temps ; il n'est d'ailleurs nullement assuré de ne pas commettre de contresens, car l'utilisation correcte des indications techniques est difficile.

Si l'on pense que le schéma que nous venons de tracer est poussé au noir, que l'on examine quelques publications statistiques - par exemple, des résultats d'enquêtes fournis dans Les collections de l'I.N.S.E.E. On verra trop souvent le même travers : une fierté mal placée de technicien, le désir de montrer à quel point le travail a été compliqué, la crainte de paraître léger aux yeux de lecteurs qui, trop souvent, ne respectent que les travaux lourds (qu'ils ne lisent pas), tout cela pousse le statisticien à publier en masse les résultats qu'il a obtenus. On aboutit alors à ces publications indigestes, alourdies de références méthodologiques superflues, dénuées de conclusions claires : bref, sérieuses par leur poids seulement.

Certes, il ne s'agit pas de réclamer au statisticien des textes qui, par leurs attraits, exciteraient l'imagination du lecteur et retiendraient son attention comme peuvent le faire des œuvres purement littéraires. Même s'il est sobre et clair, un texte statistique est toujours technique et réclame un effort de lecture. Mais il convient que cet effort ne soit pas excessif, et surtout qu'il puisse recevoir sa récompense : que le lecteur puisse effectivement dégager, selon ses propres besoins, le sens de l'information que l'on a placée entre ses mains (1).

Mais comment atteindre un tel objectif ? N'est-il pas au-delà de ce qui est possible et même licite pour un statisticien ? Le rôle de celui-ci n'est-il pas de publier l'information brute, et de laisser parler les faits, les faits seuls, en s'abstenant de toute intervention et de tout commentaire ? S'il procède autrement, ne risque-t-il pas d'introduire indûment un aspect subjectif dans son ouvrage ? En outre, qui est ce " lecteur " hypothétique auquel on s'adresse ?

Pour répondre à ces questions, il faut entrer un peu plus avant dans la compréhension du travail statistique. Nous le ferons en examinant deux relations : la relation entre la forme et le sens d'une publication ; et la relation entre concept et théorie. Nous sommes ici contraints d'utiliser un vocabulaire redoutable, car ses acceptions sont loin d'être univoques. Mais les développements qui suivent permettront de préciser l'usage que nous en faisons.

Forme et sens

Supposons que nous ayons observé les revenus dans une population de ménages. Si l'on représente graphiquement leur répartition, on obtiendra une figure où chaque ménage est représenté par un petit bâton dont l'abscisse est égale au revenu :

wpe5.jpg (2882 octets)

Ce graphique contient toute l'information recueillie, mais il est pratiquement illisible et très difficile à interpréter. L'interprétation est par contre plus facile si l'on construit un histogramme :

wpe4.jpg (9099 octets)

Du diagramme en bâtons à l'histogramme, une certaine quantité d'information a été perdue : l'histogramme n'indique plus exactement le revenu de chaque ménage ; et pourtant il est plus lisible. On peut même, avec un peu de hardiesse, ajuster à l'histogramme une courbe de distribution qui rendra le résultat encore plus clair. En comparant cette courbe avec celles que l'on aurait construites pour décrire la répartition des revenus dans d'autres populations, on pourra s'engager dans la voie de l'interprétation.

Cet exemple nous permet d'illustrer la démarche fondamentale de la publication statistique : consentir une perte en information pour obtenir un gain en signification. Cette démarche est celle de la " statistique descriptive " et aussi de l'" analyse des données (2) ". Bien sûr, dans une opération réelle, les choix ne se présentent pas aussi simplement que dans l'exemple que nous avons pris. Lorsque le statisticien reçoit les résultats " bruts " d'une exploitation (les " listings " imprimés par l'ordinateur, comme on dit dans le franglais des informaticiens), ceux-ci ne peuvent pas être publiés tels quels : la masse même de l'information l'interdit car la production automatique des résultats, en multipliant les possibilités de calcul, a aussi multiplié le nombre des tableaux et graphiques possibles. Il faudra donc faire un choix, qui sera guidé à la fois par les particularités des résultats obtenus et par les besoins de l'utilisateur. On repérera, par exemple, à l'aide des procédés de l'analyse des données, les " points saillants " de l'information, c'est-à-dire les tableaux qui indiquent de fortes corrélations entre les variables croisées, et aussi les cases de ces tableaux qui se distinguent en étant soit beaucoup plus, soit beaucoup moins remplies qu'elles ne l'auraient été si les variables croisées avaient été indépendantes (3). Ces " points saillants " peuvent d'ailleurs aussi bien correspondre à des erreurs qu'à des phénomènes statistiques importants, et il faut toujours les vérifier. On examinera la nature des relations entre les variables sur la population étudiée, on procédera aussi à des confrontations avec d'autres sources d'information, on triera dans la masse des tableaux ceux qui sont à la fois les plus importants pour le client et les plus significatifs du point de vue de l'information apportée, on découpera dans l'objet étudié des sous-ensembles homogènes au regard de tel critère jugé important, et donc susceptibles d'être considérés comme des unités dans un raisonnement global, etc.

Le résultat de ce travail est une information simplifiée, élaguée, épurée ; le statisticien peut l'utiliser pour présenter un texte simple, clair, d'une lecture aussi facile que possible. Les nombres n'apparaîtront alors que dans quelques " tableautins " lisibles ou dans quelques graphiques bien choisis. Les gros tableaux qui ont permis de construire l'étude seront soit fournis en annexe, soit conservés dans des archives à la disposition des personnes intéressées.

Tout ce travail de mise en forme présente des analogies avec la typographie. Celle-ci part d'un texte manuscrit, peu lisible, raturé, etc., et le transforme en un texte d'aspect agréable et de lecture aisée. Le typographe n'ajoute au texte aucune information (et même il perd l'information donnée par le graphisme de l'écriture cursive), il ne modifie pas son sens, mais il lui donne une forme qui rendra plus aisé le dégagement du sens par le lecteur. Telle est aussi la tâche du statisticien lorsqu'il publie ses résultats. Elle nécessite le plus grand respect envers le lecteur, personnage hypothétique dont on s'efforce de satisfaire l'attente en pesant les mots au trébuchet de l'exactitude et de la clarté. Les textes ainsi produits, techniques certes, peuvent présenter un agrément esthétique lorsque la simplicité de la forme s'allie à la richesse du contenu.

Il faut, c'est vrai, quelque abnégation pour présenter sous une forme claire (et donc vulnérable) un travail long et sérieux, en masquant la machinerie des calculs pour mieux laisser parler les résultats, un peu comme l'on masque, dans un théâtre, l'envers et le mécanisme des décors pour rendre la pièce plus vivante. On va ainsi au devant des critiques qui ne manquent jamais de se manifester dès qu'un texte est intelligible, dès que ses conclusions sont claires. Il y aura toujours de bonnes âmes pour dire, doctae cum libro, que les résultats obtenus étaient évidents a priori et que tout cela ne demandait pas autant de peine (et de dépense) ; si l'information produite a permis de départager deux intuitions possibles mais contradictoires, ces personnes se rappelleront n'avoir eu que celle des deux intuitions qui a été confirmée.

C'est par sa simplicité, sa clarté, sa modestie, son souci d'écouter et de se faire comprendre que se distingue le grand statisticien, personnage d'exception, mais qui ne se met pas en avant et que l'on remarque à peine ; personnage auquel on s'attache profondément lorsque l'on a perçu ses qualités humaines.

Mais revenons-en au sens. Si la mise en forme a facilité autant que faire se pouvait la tâche du lecteur, c'est finalement à lui seul qu'il revient de donner un sens au texte, car la construction du sens est une opération essentiellement subjective, ce qui ne veut pas dire qu'elle soit individuelle : le " sujet " en question peut être collectif et composé de l'ensemble des personnes qui, compte tenu de leur situation historique (économique, culturelle, sociale, etc.), attribuent au texte une signification identique, ne serait-ce que pour ne lui trouver aucune signification. On définit parfois l'objectivité comme ce sur quoi tous les individus peuvent se mettre d'accord : pourtant l'accord de tous les individus ne garantit pas l'objectivité, comme le montrent dans l'histoire les phénomènes d'illusion collective.

Le sens d'un texte ne se manifestera que s'il tombe entre les mains d'un lecteur prêt à le recevoir : à tout le moins, il faut que le lecteur comprenne la langue dans laquelle il est écrit ; mais il faut aussi que le texte l'intéresse, c'est-à-dire qu'il ait un rapport avec ses intérêts, avec les conflits dans lesquels il est engagé, avec son action. Chacun de nous a fait cette expérience : un texte est resté opaque, dénué de sens et d'intérêt, jusqu'au jour où l'on a perçu un rapport entre ce texte et la situation dans laquelle on se trouvait ; il a été possible alors de le lire attentivement, sans effort, et de lui donner un sens.

La culture d'un individu élargit le champ des textes auxquels il peut donner un sens, en raison à la fois de sa meilleure maîtrise du langage et de la variété de ses intérêts. La curiosité intellectuelle " tous azimuts " caractérise cependant surtout l'adolescent qui découvre le monde et aussi le pédagogue qui vieillit dans la société des adolescents. L'homme engagé dans l'action donne un sens à des domaines plus étroits, mais ce sens est aussi plus fin et va plus profond.

La statistique, qui met en œuvre sa technique d'observation dans le cadre de découpages conceptuels a priori, est du domaine de la forme ; on ne peut donc dire qu'elle vise " à produire des significations " : elle vise seulement à faciliter leur dégagement, la création du sens dépendant en dernière instance du sujet-lecteur. On ne peut pas dire non plus que, liée à la forme seule, la statistique n'ait rien à voir avec la signification : en faciliter le dégagement, c'est déjà beaucoup. Ainsi se ferme une boucle : dans la phase méthodologique, la définition des concepts demandait une adaptation fine aux besoins du " client ", c'est-à-dire à son action. La même exigence reparaît lors de la phase de publication ; et le dialogue qui s'engage avec le client après la publication permet de critiquer de nouveau les choix opérés au départ, et de les réviser.

Avant de quitter la relation entre forme et sens, nous ferons deux remarques d'ordre pratique.

a) La statistique n'a de valeur que comparative : un nombre isolé ne signifie rien, si l'on n'est pas en mesure de le rattacher à une série et de le comparer à cette série. La phrase : " L'indice des prix a augmenté de 0,5 % " n'a de sens que pour celui qui connaît le taux moyen d'augmentation de cet indice sur une longue période, et qui peut donc savoir si une croissance de 0,5 % en un mois est supérieure ou inférieure à ce taux moyen ; elle aura plus de sens encore pour celui qui connaît la tendance récente de l'indice, et pourra voir dans ce taux l'indication d'une accélération ou d'un ralentissement. Enfin, celui qui comparera l'indice français non seulement à son propre passé, mais aussi aux indices étrangers - ce qui requiert une bonne connaissance des conventions de calcul des divers indices -, celui qui " suit " non seulement l'indice global, mais les séries détaillées, sera en mesure de l'interpréter de façon encore plus fine. Nous aurions pu faire le même raisonnement à partir d'autres statistiques : " L'effectif de la population de la France en 1975 est de 53 millions ", voilà une phrase vide de sens pour celui qui ne peut l'insérer ne serait-ce qu'intuitivement dans un référentiel, et réaliser des comparaisons dans le temps (vitesse de croissance de la population française) ou dans l'espace (population comparée avec celles des autres pays) ; de plus, ce nombre global ne dit rien sur des structures (par âge, par région, par métier, par classe sociale, etc.) que l'on ne peut atteindre qu'en le faisant éclater. Dernier exemple enfin : une distribution de revenus comme celle que nous avons représentée au début de ce chapitre n'a de sens que si l'on sait à quelle population elle se rapporte exactement (ce que nous n'avons pas dit) et si l'on peut la comparer à d'autres distributions (ce que nous n'avons pas fait, mais ce n'était pas notre propos).

b) La publication statistique, avec ses " points saillants " et ses " tableautins ", est plus une introduction à l'usage de l'information qu'une réponse à toutes les questions que chaque lecteur peut se poser - une telle réponse serait hors de portée du rédacteur. En présentant et en interprétant de façon globale les résultats, en illustrant cette présentation à l'aide d'exemples particuliers bien choisis, le statisticien indique le cadre d'ensemble de l'information et en même temps montre comment peut s'y prendre celui qui veut utiliser des résultats fins. Prenons un exemple : si l'on présente des statistiques démographiques recueillies sur chacune des communes d'une région, on cherchera à mettre en évidence d'une part la place de la région dans l'ensemble du pays, d'autre part les structures internes de la région ; le résultat comportera par exemple une série de cartes présentant des " zonages " de la région selon divers critères (structure par âge, par profession, zones d'influence des villes, etc.), et le commentaire signalera les communes dont la structure est particulièrement originale. Tout cela est bon pour une approche globale de la région : mais celui qui s'intéresse à une commune particulière devra faire un travail supplémentaire. C'est ici la revanche des gros tableaux, car eux seuls répondent aux questions fines que peut poser chaque lecteur particulier. Cependant la présentation globale de la région garde tout son intérêt : d'une part elle décrit le cadre général dans lequel il est utile d'insérer l'information concernant la commune, d'autre part elle donne l'exemple d'une démarche d'étude qui peut être utilisée aussi à propos de cette commune.

Concept et théorie

La publication statistique est essentiellement descriptive : elle montre ce qui a été observé à travers la grille conceptuelle. Mais bien souvent la description ne se suffit pas à elle-même ; elle conduit très naturellement à chercher une interprétation. Et en interprétant les résultats, le statisticien sort de sa sphère propre qui est celle de la description, et pénètre dans celle de l'utilisateur des statistiques. Certains peuvent penser qu'il sort alors indûment de son métier; mais se refuser à le faire au nom d'une conception restrictive de la statistique, ce serait pécher par pédantisme.

Voyons cette question sur un exemple. L. Lebart et N.Tabard ont étudié un tableau répartissant la population active de la région parisienne selon deux caractères croisés : arrondissement ou commune de résidence, et profession (4). Cette étude a permis de caractériser des quartiers bourgeois, ouvriers, commerçants, etc. : à l'échelle des statuts sociaux correspond une ségrégation de l'habitat répartissant les quartiers selon une échelle qui va des quartiers populaires aux quartiers riches.

A ce stade, la description se suffit à elle-même ; ou plutôt l'interprétation est tellement immédiate qu'elle ne présente pas de difficultés notables. Mais il n'en est pas de même si l'on distingue dans le population active les hommes et les femmes : pour une profession donnée, on constate que les femmes résident dans un quartier plus " riche " que les hommes ; et ce phénomène se produit pour toutes les professions. Ici la description permet de constater un phénomène et c'est déjà beaucoup ; mais elle ne permet pas de l'expliquer, car elle ne tranche pas entre les diverses explications possibles. En l'occurrence, voici celles qui ont été avancées pour rendre compte de ce phénomène :

a) dans un couple, le mari a le plus souvent un niveau professionnel supérieur à celui de la femme ; et les ménages résident dans des quartiers qui correspondent plutôt au niveau social des maris ;

b) un ménage où la femme est active dispose en général de deux salaires, et a donc un niveau de vie supérieur aux ménages où seul l'homme travaille. Cela lui permet de se loger mieux que la moyenne des personnes qui ont un statut professionnel analogue ;

c) en général, les femmes sont défavorisées dans leur carrière par rapport aux hommes : pour un même niveau social de départ, elles auront des emplois " inférieurs ". Il en découle qu'à emploi égal la femme appartient à un milieu social " supérieur " à celui de l'homme.

Parmi ces explications, laquelle est la bonne ? A elle seule, l'enquête étudiée ne permet pas de le dire. La confrontation avec d'autres informations - par exemple, une étude sur les professions et les lieux de résidence des actifs célibataires des deux sexes - permettrait de préciser les choses, d'éliminer des explications possibles, et peut-être de parvenir à l'heureuse situation où, toutes les explications ayant été éliminées sauf une, celle-ci peut être considérée au moins jusqu'à nouvel ordre comme " démontrée " (à moins que l'on ne trouve que les différents mécanismes jouent simultanément) (5).

Prenons un autre exemple. Lorsqu'on examine la répartition de la population française par région et classe d'âge telle qu'elle est donnée par le recensement de 19686, on constate que la classe d'âge " 50 à 54 ans " a une répartition géographique originale : si on la compare aux classes d'âge voisines, elle est sous-représentée dans la région Nord (et à un moindre degré en Champagne, Picardie, pays de Loire), et sur-représentée en Provence. C'est un fait ; mais comment l'expliquer ? La classe d'âge en question est celle des personnes nées entre 1914 et 1918, c'est donc une classe " creuse " en raison du déficit de naissances dû à la guerre. Dira-t-on que, moins nombreuse, cette classe a connu une concurrence interne plus faible, et que cela a permis à une forte proportion de ses membres d'aller s'installer en Provence, " au soleil " ? Ce seraient alors les migrations qui expliqueraient le phénomène ; ou bien dira-t-on que les naissances ont été particulièrement peu nombreuses pendant la guerre, dans les régions qui se trouvaient occupées ou dans la zone des combats (Champagne, Picardie, Nord) ? Le phénomène serait alors expliqué par les mouvements naturels de population ; mais on voit que cette explication ne rend pas compte du déficit constaté dans les pays de la Loire. En fait, la répartition géographique de la population dépend à la fois des mouvements migratoires et des mouvements naturels (naissances et décès). Son explication nécessite une étude historique de ces mouvements : et il se peut que cette explication reste partielle.

Dans un autre domaine, celui de la fécondité, les statisticiens ont accumulé les observations et ont étudié l'évolution de la fécondité par classe d'âge, par zone géographique, etc. (7) ; et ils ont constaté des variations très significatives, de brusques retournements de tendance, pour lesquels plusieurs explications différentes ont été pro-. posées : mais aucune ne peut emporter totalement la conviction et, devant ce phénomène qui est peut-être le plus important parmi tous ceux que la statistique décrit actuellement, les démographes restent perplexes.

Ainsi, dans aucun cas la statistique n'apporte à elle seule l'explication de ce qu'elle observe. Et pourtant l'observation réclame l'explication ; elle conduit très naturellement à poser des questions, et le statisticien qui publie doit non seulement fournir ses observations, mais aussi anticiper les questions que les lecteurs se poseront et leur apporter des éléments de réponse. Bien que l'explication ne soit pas exactement de son domaine, sa familiarité avec l'objet étudié, les détails " hors enquête " qu'il aura pu remarquer lors de la collecte, sa connaissance des caractéristiques et de la qualité de l'observation, tout cela l'autorise au moins à proposer sous forme d'hypothèse son interprétation des faits observés. S'il ne la donne pas, le lecteur sera bien obligé d'en forger une : et il ne saura peut-être pas éviter certaines erreurs dans la lecture des résultats.

Tout ceci nous invite à aller un peu plus loin. Qui dit schéma explicatif dit au fond théorie, et désigne donc une construction intellectuelle qui se définit à la fois par un certain découpage du réel (une construction conceptuelle) et par l'énoncé de relations entre les concepts ainsi définis : par exemple, une théorie définira le revenu disponible R d'un ménage ainsi que la valeur C de la consommation, puis elle énoncera une relation C = f (R) entre les observations faites selon ces deux concepts, la définition de la fonction f pouvant prendre en compte des fluctuations individuelles aléatoires. Il est clair qu'entre les concepts existent des relations formelles d'exclusion ou d'inclusion : lorsque l'on définit le revenu, on définit en même temps ce qui n'est pas le revenu. Les relations dont il s'agit ici ne sont pas de ce type ; elles lient des concepts qui relèvent de découpages formels distincts (par exemple, on postulera une relation entre les perspectives de profit, le taux d'intérêt et l'investissement des entreprises).

Ainsi une théorie comporte à la fois des concepts et des relations entre ces concepts ; mais la statistique, elle, ne met en œuvre que des concepts, que des découpages du réel. Comme tout instrument d'observation, elle n'a besoin pour être définie que de la partie de la théorie qui concerne la définition des concepts, c'est-à-dire de l'abstraction (8). Si deux théories utilisent les mêmes concepts, entre lesquels elles postulent seulement des relations différentes, elles peuvent utiliser le même instrument d'observation ; par contre, l'instrument d'observation ne peut pas alimenter une théorie qui suppose un découpage conceptuel incompatible avec celui qu'il met en œuvre.

Nous pouvons tirer de cela plusieurs conséquences :

a) En elle-même, la statistique n'explique rien ; mais cela ne l'empêche pas d'avoir son utilité propre. Reprenons la métaphore qui nous a déjà servi - pour un automobiliste, voir que le feu devant soi est rouge est un chose (observation) ; en inférer qu'il serait dangereux de passer en est une autre (déduction) ; en conclure qu'il faut s'arrêter en est une troisième (décision). Personne ne soutiendra que l'observation des signaux de circulation serait inutile parce que, par elle-même, elle n'implique ni la déduction ni la décision, qui supposent l'intervention d'autres facultés que celles de l'observation. Mais, en revanche, il est vrai que toute observation, et en particulier l'observation statistique, ne trouve son sens que lorsqu'elle est dépassée, c'est-à-dire utilisée dans le cadre d'une construction théorique et de l'action à laquelle cette construction se réfère.

b) La prise en compte des besoins, telle qu'elle s'est faite lors de la phase méthodologique, conduit en fait à construire la théorie qui correspond à l'action du client ; et l'instrument utilisera le découpage conceptuel correspondant à cette théorie. Dans la pratique, bien sûr, tout cela est loin d'être explicite ; et il y aurait quelque pédantisme à réclamer une description théorique complète des besoins et de leurs relations avec l'instrument, tant que l'instrument donne en pratique satisfaction, et tant qu'il ne nécessite pas une réflexion scientifique, c'est-à-dire à la fois théorique et propre à la communication sociale. Dans les cas où la théorie n'est pas explicite, on pourra retrouver sa trace dans l'instrument et inférer à partir de cette trace ce que la théorie a pu être - non sans risque d'erreurs bien sûr, car on en sera réduit aux conjectures en ce qui concerne les relations.

c) A toute observation peut être associée une sphère de validité théorique, comprenant, outre la théorie en vue de laquelle elle a été réalisée, toutes celles qui mettent en œuvre la même batterie de concepts. Dans cette sphère, l'observation peut être qualifiée d'objective, puisqu'en effet elle fournit au raisonnement exactement l'objet qu'il attend. Mais cette sphère a ses limites ; et l'une des tâches du statisticien est de préciser et d'indiquer ces limites, au-delà desquelles l'utilisation de l'observation ne peut qu'entraîner des raisonnements erronés. Par exemple, l'indice des prix de détail de l'I.N.S.E.E. est certainement un excellent instrument dans le cadre des conventions de la comptabilité nationale ; mais ce n'est pas un indicateur du " coût de la vie ", car cette notion est étrangère à ces conventions. De même, l'évolution des demandes d'emploi non satisfaites (D.E.N.S.) n'est pas une mesure du chômage. Ces distinctions sont, bien sûr, un peu subtiles par rapport au grain grossier de l'information telle qu'elle est diffusée massivement ; et la tentation est grande, pour ceux qui détiennent le pouvoir ou aspirent à le détenir, de faire passer lorsque cela les arrange une information pour ce qu'elle n'est pas - de l'utiliser hors de sa sphère de validité - pour en tirer des effets publicitaires et, avec un grand mépris pour le publie, procéder à des manipulations psychologiques. Il nous paraît bien clair que le statisticien qui entend ne pas être un mercenaire (un homme qui fait ce pour quoi on le paie) doit résister à ce genre de tentatives, en faisant connaître avec simplicité et aussi avec vigueur les limites de la validité de ses instruments.

La question des banques de données

Les considérations qui précèdent éclairent la " question des banques de données (9) ". Si l'on pousse jusqu'au bout de ses conséquences la conception " monétaire " de l'information que nous avons décrite plus haut - c'est-à-dire si l'on conçoit l'information comme produit éminemment échangeable -, on est naturellement conduit à une conception " financière " de la circulation d'informations : qu'il s'agisse d'information ou de crédit, cette conception conduit à établir entre l'offreur et le demandeur une " tuyauterie " satisfaisante, des circuits qui opèrent la mise à disposition au moindre coût. Dans le cadre de cette représentation, l'idée d'une " banque de données " se présente naturellement : à un système de communication anarchique entre offreurs d'informations (A, B et C) et demandeurs (a, b et c), la création d'une " banque " qui centralise l'information avant de la redistribuer permet de substituer un système plus simple

wpe5.jpg (30697 octets)

Cette banque joue alors le rôle d'un pivot dans la circulation d'information ; elle multiplie les possibilités d'interrogation offertes à chaque demandeur, et elle permet aussi de tirer profit de " gisements " d'information qui sans elle seraient restés inexploités - par exemple en proposant un échange à l'offreur d'information : " Donnez-moi votre information et je vous ferai profiter de ma banque. "

Tout cela est rationnel et très séduisant, une fois admis le postulat de l'analogie monétaire de l'information. Mais cette analogie est fausse. Contrairement à la monnaie, dont la valeur en tant que signe est indépendante des conditions de sa production, l'information ne peut être utilisée que par celui qui connaît assez les conditions de sa production (cadre conceptuel, techniques utilisées) pour pouvoir la décrypter ; elle ne peut prendre son sens que si elle est confrontée à d'autres informations, dont les conditions de production doivent être également connues ; enfin, chaque utilisateur particulier a besoin non d'une énorme masse de chiffres, mais de quelques indicateurs bien choisis en relation avec ses préoccupations propres et les nécessités de son action : le patron d'une entreprise n'aura pas en général besoin de suivre plus qu'une dizaine d'indicateurs économiques ; mais il faudra qu'ils soient étroitement ajustés à son action. Le producteur d'embouts de lacets veut connaître les ventes mensuelles d'embouts de lacets ; il se contentera éventuellement des ventes de lacets ; mais il enverra au diable les systèmes statistiques et les banques de données s'ils fournissent une information qui ne peut lui servir à rien.

Ainsi l'information ne peut prendre sa valeur que si elle est livrée avec un mode d'emploi ; elle ne peut intéresser le " demandeur " que si elle est passée au crible d'une sélection qui l'adapte finement à ses besoins. Or tout cela demande un travail auquel l'analogie monétaire, avec les simplifications qu'elle implique, ne prépare nullement les promoteurs des banques de données. Ils découvrent souvent avec stupeur que l'instrument qu'ils ont construit à grand-peine reste largement sous-utilisé, et que les " demandeurs " préfèrent continuer à se servir de procédures artisanales qui leur inspirent confiance. Par ailleurs, l'alimentation de la banque en information est parfois difficile : car, s'il est faux de dire que l'" information c'est le pouvoir " (être informé ne suffit pas à procurer du pouvoir, même s'il est souvent indispensable d'avoir du pouvoir pour accéder à l'information et d'avoir de l'information pour le conserver), il n'en reste pas moins que celui qui cède une information craint souvent de céder en même temps une parcelle de son pouvoir ; d'où des réticences, des engagements non tenus, etc. Au total, la banque de données pose des problèmes imprévus tant dans son utilisation que dans son alimentation. Mais lorsque ces difficultés atteignent un tel degré que l'expérience échoue, ses promoteurs préfèrent presque toujours, plutôt que de critiquer leur propre représentation des choses, se percevoir comme les défenseurs malheureux et provisoirement incompris de la Raison dans un monde dominé par les forces obscures de la psychologie, de l'affectivité, de la résistance au changement - voire même, ce qui est un comble, par la " mauvaise circulation de l'information ", dans laquelle les néophytes en sociologie et en organisation s'empressent de découvrir la cause de tous les maux.

Pour éviter tout malentendu, précisons qu'il n'est pas dans notre propos de condamner les banques de données en tant qu'instrument du technicien : utilisées à bon escient, elles sont un outil commode pour le stockage de l'information, la consultation et le calcul. Mais leur usage comporte des exigences qui ont été mal perçues par des promoteurs trop naïfs ou trop pressés.

Nous voici arrivé au terme de notre approche pratique. La façon dont nous l'avons présentée aura pu surprendre. Nous avons juxtaposé des indications techniques on ne peut plus concrètes, comme celles qui concernent l'envoi des questionnaires, et des considérations où figurent de grands mots comme " concept " ou " théorie ". N'y a-t-il pas là une faute de goût, ou pire encore une confusion de genres ?

Le goût étant affaire strictement personnelle, nous n'en discuterons pas. En ce qui concerne le mélange des genres, nous le concédons ; mais il a été imposé par le sujet lui-même, que l'on ne peut pas traiter sans alterner le style technique et le style abstrait. D'un côté, la statistique a les pieds solidement enfoncés dans la matière, et elle requiert cette sorte de bons sens qu'il faut pour réaliser une tâche collective, régler d'innombrables et menus problèmes d'organisation, etc. D'un autre côté, elle pose dès qu'on l'approfondit des problèmes intellectuels délicats ; et l'on y retrouve, non sans surprise sans doute, la plupart des interrogations sur la connaissance auxquelles se sont heurtés, de Descartes à Husserl, les plus grands esprits des temps modernes.

Loin d'être une gêne, la variété de ses aspects devrait au contraire faire de la statistique en tant que phénomène social un objet d'étude privilégié : on n'a pas tellement l'occasion d'observer in vivo l'incarnation de la logique, la dialectique entre l'observation, l'action et la théorie.

Cependant les points de vue logique et technique ne permettent pas de rendre compte de l'ensemble du sujet. Nous voudrions les compléter par une approche rythmique qui nous préparera à nous placer au point de vue historique.

Considérons la production des résultats statistiques bruts, en amont de la phase de publication. Nous y avons distingué deux phases : la méthode et la technique. Chacune de ces deux phases se déroule dans un temps qui lui est propre ; nous dirons aussi qu'elle requiert une psychologie particulière. La technique implique une attention quotidienne aux tâches concrètes de la réalisation et son horizon temporel est de quelques mois à une année ou deux, temps nécessaire pour organiser, réaliser et exploiter une enquête. Elle travaille, nous l'avons vu, dans le cadre conceptuel défini par la méthode. Les qualités qu'elle réclame sont des qualités d'exécution : soin assidu, régularité, réalisme dans l'appréciation a priori des charges de travail et respect des délais de réalisation. Le travail technique se juge en termes de qualité (précision, rapidité) et d'objectivité technique, c'est-à-dire d'application exacte des conventions retenues.

La méthode a pour objet de définir ces conventions, de donner à l'instrument sa base conceptuelle. Elle a pour horizon temporel la durée nécessaire à la mise en œuvre d'une enquête sur un domaine nouveau ou observé d'un nouveau point de vue, et cette durée peut être de cinq ans à une dizaine d'années. Elle procède en opérant une explicitation des besoins d'information et en les confrontant avec les possibilités techniques. Son résultat se juge en termes de pertinence.

Enfin, le champ des possibilités techniques est lui-même remodelé à un rythme encore plus lent : nous appellerons ce troisième champ celui de la forme statistique (10). Les instruments logiques changent en quelques dizaines d'années ; c'est le temps qui a été nécessaire pour la prise en compte des modifications les plus diverses de la forme statistique : représentations graphiques au début du XIXe siècle, et introduction des développements techniques tout au long des XIXe et XXe siècles (le plus récent concernant l'analyse des données). Les instruments matériels du calcul (machines à calculer, mécanographie, informatique) se répandent plus rapidement, mais leur utilisation n'est satisfaisante qu'après une maturation assez longue. Le critère selon lequel peuvent se juger les modifications de la forme est celui de la fécondité, de la largeur et de la nature du champ des possibilités ouvertes.

Les interminables discussions sur la neutralité de la statistique s'éclairent lorsqu'on pense aux trois plans différents sur lesquels se poursuivent ces trois rythmes, et au contrepoint qui les relie. Oui, le technicien objectif est neutre, mais dans le cadre de conventions qui ne le sont pas, car elles correspondent à des besoins particuliers. Oui, l'homme de la méthode est neutre, lorsqu'il se met au service de son client et utilise au mieux les possibilités techniques. Mais son client n'est pas neutre, puisqu'il a une action à mener ; et les possibilités techniques elles-mêmes sont définies par une forme qui est reliée, sur un plan certes très profond, à l'histoire et aux structures de notre société. Quant à l'homme qui travaille sur la forme, et qui ouvre l'accès à de nouveaux continents pour la réflexion et l'action, il est tellement conscient de l'importance cosmique de sa tâche, et il a un tel besoin de se protéger d'un monde qui, avant de faire fête à la nouveauté, cherche d'abord à la tuer, qu'il sera volontiers, comme Cantor ou Benzécri, un mystique : et, dans le langage de la mystique, la question de la neutralité ne peut même pas être formulée.

Distinguer ces trois rythmes dans la réflexion, et ne pas tomber dans le travers qui consiste à transposer d'un plan sur l'autre les critères de jugement ; articuler ces trois rythmes dans l'action, et savoir travailler simultanément selon les trois logiques et dans les trois temporalités qu'il commandent, voilà le programme du statisticien. Certes ce programme est écrasant ; et les nécessités pratiques feront que chacun se spécialisera dans une tâche précise. Pour chacun pris individuellement, ce programme sera donc seulement un cadre de référence ; il ne pourra être rempli que collectivement, par l'institution statistique dans son ensemble.

 

  1. L'édition 1984 des " Donnés sociales " publiées par l'INSEE est un bon modèle de publication statistique.
  2. Les méthodes de la statistique descriptive ont, depuis une vingtaine d'années, progressé de façon décisive grâce à la mise au point de nouveaux procédés (analyse factorielle et classification automatique) regroupés sous l'appellation d'" analyse des données ". On peut donc dire que cette appellation désigne une statistique descriptive dont les instruments sont renouvelés. Cf. J.P. Benzécri, L'analyse des données, Dunod 1973.
  3. Cf. M. Volle, " Une méthode pour lire et commenter automatiquement de grands tableaux statistiques ", Économie et statistique, n° 52 (janvier 1974).
  4. L. Lebart et N. Tabard, " La morphologie des communes urbaines ", in Consommation, n° 2, 1971.
  5. A titre d'information, signalons que L. Lebart et N.Tabard ont opté pour l'explication b.
  6. Cf. Volle, " L'analyse des données ", in Économie et statistique n° 96, janvier 1978.
  7. Cf. les nombreux articles parus sur ce sujet dans la revue Population.
  8. On entend parfois dire : " Un instrument est une théorie, " Il serait plus exact de dire : " Un instrument est une abstraction. "
  9. On trouvera une bonne description des banques de données et des problèmes qu'elles posent, éclairée par plusieurs exemples, dans H. Jarnous et P. Grémion, L'ordinateur au pouvoir, Seuil 1978
  10. " La forme nouvelle qui se met désormais à s'imposer entraîne en même temps un renouvellement du contenu […] Toute reformulation d'un concept "formel" - au sens authentique et fécond du terme - entraîne en même temps un renouvellement de l'ensemble du champ qu'il contrôle et ordonne. " Ernst Cassirer, Substance et fonction (Berlin, 1910)