Le métier de statisticien
CHAPITRE V
La publication statistique
Retour à la table des matières
Le " gâchis de collecte " est la plus grave des
erreurs professionnelles qu'un statisticien puisse commettre. La collecte, la saisie et
les vérifications qui leur sont immédiatement associées sont, de toutes les opérations
statistiques, celles qui demandent la plus grande quantité de travail - travail des
statisticiens eux-mêmes, et aussi travail de ceux qui se sont donné la peine de leur
répondre. Tout ce travail est gâché si, d'une façon ou d'une autre, le " fichier
propre " n'est pas exploité en vue d'une publication - soit directement, soit
indirectement, par exemple par une fusion avec un autre fichier qui permettra de préparer
une publication. Ce qui reste sur les bandes magnétiques ou dans les tiroirs perd très
vite l'essentiel de sa valeur, car l'information ne vaut dans la plupart des cas que si
elle est fraîche. La publication, c'est-à-dire la remise de l'information entre les
mains du public (ou du " client ") sous une forme qui en permette l'usage, est
à la fois le couronnement et la justification d'une opération statistique. Sans elle,
tout le reste a été fait en pure perte.
Or la publication des statistiques est difficile. Dans quelques
cas, certes, il suffit de fournir des chiffres bruts, qu'un public bien informé saura
utiliser : certains ont l'habitude de suivre quelques indicateurs de cours de bourse, de
prix, de commerce extérieur. Mais ce type d'utilisation nécessite une certaine
familiarité avec les séries, familiarité qui n'existe que dans une faible partie du
domaine couvert par la statistique. Dans la plupart des cas, les résultats doivent être
commentés pour être intelligibles : et ici se présentent de redoutables difficultés.
Bien des travaux statistiques, par ailleurs correctement conçus
et exécutés, avortent en effet ou échouent à demi lors de la phase de publication. Les
résultats de l'observation sont souvent présentés de façon insipide, et beaucoup de
textes répondent au plan suivant : une introduction technique, comportant la description
des nomenclatures utilisées et des méthodes d'exploitation (cette introduction sera
parfois hérissée d'équations, car " cela fait bien ", même lorsqu'il ne
s'agit que d'empiler des règles de trois) ; puis des pages et des pages de tableaux,
présentant les résultats sous forme de tris croisés, chaque tableau étant
éventuellement muni d'un titre ésotérique comme " COLCONJ 02 " ou "
EENTR 01 ". Rien ne permet de distinguer entre les tableaux ceux qui présentent le
plus d'intérêt. Le commentaire, généralement très bref, contient des indications sur
les hypothèses retenues et sur les limites de l'information publiée, mais reste timide
ou même muet sur son interprétation, de sorte qu'il ne reste plus au lecteur qu'à
fouiller dans les tableaux et à se risquer lui-même dans l'interprétation, s'il en a le
courage et le temps ; il n'est d'ailleurs nullement assuré de ne pas commettre de
contresens, car l'utilisation correcte des indications techniques est difficile.
Si l'on pense que le schéma que nous venons de tracer est
poussé au noir, que l'on examine quelques publications statistiques - par exemple, des
résultats d'enquêtes fournis dans Les collections de l'I.N.S.E.E. On verra trop
souvent le même travers : une fierté mal placée de technicien, le désir de montrer à
quel point le travail a été compliqué, la crainte de paraître léger aux yeux de
lecteurs qui, trop souvent, ne respectent que les travaux lourds (qu'ils ne lisent pas),
tout cela pousse le statisticien à publier en masse les résultats qu'il a obtenus. On
aboutit alors à ces publications indigestes, alourdies de références méthodologiques
superflues, dénuées de conclusions claires : bref, sérieuses par leur poids seulement.
Certes, il ne s'agit pas de réclamer au statisticien des textes
qui, par leurs attraits, exciteraient l'imagination du lecteur et retiendraient son
attention comme peuvent le faire des uvres purement littéraires. Même s'il est
sobre et clair, un texte statistique est toujours technique et réclame un effort de
lecture. Mais il convient que cet effort ne soit pas excessif, et surtout qu'il puisse
recevoir sa récompense : que le lecteur puisse effectivement dégager, selon ses propres
besoins, le sens de l'information que l'on a placée entre ses mains (1).
Mais comment atteindre un tel objectif ? N'est-il pas au-delà
de ce qui est possible et même licite pour un statisticien ? Le rôle de celui-ci
n'est-il pas de publier l'information brute, et de laisser parler les faits, les faits
seuls, en s'abstenant de toute intervention et de tout commentaire ? S'il procède
autrement, ne risque-t-il pas d'introduire indûment un aspect subjectif dans son ouvrage
? En outre, qui est ce " lecteur " hypothétique auquel on s'adresse ?
Pour répondre à ces questions, il faut entrer un peu plus
avant dans la compréhension du travail statistique. Nous le ferons en examinant deux
relations : la relation entre la forme et le sens d'une publication ; et la
relation entre concept et théorie. Nous sommes ici contraints d'utiliser un
vocabulaire redoutable, car ses acceptions sont loin d'être univoques. Mais les
développements qui suivent permettront de préciser l'usage que nous en faisons.
Forme et sens
Supposons que nous ayons observé les revenus dans une
population de ménages. Si l'on représente graphiquement leur répartition, on obtiendra
une figure où chaque ménage est représenté par un petit bâton dont l'abscisse est
égale au revenu :
Ce graphique contient toute l'information recueillie, mais il est pratiquement
illisible et très difficile à interpréter. L'interprétation est par contre plus facile
si l'on construit un histogramme :
Du diagramme en bâtons à l'histogramme, une certaine quantité
d'information a été perdue : l'histogramme n'indique plus exactement le revenu de chaque
ménage ; et pourtant il est plus lisible. On peut même, avec un peu de hardiesse,
ajuster à l'histogramme une courbe de distribution qui rendra le résultat encore plus
clair. En comparant cette courbe avec celles que l'on aurait construites pour décrire la
répartition des revenus dans d'autres populations, on pourra s'engager dans la voie de
l'interprétation.
Cet exemple nous permet d'illustrer la démarche fondamentale de
la publication statistique : consentir une perte en information pour obtenir un gain en
signification. Cette démarche est celle de la " statistique descriptive "
et aussi de l'" analyse des données (2) ". Bien sûr, dans une opération
réelle, les choix ne se présentent pas aussi simplement que dans l'exemple que nous
avons pris. Lorsque le statisticien reçoit les résultats " bruts " d'une
exploitation (les " listings " imprimés par l'ordinateur, comme on dit dans le
franglais des informaticiens), ceux-ci ne peuvent pas être publiés tels quels : la masse
même de l'information l'interdit car la production automatique des résultats, en
multipliant les possibilités de calcul, a aussi multiplié le nombre des tableaux et
graphiques possibles. Il faudra donc faire un choix, qui sera guidé à la fois par les
particularités des résultats obtenus et par les besoins de l'utilisateur. On repérera,
par exemple, à l'aide des procédés de l'analyse des données, les " points
saillants " de l'information, c'est-à-dire les tableaux qui indiquent de fortes
corrélations entre les variables croisées, et aussi les cases de ces tableaux qui se
distinguent en étant soit beaucoup plus, soit beaucoup moins remplies qu'elles ne
l'auraient été si les variables croisées avaient été indépendantes (3). Ces "
points saillants " peuvent d'ailleurs aussi bien correspondre à des erreurs qu'à
des phénomènes statistiques importants, et il faut toujours les vérifier. On examinera
la nature des relations entre les variables sur la population étudiée, on procédera
aussi à des confrontations avec d'autres sources d'information, on triera dans la masse
des tableaux ceux qui sont à la fois les plus importants pour le client et les plus
significatifs du point de vue de l'information apportée, on découpera dans l'objet
étudié des sous-ensembles homogènes au regard de tel critère jugé important, et donc
susceptibles d'être considérés comme des unités dans un raisonnement global, etc.
Le résultat de ce travail est une information simplifiée,
élaguée, épurée ; le statisticien peut l'utiliser pour présenter un texte simple,
clair, d'une lecture aussi facile que possible. Les nombres n'apparaîtront alors que dans
quelques " tableautins " lisibles ou dans quelques graphiques bien choisis. Les
gros tableaux qui ont permis de construire l'étude seront soit fournis en annexe, soit
conservés dans des archives à la disposition des personnes intéressées.
Tout ce travail de mise en forme présente des analogies avec la
typographie. Celle-ci part d'un texte manuscrit, peu lisible, raturé, etc., et le
transforme en un texte d'aspect agréable et de lecture aisée. Le typographe n'ajoute au
texte aucune information (et même il perd l'information donnée par le graphisme de
l'écriture cursive), il ne modifie pas son sens, mais il lui donne une forme qui
rendra plus aisé le dégagement du sens par le lecteur. Telle est aussi la tâche du
statisticien lorsqu'il publie ses résultats. Elle nécessite le plus grand respect envers
le lecteur, personnage hypothétique dont on s'efforce de satisfaire l'attente en pesant
les mots au trébuchet de l'exactitude et de la clarté. Les textes ainsi produits,
techniques certes, peuvent présenter un agrément esthétique lorsque la simplicité de
la forme s'allie à la richesse du contenu.
Il faut, c'est vrai, quelque abnégation pour présenter sous
une forme claire (et donc vulnérable) un travail long et sérieux, en masquant la
machinerie des calculs pour mieux laisser parler les résultats, un peu comme l'on masque,
dans un théâtre, l'envers et le mécanisme des décors pour rendre la pièce plus
vivante. On va ainsi au devant des critiques qui ne manquent jamais de se manifester dès
qu'un texte est intelligible, dès que ses conclusions sont claires. Il y aura toujours de
bonnes âmes pour dire, doctae cum libro, que les résultats obtenus étaient
évidents a priori et que tout cela ne demandait pas autant de peine (et de
dépense) ; si l'information produite a permis de départager deux intuitions possibles
mais contradictoires, ces personnes se rappelleront n'avoir eu que celle des deux
intuitions qui a été confirmée.
C'est par sa simplicité, sa clarté, sa modestie, son souci
d'écouter et de se faire comprendre que se distingue le grand statisticien, personnage
d'exception, mais qui ne se met pas en avant et que l'on remarque à peine ; personnage
auquel on s'attache profondément lorsque l'on a perçu ses qualités humaines.
Mais revenons-en au sens. Si la mise en forme a facilité autant
que faire se pouvait la tâche du lecteur, c'est finalement à lui seul qu'il revient de
donner un sens au texte, car la construction du sens est une opération essentiellement
subjective, ce qui ne veut pas dire qu'elle soit individuelle : le " sujet " en
question peut être collectif et composé de l'ensemble des personnes qui, compte tenu de
leur situation historique (économique, culturelle, sociale, etc.), attribuent au texte
une signification identique, ne serait-ce que pour ne lui trouver aucune signification. On
définit parfois l'objectivité comme ce sur quoi tous les individus peuvent se mettre
d'accord : pourtant l'accord de tous les individus ne garantit pas l'objectivité, comme
le montrent dans l'histoire les phénomènes d'illusion collective.
Le sens d'un texte ne se manifestera que s'il tombe entre les
mains d'un lecteur prêt à le recevoir : à tout le moins, il faut que le lecteur
comprenne la langue dans laquelle il est écrit ; mais il faut aussi que le texte l'intéresse,
c'est-à-dire qu'il ait un rapport avec ses intérêts, avec les conflits dans
lesquels il est engagé, avec son action. Chacun de nous a fait cette expérience : un
texte est resté opaque, dénué de sens et d'intérêt, jusqu'au jour où l'on a perçu
un rapport entre ce texte et la situation dans laquelle on se trouvait ; il a été
possible alors de le lire attentivement, sans effort, et de lui donner un sens.
La culture d'un individu élargit le champ des textes auxquels
il peut donner un sens, en raison à la fois de sa meilleure maîtrise du langage et de la
variété de ses intérêts. La curiosité intellectuelle " tous azimuts "
caractérise cependant surtout l'adolescent qui découvre le monde et aussi le pédagogue
qui vieillit dans la société des adolescents. L'homme engagé dans l'action donne un
sens à des domaines plus étroits, mais ce sens est aussi plus fin et va plus profond.
La statistique, qui met en uvre sa technique d'observation
dans le cadre de découpages conceptuels a priori, est du domaine de la forme ; on ne peut
donc dire qu'elle vise " à produire des significations " : elle vise seulement
à faciliter leur dégagement, la création du sens dépendant en dernière instance du
sujet-lecteur. On ne peut pas dire non plus que, liée à la forme seule, la statistique
n'ait rien à voir avec la signification : en faciliter le dégagement, c'est déjà
beaucoup. Ainsi se ferme une boucle : dans la phase méthodologique, la définition des
concepts demandait une adaptation fine aux besoins du " client ", c'est-à-dire
à son action. La même exigence reparaît lors de la phase de publication ; et le
dialogue qui s'engage avec le client après la publication permet de critiquer de nouveau
les choix opérés au départ, et de les réviser.
Avant de quitter la relation entre forme et sens, nous ferons
deux remarques d'ordre pratique.
a) La statistique n'a de valeur que comparative : un nombre
isolé ne signifie rien, si l'on n'est pas en mesure de le rattacher à une série et de
le comparer à cette série. La phrase : " L'indice des prix a augmenté de 0,5 %
" n'a de sens que pour celui qui connaît le taux moyen d'augmentation de cet indice
sur une longue période, et qui peut donc savoir si une croissance de 0,5 % en un mois est
supérieure ou inférieure à ce taux moyen ; elle aura plus de sens encore pour celui qui
connaît la tendance récente de l'indice, et pourra voir dans ce taux l'indication d'une
accélération ou d'un ralentissement. Enfin, celui qui comparera l'indice français non
seulement à son propre passé, mais aussi aux indices étrangers - ce qui requiert une
bonne connaissance des conventions de calcul des divers indices -, celui qui " suit
" non seulement l'indice global, mais les séries détaillées, sera en mesure de
l'interpréter de façon encore plus fine. Nous aurions pu faire le même raisonnement à
partir d'autres statistiques : " L'effectif de la population de la France en 1975 est
de 53 millions ", voilà une phrase vide de sens pour celui qui ne peut l'insérer ne
serait-ce qu'intuitivement dans un référentiel, et réaliser des comparaisons dans le
temps (vitesse de croissance de la population française) ou dans l'espace (population
comparée avec celles des autres pays) ; de plus, ce nombre global ne dit rien sur des
structures (par âge, par région, par métier, par classe sociale, etc.) que l'on ne peut
atteindre qu'en le faisant éclater. Dernier exemple enfin : une distribution de revenus
comme celle que nous avons représentée au début de ce chapitre n'a de sens que si l'on
sait à quelle population elle se rapporte exactement (ce que nous n'avons pas dit) et si
l'on peut la comparer à d'autres distributions (ce que nous n'avons pas fait, mais ce
n'était pas notre propos).
b) La publication statistique, avec ses " points saillants
" et ses " tableautins ", est plus une introduction à l'usage de
l'information qu'une réponse à toutes les questions que chaque lecteur peut se poser -
une telle réponse serait hors de portée du rédacteur. En présentant et en
interprétant de façon globale les résultats, en illustrant cette présentation à
l'aide d'exemples particuliers bien choisis, le statisticien indique le cadre d'ensemble
de l'information et en même temps montre comment peut s'y prendre celui qui veut utiliser
des résultats fins. Prenons un exemple : si l'on présente des statistiques
démographiques recueillies sur chacune des communes d'une région, on cherchera à mettre
en évidence d'une part la place de la région dans l'ensemble du pays, d'autre part les
structures internes de la région ; le résultat comportera par exemple une série de
cartes présentant des " zonages " de la région selon divers critères
(structure par âge, par profession, zones d'influence des villes, etc.), et le
commentaire signalera les communes dont la structure est particulièrement originale. Tout
cela est bon pour une approche globale de la région : mais celui qui s'intéresse
à une commune particulière devra faire un travail supplémentaire. C'est ici la revanche
des gros tableaux, car eux seuls répondent aux questions fines que peut poser chaque
lecteur particulier. Cependant la présentation globale de la région garde tout son
intérêt : d'une part elle décrit le cadre général dans lequel il est utile d'insérer
l'information concernant la commune, d'autre part elle donne l'exemple d'une démarche
d'étude qui peut être utilisée aussi à propos de cette commune.
Concept et théorie
La publication statistique est essentiellement descriptive :
elle montre ce qui a été observé à travers la grille conceptuelle. Mais bien souvent
la description ne se suffit pas à elle-même ; elle conduit très naturellement à
chercher une interprétation. Et en interprétant les résultats, le statisticien sort de
sa sphère propre qui est celle de la description, et pénètre dans celle de
l'utilisateur des statistiques. Certains peuvent penser qu'il sort alors indûment de son
métier; mais se refuser à le faire au nom d'une conception restrictive de la
statistique, ce serait pécher par pédantisme.
Voyons cette question sur un exemple. L. Lebart et N.Tabard ont
étudié un tableau répartissant la population active de la région parisienne selon deux
caractères croisés : arrondissement ou commune de résidence, et profession (4). Cette
étude a permis de caractériser des quartiers bourgeois, ouvriers, commerçants, etc. :
à l'échelle des statuts sociaux correspond une ségrégation de l'habitat répartissant
les quartiers selon une échelle qui va des quartiers populaires aux quartiers riches.
A ce stade, la description se suffit à elle-même ; ou plutôt
l'interprétation est tellement immédiate qu'elle ne présente pas de difficultés
notables. Mais il n'en est pas de même si l'on distingue dans le population active les
hommes et les femmes : pour une profession donnée, on constate que les femmes résident
dans un quartier plus " riche " que les hommes ; et ce phénomène se produit
pour toutes les professions. Ici la description permet de constater un phénomène
et c'est déjà beaucoup ; mais elle ne permet pas de l'expliquer, car elle ne tranche pas
entre les diverses explications possibles. En l'occurrence, voici celles qui ont été
avancées pour rendre compte de ce phénomène :
a) dans un couple, le mari a le plus souvent un niveau
professionnel supérieur à celui de la femme ; et les ménages résident dans des
quartiers qui correspondent plutôt au niveau social des maris ;
b) un ménage où la femme est active dispose en général de
deux salaires, et a donc un niveau de vie supérieur aux ménages où seul l'homme
travaille. Cela lui permet de se loger mieux que la moyenne des personnes qui ont un
statut professionnel analogue ;
c) en général, les femmes sont défavorisées dans leur
carrière par rapport aux hommes : pour un même niveau social de départ, elles auront
des emplois " inférieurs ". Il en découle qu'à emploi égal la femme
appartient à un milieu social " supérieur " à celui de l'homme.
Parmi ces explications, laquelle est la bonne ? A elle seule,
l'enquête étudiée ne permet pas de le dire. La confrontation avec d'autres informations
- par exemple, une étude sur les professions et les lieux de résidence des actifs
célibataires des deux sexes - permettrait de préciser les choses, d'éliminer des
explications possibles, et peut-être de parvenir à l'heureuse situation où, toutes les
explications ayant été éliminées sauf une, celle-ci peut être considérée au moins
jusqu'à nouvel ordre comme " démontrée " (à moins que l'on ne trouve que les
différents mécanismes jouent simultanément) (5).
Prenons un autre exemple. Lorsqu'on examine la répartition de
la population française par région et classe d'âge telle qu'elle est donnée par le
recensement de 19686, on constate que la classe d'âge " 50 à 54 ans " a une
répartition géographique originale : si on la compare aux classes d'âge voisines, elle
est sous-représentée dans la région Nord (et à un moindre degré en Champagne,
Picardie, pays de Loire), et sur-représentée en Provence. C'est un fait ; mais comment
l'expliquer ? La classe d'âge en question est celle des personnes nées entre 1914 et
1918, c'est donc une classe " creuse " en raison du déficit de naissances dû
à la guerre. Dira-t-on que, moins nombreuse, cette classe a connu une concurrence interne
plus faible, et que cela a permis à une forte proportion de ses membres d'aller
s'installer en Provence, " au soleil " ? Ce seraient alors les migrations qui
expliqueraient le phénomène ; ou bien dira-t-on que les naissances ont été
particulièrement peu nombreuses pendant la guerre, dans les régions qui se trouvaient
occupées ou dans la zone des combats (Champagne, Picardie, Nord) ? Le phénomène serait
alors expliqué par les mouvements naturels de population ; mais on voit que cette
explication ne rend pas compte du déficit constaté dans les pays de la Loire. En fait,
la répartition géographique de la population dépend à la fois des mouvements
migratoires et des mouvements naturels (naissances et décès). Son explication nécessite
une étude historique de ces mouvements : et il se peut que cette explication reste
partielle.
Dans un autre domaine, celui de la fécondité, les
statisticiens ont accumulé les observations et ont étudié l'évolution de la
fécondité par classe d'âge, par zone géographique, etc. (7) ; et ils ont constaté des
variations très significatives, de brusques retournements de tendance, pour lesquels
plusieurs explications différentes ont été pro-. posées : mais aucune ne peut emporter
totalement la conviction et, devant ce phénomène qui est peut-être le plus important
parmi tous ceux que la statistique décrit actuellement, les démographes restent
perplexes.
Ainsi, dans aucun cas la statistique n'apporte à elle seule
l'explication de ce qu'elle observe. Et pourtant l'observation réclame l'explication ;
elle conduit très naturellement à poser des questions, et le statisticien qui publie
doit non seulement fournir ses observations, mais aussi anticiper les questions que les
lecteurs se poseront et leur apporter des éléments de réponse. Bien que l'explication
ne soit pas exactement de son domaine, sa familiarité avec l'objet étudié, les détails
" hors enquête " qu'il aura pu remarquer lors de la collecte, sa connaissance
des caractéristiques et de la qualité de l'observation, tout cela l'autorise au moins à
proposer sous forme d'hypothèse son interprétation des faits observés. S'il ne la donne
pas, le lecteur sera bien obligé d'en forger une : et il ne saura peut-être pas éviter
certaines erreurs dans la lecture des résultats.
Tout ceci nous invite à aller un peu plus loin. Qui dit schéma
explicatif dit au fond théorie, et désigne donc une construction intellectuelle qui se
définit à la fois par un certain découpage du réel (une construction conceptuelle) et
par l'énoncé de relations entre les concepts ainsi définis : par exemple, une théorie
définira le revenu disponible R d'un ménage ainsi que la valeur C de la consommation,
puis elle énoncera une relation C = f (R) entre les observations faites selon ces
deux concepts, la définition de la fonction f pouvant prendre en compte des
fluctuations individuelles aléatoires. Il est clair qu'entre les concepts existent des
relations formelles d'exclusion ou d'inclusion : lorsque l'on définit le revenu, on
définit en même temps ce qui n'est pas le revenu. Les relations dont il s'agit ici ne
sont pas de ce type ; elles lient des concepts qui relèvent de découpages formels
distincts (par exemple, on postulera une relation entre les perspectives de profit, le
taux d'intérêt et l'investissement des entreprises).
Ainsi une théorie comporte à la fois des concepts et des
relations entre ces concepts ; mais la statistique, elle, ne met en uvre que des
concepts, que des découpages du réel. Comme tout instrument d'observation, elle n'a
besoin pour être définie que de la partie de la théorie qui concerne la définition des
concepts, c'est-à-dire de l'abstraction (8). Si deux théories utilisent les mêmes
concepts, entre lesquels elles postulent seulement des relations différentes, elles
peuvent utiliser le même instrument d'observation ; par contre, l'instrument
d'observation ne peut pas alimenter une théorie qui suppose un découpage conceptuel
incompatible avec celui qu'il met en uvre.
Nous pouvons tirer de cela plusieurs conséquences :
a) En elle-même, la statistique n'explique rien ; mais cela ne
l'empêche pas d'avoir son utilité propre. Reprenons la métaphore qui nous a déjà
servi - pour un automobiliste, voir que le feu devant soi est rouge est un chose
(observation) ; en inférer qu'il serait dangereux de passer en est une autre (déduction)
; en conclure qu'il faut s'arrêter en est une troisième (décision). Personne ne
soutiendra que l'observation des signaux de circulation serait inutile parce que, par
elle-même, elle n'implique ni la déduction ni la décision, qui supposent l'intervention
d'autres facultés que celles de l'observation. Mais, en revanche, il est vrai que toute
observation, et en particulier l'observation statistique, ne trouve son sens que
lorsqu'elle est dépassée, c'est-à-dire utilisée dans le cadre d'une construction
théorique et de l'action à laquelle cette construction se réfère.
b) La prise en compte des besoins, telle qu'elle s'est faite
lors de la phase méthodologique, conduit en fait à construire la théorie qui correspond
à l'action du client ; et l'instrument utilisera le découpage conceptuel correspondant
à cette théorie. Dans la pratique, bien sûr, tout cela est loin d'être explicite ; et
il y aurait quelque pédantisme à réclamer une description théorique complète des
besoins et de leurs relations avec l'instrument, tant que l'instrument donne en pratique
satisfaction, et tant qu'il ne nécessite pas une réflexion scientifique, c'est-à-dire
à la fois théorique et propre à la communication sociale. Dans les cas où la théorie
n'est pas explicite, on pourra retrouver sa trace dans l'instrument et inférer à partir
de cette trace ce que la théorie a pu être - non sans risque d'erreurs bien sûr, car on
en sera réduit aux conjectures en ce qui concerne les relations.
c) A toute observation peut être associée une sphère de
validité théorique, comprenant, outre la théorie en vue de laquelle elle a été
réalisée, toutes celles qui mettent en uvre la même batterie de concepts. Dans
cette sphère, l'observation peut être qualifiée d'objective, puisqu'en effet elle
fournit au raisonnement exactement l'objet qu'il attend. Mais cette sphère a ses limites
; et l'une des tâches du statisticien est de préciser et d'indiquer ces limites,
au-delà desquelles l'utilisation de l'observation ne peut qu'entraîner des raisonnements
erronés. Par exemple, l'indice des prix de détail de l'I.N.S.E.E. est certainement un
excellent instrument dans le cadre des conventions de la comptabilité nationale ; mais ce
n'est pas un indicateur du " coût de la vie ", car cette notion est étrangère
à ces conventions. De même, l'évolution des demandes d'emploi non satisfaites
(D.E.N.S.) n'est pas une mesure du chômage. Ces distinctions sont, bien sûr, un peu
subtiles par rapport au grain grossier de l'information telle qu'elle est diffusée
massivement ; et la tentation est grande, pour ceux qui détiennent le pouvoir ou aspirent
à le détenir, de faire passer lorsque cela les arrange une information pour ce qu'elle
n'est pas - de l'utiliser hors de sa sphère de validité - pour en tirer des effets
publicitaires et, avec un grand mépris pour le publie, procéder à des manipulations
psychologiques. Il nous paraît bien clair que le statisticien qui entend ne pas être un
mercenaire (un homme qui fait ce pour quoi on le paie) doit résister à ce genre de
tentatives, en faisant connaître avec simplicité et aussi avec vigueur les limites de la
validité de ses instruments.
La question des banques de données
Les considérations qui précèdent éclairent la "
question des banques de données (9) ". Si l'on pousse jusqu'au bout de ses
conséquences la conception " monétaire " de l'information que nous avons
décrite plus haut - c'est-à-dire si l'on conçoit l'information comme produit
éminemment échangeable -, on est naturellement conduit à une conception "
financière " de la circulation d'informations : qu'il s'agisse d'information ou de
crédit, cette conception conduit à établir entre l'offreur et le demandeur une "
tuyauterie " satisfaisante, des circuits qui opèrent la mise à disposition au
moindre coût. Dans le cadre de cette représentation, l'idée d'une " banque de
données " se présente naturellement : à un système de communication anarchique
entre offreurs d'informations (A, B et C) et demandeurs (a, b et c), la création d'une
" banque " qui centralise l'information avant de la redistribuer permet de
substituer un système plus simple
Cette banque joue alors le rôle d'un pivot dans la circulation
d'information ; elle multiplie les possibilités d'interrogation offertes à chaque
demandeur, et elle permet aussi de tirer profit de " gisements " d'information
qui sans elle seraient restés inexploités - par exemple en proposant un échange à
l'offreur d'information : " Donnez-moi votre information et je vous ferai profiter de
ma banque. "
Tout cela est rationnel et très séduisant, une fois admis le
postulat de l'analogie monétaire de l'information. Mais cette analogie est fausse.
Contrairement à la monnaie, dont la valeur en tant que signe est indépendante des
conditions de sa production, l'information ne peut être utilisée que par celui qui
connaît assez les conditions de sa production (cadre conceptuel, techniques utilisées)
pour pouvoir la décrypter ; elle ne peut prendre son sens que si elle est confrontée à
d'autres informations, dont les conditions de production doivent être également connues
; enfin, chaque utilisateur particulier a besoin non d'une énorme masse de chiffres, mais
de quelques indicateurs bien choisis en relation avec ses préoccupations propres et les
nécessités de son action : le patron d'une entreprise n'aura pas en général besoin de
suivre plus qu'une dizaine d'indicateurs économiques ; mais il faudra qu'ils soient
étroitement ajustés à son action. Le producteur d'embouts de lacets veut connaître les
ventes mensuelles d'embouts de lacets ; il se contentera éventuellement des ventes de
lacets ; mais il enverra au diable les systèmes statistiques et les banques de données
s'ils fournissent une information qui ne peut lui servir à rien.
Ainsi l'information ne peut prendre sa valeur que si elle est
livrée avec un mode d'emploi ; elle ne peut intéresser le " demandeur " que si
elle est passée au crible d'une sélection qui l'adapte finement à ses besoins. Or tout
cela demande un travail auquel l'analogie monétaire, avec les simplifications qu'elle
implique, ne prépare nullement les promoteurs des banques de données. Ils découvrent
souvent avec stupeur que l'instrument qu'ils ont construit à grand-peine reste largement
sous-utilisé, et que les " demandeurs " préfèrent continuer à se servir de
procédures artisanales qui leur inspirent confiance. Par ailleurs, l'alimentation de la
banque en information est parfois difficile : car, s'il est faux de dire que l'"
information c'est le pouvoir " (être informé ne suffit pas à procurer du pouvoir,
même s'il est souvent indispensable d'avoir du pouvoir pour accéder à l'information et
d'avoir de l'information pour le conserver), il n'en reste pas moins que celui qui cède
une information craint souvent de céder en même temps une parcelle de son pouvoir ;
d'où des réticences, des engagements non tenus, etc. Au total, la banque de données
pose des problèmes imprévus tant dans son utilisation que dans son alimentation. Mais
lorsque ces difficultés atteignent un tel degré que l'expérience échoue, ses
promoteurs préfèrent presque toujours, plutôt que de critiquer leur propre
représentation des choses, se percevoir comme les défenseurs malheureux et
provisoirement incompris de la Raison dans un monde dominé par les forces obscures de la
psychologie, de l'affectivité, de la résistance au changement - voire même, ce qui est
un comble, par la " mauvaise circulation de l'information ", dans laquelle les
néophytes en sociologie et en organisation s'empressent de découvrir la cause de tous
les maux.
Pour éviter tout malentendu, précisons qu'il n'est pas dans
notre propos de condamner les banques de données en tant qu'instrument du technicien :
utilisées à bon escient, elles sont un outil commode pour le stockage de l'information,
la consultation et le calcul. Mais leur usage comporte des exigences qui ont été mal
perçues par des promoteurs trop naïfs ou trop pressés.
Nous voici arrivé au terme de notre approche pratique. La
façon dont nous l'avons présentée aura pu surprendre. Nous avons juxtaposé des
indications techniques on ne peut plus concrètes, comme celles qui concernent l'envoi des
questionnaires, et des considérations où figurent de grands mots comme " concept
" ou " théorie ". N'y a-t-il pas là une faute de goût, ou pire encore
une confusion de genres ?
Le goût étant affaire strictement personnelle, nous n'en
discuterons pas. En ce qui concerne le mélange des genres, nous le concédons ; mais il a
été imposé par le sujet lui-même, que l'on ne peut pas traiter sans alterner le style
technique et le style abstrait. D'un côté, la statistique a les pieds solidement
enfoncés dans la matière, et elle requiert cette sorte de bons sens qu'il faut pour
réaliser une tâche collective, régler d'innombrables et menus problèmes
d'organisation, etc. D'un autre côté, elle pose dès qu'on l'approfondit des problèmes
intellectuels délicats ; et l'on y retrouve, non sans surprise sans doute, la plupart des
interrogations sur la connaissance auxquelles se sont heurtés, de Descartes à Husserl,
les plus grands esprits des temps modernes.
Loin d'être une gêne, la variété de ses aspects devrait au
contraire faire de la statistique en tant que phénomène social un objet d'étude
privilégié : on n'a pas tellement l'occasion d'observer in vivo l'incarnation de
la logique, la dialectique entre l'observation, l'action et la théorie.
Cependant les points de vue logique et technique ne permettent
pas de rendre compte de l'ensemble du sujet. Nous voudrions les compléter par une
approche rythmique qui nous préparera à nous placer au point de vue historique.
Considérons la production des résultats statistiques bruts, en
amont de la phase de publication. Nous y avons distingué deux phases : la méthode et la
technique. Chacune de ces deux phases se déroule dans un temps qui lui est propre ; nous
dirons aussi qu'elle requiert une psychologie particulière. La technique implique
une attention quotidienne aux tâches concrètes de la réalisation et son horizon
temporel est de quelques mois à une année ou deux, temps nécessaire pour organiser,
réaliser et exploiter une enquête. Elle travaille, nous l'avons vu, dans le cadre
conceptuel défini par la méthode. Les qualités qu'elle réclame sont des qualités
d'exécution : soin assidu, régularité, réalisme dans l'appréciation a priori des
charges de travail et respect des délais de réalisation. Le travail technique se juge en
termes de qualité (précision, rapidité) et d'objectivité technique, c'est-à-dire
d'application exacte des conventions retenues.
La méthode a pour objet de définir ces conventions, de donner
à l'instrument sa base conceptuelle. Elle a pour horizon temporel la durée nécessaire
à la mise en uvre d'une enquête sur un domaine nouveau ou observé d'un nouveau
point de vue, et cette durée peut être de cinq ans à une dizaine d'années. Elle
procède en opérant une explicitation des besoins d'information et en les confrontant
avec les possibilités techniques. Son résultat se juge en termes de pertinence.
Enfin, le champ des possibilités techniques est lui-même
remodelé à un rythme encore plus lent : nous appellerons ce troisième champ celui de la
forme statistique (10). Les instruments logiques changent en quelques dizaines
d'années ; c'est le temps qui a été nécessaire pour la prise en compte des
modifications les plus diverses de la forme statistique : représentations graphiques au
début du XIXe siècle, et introduction des développements techniques tout au long des
XIXe et XXe siècles (le plus récent concernant l'analyse des données). Les instruments
matériels du calcul (machines à calculer, mécanographie, informatique) se répandent
plus rapidement, mais leur utilisation n'est satisfaisante qu'après une maturation assez
longue. Le critère selon lequel peuvent se juger les modifications de la forme est celui
de la fécondité, de la largeur et de la nature du champ des possibilités
ouvertes.
Les interminables discussions sur la neutralité de la
statistique s'éclairent lorsqu'on pense aux trois plans différents sur lesquels se
poursuivent ces trois rythmes, et au contrepoint qui les relie. Oui, le technicien
objectif est neutre, mais dans le cadre de conventions qui ne le sont pas, car elles
correspondent à des besoins particuliers. Oui, l'homme de la méthode est neutre,
lorsqu'il se met au service de son client et utilise au mieux les possibilités
techniques. Mais son client n'est pas neutre, puisqu'il a une action à mener ; et les
possibilités techniques elles-mêmes sont définies par une forme qui est reliée, sur un
plan certes très profond, à l'histoire et aux structures de notre société. Quant à
l'homme qui travaille sur la forme, et qui ouvre l'accès à de nouveaux continents pour
la réflexion et l'action, il est tellement conscient de l'importance cosmique de sa
tâche, et il a un tel besoin de se protéger d'un monde qui, avant de faire fête à la
nouveauté, cherche d'abord à la tuer, qu'il sera volontiers, comme Cantor ou Benzécri,
un mystique : et, dans le langage de la mystique, la question de la neutralité ne peut
même pas être formulée.
Distinguer ces trois rythmes dans la réflexion, et ne pas
tomber dans le travers qui consiste à transposer d'un plan sur l'autre les critères de
jugement ; articuler ces trois rythmes dans l'action, et savoir travailler simultanément
selon les trois logiques et dans les trois temporalités qu'il commandent, voilà le
programme du statisticien. Certes ce programme est écrasant ; et les nécessités
pratiques feront que chacun se spécialisera dans une tâche précise. Pour chacun pris
individuellement, ce programme sera donc seulement un cadre de référence ; il ne pourra
être rempli que collectivement, par l'institution statistique dans son ensemble.
- L'édition 1984 des " Donnés sociales " publiées par l'INSEE est un
bon modèle de publication statistique.
- Les méthodes de la statistique descriptive ont, depuis une vingtaine d'années,
progressé de façon décisive grâce à la mise au point de nouveaux procédés (analyse
factorielle et classification automatique) regroupés sous l'appellation d'" analyse
des données ". On peut donc dire que cette appellation désigne une statistique
descriptive dont les instruments sont renouvelés. Cf. J.P. Benzécri, L'analyse des
données, Dunod 1973.
- Cf. M. Volle, " Une méthode pour lire et commenter automatiquement de
grands tableaux statistiques ", Économie et statistique, n° 52 (janvier
1974).
- L. Lebart et N. Tabard, " La morphologie des communes urbaines ", in
Consommation, n° 2, 1971.
- A titre d'information, signalons que L. Lebart et N.Tabard ont opté pour
l'explication b.
- Cf. Volle, " L'analyse des données ", in Économie et statistique n°
96, janvier 1978.
- Cf. les nombreux articles parus sur ce sujet dans la revue Population.
- On entend parfois dire : " Un instrument est une théorie, " Il serait
plus exact de dire : " Un instrument est une abstraction. "
- On trouvera une bonne description des banques de données et des problèmes
qu'elles posent, éclairée par plusieurs exemples, dans H. Jarnous et P. Grémion, L'ordinateur
au pouvoir, Seuil 1978
- " La forme nouvelle qui se met désormais à s'imposer entraîne en
même temps un renouvellement du contenu [
] Toute reformulation d'un concept
"formel" - au sens authentique et fécond du terme - entraîne en même temps un
renouvellement de l'ensemble du champ qu'il contrôle et ordonne. " Ernst Cassirer, Substance
et fonction (Berlin, 1910)