Métier de statisticien chapitre 4

RECHERCHE :

Bienvenue sur le site de Michel VOLLE

Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
GNU Free Documentation License.

Le métier de statisticien

CHAPITRE IV

La technique statistique

Retour à la table des matières

La distinction que nous proposons entre technique et méthode ne doit pas masquer les relations qui existent entre ces deux phases. D'abord, la frontière est assez floue : la mise au point d'un questionnaire est-elle une opération technique ou méthodologique ? Nous avons répondu : technique. Mais cela peut se discuter.

Par ailleurs, l'exercice des responsabilités techniques forme en profondeur le statisticien. Les qualifications et les niveaux très divers des personnes qui concourent à la production d'information font des services statistiques un univers social composite ; même s'il n'est pas exactement représentatif, il est assez varié pour donner à celui qui y travaille, à condition qu'il ne s'enferme pas dans son propre milieu, une ouverture sur les problèmes de notre société. Ensuite, et toutes proportions gardées, les exigences de qualité et de délais, la gestion d'un grand volume de travaux, les problèmes d'organisation, posent au statisticien des questions analogues à celles qui se posent à un industriel, un commerçant ou un gestionnaire. Au total, la participation aux opérations techniques est le gage d'un enracinement dans le concret, d'une appréhension peut-être terre à terre mais intuitive, rapide et correcte des besoins et des problèmes des utilisateurs de l'information. Le statisticien actif n'est pas un bureaucrate coupé du réel.

Enfin, c'est bien souvent au cours des opérations techniques qu'apparaissent des défauts de conception. Une nomenclature mal adaptée entraîne des réponses confuses, une définition ambiguë est comprise de différentes façons, certaines questions ne peuvent pas recevoir de réponse. Le contact avec le " terrain ", que seules les opérations techniques procurent, occasionne donc des améliorations méthodologiques et permet d'accumuler une expérience grâce à laquelle la conception des opérations futures pourra être améliorée.

On voit à quel point technique et méthode sont mêlées l'une à l'autre. Et pourtant, il fallait les distinguer ; car elles relèvent malgré tout d'attitudes différentes, elles constituent des " moments " différents du travail. La méthode est placée sous le signe du choix ; elle ne se conçoit pas sans une certaine liberté d'esprit, indispensable pour s'adapter aux caractéristiques des divers domaines étudiés. La technique, par contre, est placée sous le signe de la rigueur, du répétitif et du normalisé. La méthode trace la voie, et la technique est sur les rails. Une fois définies les options, la recherche de résultats comparables entre eux et dans le temps oblige à une sorte de fixité des concepts, à des vérifications précises, voire tatillonnes. Ainsi le travail statistique associe deux attitudes qui semblent presque incompatibles, tant elles nécessitent des dispositions d'esprit différentes ; mais c'est justement cette association qui garantit la qualité d'ensemble de la démarche. Et d'ailleurs, même s'il présente quelques difficultés, le va-et-vient entre les deux attitudes n'est pas désagréable, car l'une délasse de l'autre : c'est parfois un vrai plaisir, quand on a longuement réfléchi et discuté, et que l'on a eu le sentiment de rêver quelque peu, de se remettre " au charbon (1) " et de reprendre la matière à pleins bras. Et vice versa.

Il est significatif que les livres sur la statistique réservent souvent plus de place aux techniques qu'aux méthodes. Le terrain technique est plus rassurant et aussi, il faut le dire, beaucoup mieux connu et mieux balisé par les statisticiens. Il se prête davantage à la formalisation, aux préceptes, aux recettes, à l'enseignement. Enfin, une conception de la statistique qui se limite à la technique élude quelques questions philosophiques difficiles, qu'elle contourne à l'aide de considérations volontiers moralisantes sur l'objectivité, le sérieux, etc.

Et il est vrai que, dans le cadre défini par les choix méthodologiques, la notion d'objectivité reprend toute sa valeur. Il serait, en effet, contraire à la nature même du travail statistique de modifier une mesure parce qu'elle est surprenante ou déplaisante ; il serait tout aussi aberrant de choisir les méthodes de sorte que les résultats obtenus ne puissent être que rassurants et agréables (à moins que l'objectif que l'on se donne ne soit l'euphorie ; mais alors il faut en être conscient). La conception des méthodes est une opération de longue haleine, qui nécessite une réflexion sur les relations entre méthodes et objectifs. L'objectivité technique, elle, est de tous les jours.

La technique comporte un grand nombre d'opération détaillées, toutes importantes parce que l'échec d'une seule des phases du travail technique compromet la qualité du résultat. Pour éviter les longueurs d'un exposé didactique complet (2) - qui n'entrerait d'ailleurs pas dans notre propos -, nous poursuivrons selon le procédé utilisé au chapitre précédent : on prend une opération fictive, et on la suit dans ses différentes phases, tout en signalant au fur et à mesure les variantes qui peuvent être utilisées (3).

Les éléments de base : répertoires et questionnaires

Qui interroger, quelles questions poser : voilà le point de départ de la collecte. Le répertoire (4) contient la liste des unités à interroger ; le questionnaire contient les questions à poser.

Lors de la phase méthodologique, on a défini la nature des unités à interroger. Il s'agit de passer de cette définition de principe à une liste comportant des noms et des adresses, que l'on pourra utiliser pour lancer l'enquête. De plus, cette liste devra être codée, triée et classée selon certaines des nomenclatures choisies (on classera des établissements, par exemple, par classe de taille, activité et région ; des ménages selon la catégorie sociale du chef de ménage, la taille de la commune de résidence, etc.), afin de faciliter l'organisation de l'enquête.

Au total, le répertoire résulte d'une interaction entre les nomenclatures et la définition des unités. Il faut, pour le constituer, disposer d'une liste de base dont on triera les éléments : S.I.R.E.N.E. (5) pour les enquêtes auprès des entreprises, le recensement de la population pour les enquêtes auprès des ménages, le recensement de l'agriculture pour les enquêtes agricoles, etc. Cette liste de base peut être à l'occasion complétée par des mises à jour partielles, par exemple lorsqu'elle a trop vieilli et que la " population " s'est modifiée.

L'importance du répertoire est fondamentale. En effet, une enquête exécutée à partir d'une liste fausse donnera par la suite des résultats erronés, quel que soit le soin apporté à son exécution. Les unités présentes à tort pourront être sans doute éliminées après la collecte (elles risquent cependant de fausser les opérations de sondage), mais les unités absentes ne pourront pas être retrouvées : un répertoire faux entraîne donc des erreurs par défaut, souvent importantes. Certaines enquêtes sur la production industrielle, réalisées par des syndicats patronaux, comportent pour cette raison des sous-estimations de 30 % à 50 %.

Il est très difficile de réaliser un répertoire parfait. Des entreprises sont créées, changent d'activité, fusionnent, se scindent, cessent d'exister ; les personnes naissent, déménagent, meurent ; les exploitations agricoles se regroupent, se divisent, disparaissent : le mouvement même des choses mine constamment la qualité des répertoires qui doivent être rectifiés par des mises à jour continues, onéreuses et fastidieuses. Ces mises à jour prennent du temps, et le répertoire est toujours en retard par rapport à la réalité. On peut tout au plus évaluer ce décalage, et faire en sorte qu'il n'ait pas de trop graves conséquences.

C'est au moment de la constitution du répertoire que l'on réalise les sondages : on divise la population en classes jugées homogènes, et on tire dans chaque classe le nombre d'unités nécessaire pour obtenir, au moindre coût, un résultat significatif. Nous ne nous étendrons pas ici sur les sondages : leur technique, qui répond à des principes très simples, est parfois dans les applications d'une réelle complexité parce qu'elle peut s'adapter très souplement aux particularités de l'objet étudié (6). La qualité des enquêtes d'opinion (et en particulier des enquêtes sur les intentions de vote, si discutées) dépend surtout de la bonne rédaction des questionnaires et de la qualification des enquêteurs.

Passons au questionnaire. Il doit respecter une contrainte de bon sens : on n'obtiendra une réponse que si la personne enquêtée est capable de la fournir sans que cela lui demande un trop gros travail. Par ailleurs, les nomenclatures (de postes comptables, de produits, etc.) définissent les rubriques possibles, dans lesquelles on choisira donc en fonction des caractéristiques de l'unité. Les techniques de rédaction d'un questionnaire ont fait l'objet de longues études (7) : nous n'y reviendrons pas. Mentionnons les dives types de questions (" ouverte " ou " fermée ", " qualitative " ou " quantitative "), les divers types de codages, etc. La rédaction d'un questionnaire demande que l'on ait le temps de la réflexion et doit se faire de préférence à plusieurs : on n'obtient pas du premier coup un texte sans ambiguïté, cohérent et réaliste.

La collecte

Elle se fait en pratique soit par voie postale, soit en employant des enquêteurs.

Avec la collecte par voie postale, nous atteignons le point le plus terre à terre de la technique. L'objectif est d'obtenir un taux de réponse élevé (supérieur à 95 % dans l'industrie) dans un délai assez bref pour que les résultats finals présentent encore un intérêt lorsqu'on les publiera. Cela demande une gestion très serrée des envois, une bonne coordination avec le bureau de poste dont on dépend ; cela demande aussi que l'on organise de nombreux rappels : dans une enquête industrielle obligatoire, une entreprise qui s'obstine à ne pas répondre recevra cinq correspondances (l'envoi, deux rappels, une mise en demeure, un constat de non-réponse). Si la moitié des entreprises répondent à chaque correspondance, il ne restera à la fin que 3 % de non-réponses environ.

La collecte par enquêteurs relève d'une autre organisation. Elle est beaucoup plus coûteuse, mais beaucoup plus féconde. On peut poser des questions plus compliquées, que l'enquêteur expliquera ; la réponse sera obtenue sous une forme plus correcte, car c'est l'enquêteur qui la rédige ; on peut poser aussi des questions " ouvertes ". La relation de l'enquêteur à l'enquêté, la formulation des questions répondent à tout un " cérémonial " destiné à établir un " contact " favorable... Sur ce point aussi, la littérature abonde.

L'expérience et le sérieux des enquêteurs sont déterminants. L'organisation d'un réseau d'enquêteurs compétents ne s'improvise pas. Les organismes qui recrutent des enquêteurs pour des opérations occasionnelles ont des déboires avec ceux qui " bidonnent " - c'est-à-dire qui remplissent les questionnaires en chambre, sans se déplacer. Ces questionnaires peuvent être assez aisément décelés à la vérification, mais il faut alors recommencer le travail.

La vérification

Les réponses reçues doivent être vérifiées, car elles sont souvent incorrectes. Il est bien rare qu'un questionnaire soit utilisable tel quel, sans quelque rectification.

Souvent, le questionnaire comportera des lacunes : la personne enquêtée n'a pas pu répondre à certaines questions. Cela résulte la plupart du temps d'un scrupule excessif, spécialement dans les enquêtes auprès des entreprises : habituées à la précision comptable, les personnes qui remplissent le questionnaire ne peuvent se résoudre à indiquer un résultat approximatif. Or les exigences de la statistique en matière de précision sont beaucoup moins strictes que celles de la comptabilité, et ne vont ni jusqu'au centime ni même jusqu'au franc. Tel chef d'entreprise, qui remplit un questionnaire " sous la jambe " (de son point de vue) en fournissant des résultats exacts mais imprécis s'imagine saboter la statistique alors qu'il n'en est rien. Par contre, l'homme à l'esprit méticuleux et étroit qui donne des résultats très précis mais ne songe pas à vérifier les ordres de grandeurs essentiels est pour la statistique le pire des fournisseurs. Relevons en passant la distinction entre exactitude et précision. " La bataille de Waterloo a eu lieu le 18 juin 1815 " : précis et exact. " Elle a eu lieu au XIXe siècle " : exact et imprécis. " Elle a eu lieu le 21 mai 1830 " : précis et inexact. L'exactitude est une caractéristique logique de l'information (une information ne peut pas être à la fois exacte et inexacte), alors que la précision est une caractéristique pratique (selon les usages qui en sont faits, une information sera précise ou imprécise, les uns travaillant au mètre près et les autres au micron près).

Une première vérification " manuelle " servira à repérer les erreurs les plus grossières. Elle se fait en même temps que le " codage ", transcription numérique des indications qualitatives. Puis le questionnaire est " saisi " - c'est-à-dire que l'information qu'il contient est transcrite sur un support permettant les traitements automatiques (cartes perforées, bandes ou disques magnétiques). Il est ensuite soumis à des opérations de vérification automatique.

Les méthodes de vérification automatique sont en pleine évolution, et de grands progrès sont possibles en ce domaine ; elles sont en pratique assez compliquées. Le principe est en tout cas simple : il s'agit d'utiliser la puissance et la rapidité des calculateurs automatiques pour repérer les erreurs qui peuvent subsister après la première vérification manuelle, ou qui peuvent s'être produites lors de la saisie.

On distingue, selon un vocabulaire un peu prétentieux, vérification syntaxique et vérification sémantique ; la première sert à s'assurer que l'enregistrement (transcription du questionnaire après saisie) a bien la forme qu'il doit nécessairement avoir : toutes les cases sont bien remplies, les codes ont des valeurs acceptables (8), les additions sont exactes, etc. La vérification sémantique est plus difficile : elle vise à contrôler la vraisemblance des informations, en confrontant les réponses entre elles, et en calculant dives ratios dont l'expérience a montré qu'ils ne sortaient guère de certaines " fourchettes ". La vérification syntaxique décèle des erreurs ; la vérification sémantique décèle des anomalies, qui correspondent soit à des réponses fausses, soit à des valeurs exceptionnelles des ratios : une unité très originale peut fort bien posséder des ratios extraordinaires.

Le gestionnaire d'enquête reçoit donc des " messages d'erreur " et des " messages d'anomalie ". Le message d'erreur doit impérativement donner lieu à une correction ; l'anomalie peut être, après recherche d'informations supplémentaires, soit corrigée (si elle provient d'une réponse fausse) soit confirmée (s'il s'agit d'une originalité).

Mettre au point une batterie très complète de messages d'erreur est affaire de soin et de temps. Mais la mise au point des messages d'anomalie est plus délicate. Imaginons, en effet, que dans le dessin de la page 52 la zone entourée d'un trait plein représente l'ensemble des réponses fausses, et que les zones entourées de traits pointillés désignent les cas signalés par des messages d'anomalie choisis de diverses façons.

Dans le cas A, toutes les réponses fausses sont signalées ; mais le message signale aussi beaucoup d'anomalies qui ne correspondent pas à des réponses fausses, et que le gestionnaire devra donc confirmer. A l'usage, le gestionnaire perd confiance dans ce message : sachant que bien souvent la vérification aboutit à une confirmation, il aura tendance à ne pas prendre ce " signal d'alarme " au sérieux et donc à toujours confirmer cette anomalie sans vérification.

Dans le cas B, les anomalies signalées correspondent toutes à des réponses fausses : ce message sera donc à l'usage pris très au sérieux par les gestionnaires. Mais beaucoup de réponses fausses subsisteront dans les enregistrements, que le message n'aura pas signalées.

Dans le cas C, les messages sont indépendants des réponses fausses : le résultat est pratiquement le même que dans A.

metiertechn1.jpg (14779 octets)

L'idéal est d'avoir un message du type D, dont le domaine soit aussi proche que possible de celui des réponses fausses. La recherche de messages d'anomalie de ce type demande un travail complexe, de nombreux essais sur les ratios, sur les intervalles d'acceptation et de rejet et sur les combinaisons de ratios.

Les informations nécessaires pour corriger les erreurs ou confirmer les anomalies sont collectées par le moyen d'enquêtes complémentaires, de correspondances écrites ou téléphoniques. L'enregistrement dûment modifié est soumis de nouveau au programme de vérification (car il arrive souvent qu'une correction entraîne l'édition de nouveaux messages d'erreur ou d'anomalie) et on recommence jusqu'à ce que le programme de vérification ne trouve plus rien à redire aux enregistrements. On a alors obtenu ce que l'on appelle un fichier propre enregistré sur bande ou disque magnétique, à partir duquel on pourra procéder aux exploitations informatiques.

Si l'on disposait de messages d'anomalie qui signalent à coup sûr toutes les réponses fausses, le " fichier propre " serait en même temps un fichier exact, puisque toutes les erreurs auraient été corrigées. Mais il y a toujours un écart entre les anomalies signalées et les réponses fausses ; et cet écart induit lui-même des erreurs dans la conduite des statisticiens. En effet, les opérations de vérification sont souvent faites dans une atmosphère un peu survoltée, car il faut atteindre un rendement élevé pour pouvoir publier dans des délais convenables ; le programme automatique, lorsqu'il rejette plusieurs fois de suite un enregistrement que l'on pensait avoir pourtant bien corrigé, apparaît alors comme un adversaire têtu et mesquin. Il est tentant de le faire taire en confirmant les anomalies, même si l'on n'est pas bien certain qu'elles ne recouvrent pas des erreurs. Mais il est plus tentant encore de " raboter " l'anomalie, de la corriger de force, de faire entrer le cas particulier dans la norme en donnant un coup de pouce aux variables concernées. Trop souvent, le statisticien aura tendance à considérer l'anomalie comme une erreur ; il n'osera pas utiliser la procédure de confirmation, qui engage de façon visible son jugement et sa responsabilité, et supprimera les originalités individuelles dont le repérage est pourtant un des apports les plus intéressants d'une opération statistique.

Par ailleurs, certaines informations se prêtent mal à la vérification automatique, et ne peuvent être contrôlées que moyennant un travail " manuel " délicat : c'est le cas, par exemple, lorsqu'il s'agit de vérifier si une nomenclature a été bien comprise par la personne interrogée. Cela demande que l'on sache réfléchir sur le sens des mots, chose qu'un ordinateur ne sait pas faire et qui ne peut donc pas donner heu à des messages d'anomalie. Les statisticiens qui veulent produire rapidement un " fichier propre " risquent de négliger cette vérification, et de concentrer leurs efforts sur des erreurs moins importantes mais plus visibles.

Il y a là des écueils que l'on ne peut éviter que par un effort de réflexion et de critique qui permette aux statisticiens de conserver, même au milieu des soucis de la gestion, une claire conscience des finalités de leur travail, d'apprécier l'importance relative des diverses vérifications et de ne pas être excessivement intimidés par les messages d'anomalie.

Les formes d'organisation du travail taylorisées, hiérarchisées, lorsqu'elles enferment les exécutants dans des tâches parcellaires dont ils ne peuvent pas percevoir le sens, conduisent presque inévitablement à une pratique maladroite des vérifications ; il en résulte, pour la qualité des résultats, de sérieux dommages qui ne sauraient être compensés par les gains de rendement, mesurés par exemple par le nombre de questionnaires traités chaque jour par un agent.

L'extrapolation

Malgré l'insistance que l'on a mise à obtenir des réponses, certaines unités n'ont pas répondu. Si l'enquête est faite par sondage, il peut suffire pour corriger ce défaut de modifier a posteriori les taux de sondage dans les calculs (encore que cela présente des risques : un tel mode de correction suppose que les unités non répondantes aient des caractéristiques analogues à celles des répondantes, ce qui peut être faux). Mais si l'enquête est exhaustive, comme le sont la plupart des enquêtes portant sur les entreprises au-delà d'une certaine taille, il faut, par un procédé ou un autre, estimer les réponses manquantes : c'est l'extrapolation.

Supposons que l'on néglige d'extrapoler les non-réponses dans une enquête industrielle mensuelle. Telle grande entreprise omettra de répondre un mois donné, mais répondra le mois suivant ; cela se produit souvent, car durant certaines périodes (lorsqu'il faut faire les comptes, au moment des vacances, etc.) les entreprises répondent moins bien. Si l'on n'extrapole pas, l'évolution des statistiques sera très influencée par les fluctuations du taux de réponse ; elle perdra une bonne part de sa signification économique. C'est là une évidence aveuglante, mais l'expérience montre qu'elle est souvent ignorée. Nous nous rappelons encore la vertueuse indignation d'un " statisticien " à qui nous avions conseillé d'extrapoler : " Pour moi la statistique est une chose sérieuse, nous dit-il ; je ne publie que des résultats dont je suis sûr et qui correspondent à des questionnaires que j'ai effectivement reçus et totalisés. Je me refuse à deviner les résultats de ceux qui ne m'ont pas répondu. "

Que ce soit sottise ou négligence, l'absence d'extrapolation ou l'extrapolation erronée est un défaut fréquent des enquêtes ; quand elle s'associe - comme c'est le cas en général - avec la mauvaise tenue du répertoire, on obtient des résultats qui n'ont rien à voir avec la réalité, que ce soit en niveau ou en évolution.

Mais comment " estimer " les réponses manquantes ? Il convient qu'elles ne soient pas trop nombreuses (pas plus de 5 % du total dans une enquête industrielle, d'après une pratique tout à fait empirique). Ensuite, il ne faut pas qu'elles correspondent à de trop grosses unités : on est parfois obligé de retarder une publication parce que l'on attend le résultat d'une très grande entreprise.

Pour une entreprise d'importance moyenne, on cherchera à se procurer par téléphone quelques informations essentielles, puis on établira l'évaluation de sa réponse en partant de ces éléments et en calculant les autres à partir de ratios moyens et des réponses de l'entreprise aux enquêtes précédentes. Pour remplacer une petite entreprise, on choisira au hasard une autre entreprise pas trop originale dans les mêmes " strates " de taille, d'activité et de lieu, et on la " dupliquera ", c'est-à-dire qu'on la comptera deux fois dans les calculs ; ou bien on se contentera de redresser les résultats à proportion des effectifs ou du chiffre d'affaires. Tout cela ne relève que du soin, du bon sens, et il n'en est que plus étonnant que cela soit aussi souvent mal fait.

On peut espérer que le progrès des techniques statistiques permettra d'améliorer les méthodes d'extrapolation, et de dépasser le stade de l'artisanat tâtonnant où nous nous trouvons encore. Peut-être sera-t-il alors possible d'obtenir des résultats significatifs avec un taux de réponse faible, et de procéder à des publications rapides comportant des indications sur la précision. Mais tout cela est encore expérimental.

L'exploitation et la fusion des fichiers

Une fois établi le " fichier propre ", reste à procéder à son exploitation. Les programmes usuels permettent d'établir automatiquement tous les tableaux imaginables, en croisant les diverses nomenclatures entre elles. Nous verrons dans le chapitre suivant comment cette masse d'informations doit être analysée pour préparer les publications. Nous reviendrons dans la troisième partie sur ce qu'apportent les tableaux croisés.

Un fichier d'enquête se prête aussi à d'autres usages que l'exploitation directe : on peut l'utiliser pour vérifier un autre fichier (par exemple, pour établir des messages d'anomalie, on compare les réponses d'une même unité à deux enquêtes successives) ; on peut aussi le fusionner avec un autre ficher.

Les opérations de fusion, encore relativement rares, multiplient les possibilités de la production statistique. La fusion de fichiers est simple dans son principe. Supposons que nous disposions de deux enquêtes différentes réalisées sur une même population, et que chaque unité soit repérée par un même identifiant dans les deux fichiers. Il suffit de repérer les deux enregistrements correspondant à chaque unité. Puis on réunit ces deux enregistrements en un seul et l'ensemble de ces nouveaux enregistrements constitue un nouveau fichier dit " fusionné ". La fusion augmente fortement les possibilités d'exploitation : nous allons le montrer sur un exemple fictif très simple. Supposons que l'on fasse une enquête sur les ménages pour observer la catégorie socioprofessionnelle (C.S.P.) du chef de ménage selon une nomenclature en dix postes ; l'exploitation de cette enquête permettra de construire un petit tableau de dix cases, donnant le nombre de ménages par C.S.P. Supposons que l'on fasse une autre enquête pour observer le revenu du ménage, et qu'on le code selon une nomenclature en vingt tranches de revenu : là aussi, on aura un tableau de vingt cases. Si on fusionne les deux fichiers, on pourra classer chaque ménage simultanément selon les C.S.P. et la tranche de revenus, et donc produire un tableau croisé de 10 x 20 = 200 cases. On peut donc dire, d'une façon tout à fait exacte, que la fusion de fichiers multiplie les possibilités de l'exploitation.

Dans la pratique, la fusion de deux fichiers est une opération très difficile : les identifiants des unités peuvent être erronés, ce qui complique la recherche des couples d'enregistrements. Par ailleurs, les champs couverts par les deux fichiers peuvent ne pas coïncider. Les spécialistes de la fusion de fichiers ont développé toute une technique et utilisent un vocabulaire qui leur est propre : les fichiers sont d'abord " mis en forme ", car les enregistrements ne sont pas forcément construits de façon à rendre la fusion aisée ; plusieurs passages d'" interclassement " sont nécessaires pour rechercher les couples et " apparier " un nombre suffisant d'unités. Après " réintroduction " des unités absentes dans l'un ou l'autre fichier, des " confrontations " portant sur les variables communes aux deux enquêtes permettent de déceler des incohérences ou des erreurs que l'on corrige par des " mises à niveau ". Toutes ces opérations doivent être faites par un personnel expérimenté ; elles nécessitent une consommation étonnante de documents informatiques, de bordereaux, etc. ; elles sont d'un coût élevé et comportent des délais assez longs, de sorte que l'exploitation améliorée et enrichie que l'on peut faire après une fusion de fichiers n'est disponible que longtemps après la première exploitation.

L'utilisation de sources d'information d'origine administrative

Dans la description que nous venons de donner, le statisticien construit lui-même entièrement son instrument, en partant des indications fournies par son client : il choisit le champ de l'étude, son découpage, les nomenclatures, etc. Mais il peut accéder directement à des sources d'information énormes, les fichiers administratifs, qu'il exploitera ou fusionnera avec d'autres sources ; cet accès est bien sûr conditionné par l'accord de l'administration " propriétaire " du fichier, accord généralement lié au respect du secret professionnel sur l'information individuelle. C'est ainsi que les statisticiens peuvent exploiter de nombreuses informations administratives ou les fusionner avec d'autres fichiers : déclarations fiscales des particuliers et des entreprises, déclarations concernant l'emploi et les salaires, etc.

A priori, la masse d'information contenue dans ces fichiers éblouit, et c'est le mot de " trésor " qui vient à l'esprit lorsqu'on reçoit par exemple le fichier des déclarations fiscales des entreprises (une vingtaine de bandes magnétique). On découvre cependant à l'usage que les sources administratives sont difficiles à exploiter. En effet, l'objectif que vise une administration lorsqu'elle constitue un fichier n'est pas principalement statistique : le fichier est avant tout une aide à la gestion (par exemple, il permet d'expédier automatiquement des avis de recouvrement). Les variables importantes pour la gestion sont vérifiées avec soin, mais d'autres peuvent être erronées ; il en est de même des codages, et en particulier du numéro d'identification. Le fichier sera bien souvent lacunaire (par exemple, il ne comportera pas les réponses reçues en retard, et qui sont traitées dans un autre circuit). De plus, les définitions et nomenclatures utilisées par une administration coïncident rarement avec ce que le statisticien souhaiterait. En outre la nature même de l'opération administrative à laquelle est liée l'information peut provoquer de fausses déclarations. Au total, un fichier administratif n'est pratiquement jamais un " fichier propre ", et il est construit selon des découpages conceptuels souvent inadaptés à la statistique. De longs travaux de correction et de redressement sont nécessaires pour pouvoir exploiter ces fichiers, et des pans entiers de l'information se révèlent inutilisables. La déception est souvent à la mesure des espoirs qu'avait fait naître l'accès au " trésor ".

Cela n'a rien de surprenant : nous avons vu comment une opération statistique devait, lors de sa phase méthodologique, être définie en relation avec une action et aux besoins d'information liés à cette action. L'information rassemblée à l'occasion d'opérations administratives peut être très bien adaptée à ces opérations sans être pour autant directement utilisable par les statisticiens, à moins qu'ils n'aient été consultés lors de la conception des documents de collecte, ce qui est exceptionnel.

La situation est différente si, comme cela se produit de plus en plus, la gestion administrative elle-même s'organise autour du fichier informatique, et si de surcroît la conception des documents de base et de la structure du fichier se fait en tenant compte des impératifs de la statistique. Si une telle évolution se confirme, on peut espérer que les sources administratives deviendront de plus en plus utilisables par le statisticien, ce qui peut permettre d'importantes économies de collecte, et aussi ouvrir l'accès à des informations que l'on n'aurait jamais envisagé d'obtenir par voie d'enquête en raison du coût de l'opération (9).

Revenons-en à la représentation de l'information qui se trouve derrière l'image du " trésor " que nous avons évoquée à l'instant : l'information est assimilée à de la monnaie, ou tout au moins à un produit éminemment échangeable, et la tâche du statisticien serait alors de la capter, de la canaliser et de la redistribuer (de même que la tâche du financier est de capter, canaliser et redistribuer l'épargne). Mais l'image monétaire est trompeuse ; si l'on éprouve vraiment le besoin d'une analogie, il vaudrait mieux comparer l'information à la marchandise, répartie selon des catégories dont chacune correspond à une technique de production et un besoin déterminés : analogie inexacte à certains égards, car l'échange, la circulation et la transmission de l'information ne ressemblent guère à ceux des marchandises ; elle permet toutefois de considérer un " stock " d'informations d'origine administrative non comme un trésor, mais comme un entrepôt rempli de biens dont une partie est avariée ou inutile, et qu'il faut trier avant usage. Nous retrouverons l'image monétaire de l'information - et ses inconvénients - lorsque nous parlerons dans le chapitre suivant des " banques de données ".

Le contrôle des enquêtes

Le schéma conceptuel de l'enquête, les règles de vérification ne sont jamais parfaitement au point a priori. La pratique de l'enquête elle-même apporte des enseignements qui conduisent à rectifier la conception initiale. Les difficultés rencontrées lors de la collecte permettent de repérer des défauts dans les nomenclatures et la rédaction du questionnaire : une question qui reçoit souvent une réponse erronée (ou pas de réponse du tout) doit être modifiée ; en outre, le contact avec la population étudiée renseigne de façon plus précise sur ses possibilités de réponse, et cela peut conduire à une nouvelle conception du questionnaire.

Pour apprécier la qualité des méthodes de vérification, on aura intérêt à retourner auprès d'un échantillon de personnes interrogées et à examiner avec elles le sort qui a été fait à leur réponse, les corrections qui lui ont été apportées. Le contrôle nécessite une bonne collaboration entre ceux qui ont conçu l'enquête et ceux qui la réalisent, et également de bonnes relations avec les personnes enquêtées. Pour que les enseignements recueillis sur la pertinence du cadre de l'enquête lors des opérations de collecte puissent être effectivement utilisés afin d'améliorer l'instrument, il faut qu'il n'y ait pas de division du travail entre la conception et l'exécution, mais répartition des tâches.

L'organisation de systèmes statistiques

Lorsque l'objet étudié est complexe et requiert des observations différentes selon leur degré de détail et leur périodicité, l'appareil statistique ne comporte pas une mais plusieurs enquêtes : c'est le cas dans l'industrie, qui est observée simultanément à l'aide d'une enquête annuelle portant sur les entreprises, d'enquêtes à périodicité variable (mensuelles ou trimestrielles pour la plupart) portant sur les fractions d'entreprises et relatives aux productions, des déclarations fiscales sur les bénéfices et les salaires, des déclarations sur l'emploi collectées par établissement, des documents fournis à la douane, des enquêtes de conjoncture, etc.

Les enquêtes statistiques - et aussi, dans la mesure du possible, les sources administratives - doivent être coordonnées si l'on veut qu'elles donnent des résultats comparables, et qu'elles soient utilisables à des fins de vérification mutuelle : les nomenclatures doivent être bien articulées, ainsi que la définition des unités. Par exemple, si l'une des enquêtes porte sur des entreprises et l'autre sur des fractions d'entreprises, il faut savoir quelles sont les fractions que comporte une entreprise pour mettre les résultats des deux enquêtes en regard. Soulignons qu'il n'est pas indispensable que les choix conceptuels soient identiques pour chaque source, ce qui induirait souvent une uniformité excessive ; mais il faut que leurs articulations d'une source à l'autre soient bien connues.

La coordination des répertoires, en particulier, facilite les fusions de fichiers ; des doubles emplois partiels volontaires (une même question posée dans deux enquêtes différentes) permettent de s'assurer de l'homogénéité des réponses ; en cumulant les résultats d'enquêtes à périodicité courte, on obtient une évaluation de ce que donnera l'enquête à périodicité plus longue et en même temps un moyen pour la vérifier.

Des enquêtes par sondages peuvent être réalisées sur des échantillons soit exclusifs (lorsqu'on ne veut pas interroger deux fois la même unité), soit inclusifs (lorsqu'on souhaite pouvoir fusionner les réponses à deux enquêtes différentes).

La gestion coordonnée de plusieurs enquêtes, avec les relations qu'elle implique entre les répertoires et les nomenclatures, les perfectionnements qu'elle permet pour les procédures de vérification, les fusions de fichiers qu'elle facilite, conduit à la conception de véritables systèmes statistiques (10) dont les capacités en matière de production d'information sont multipliées. La conception de tels systèmes réclame un lourd travail d'organisation et de technique, notamment pour les informaticiens. Comme toujours, la lourdeur de ce travail risque d'être la cause indirecte de rigidités : lorsque des adaptations à des situations ou des besoins nouveaux seront nécessaires, on reculera devant la nécessité de remettre en question des investissements très lourds ou, pis encore, on ne percevra même pas le besoin d'adaptation parce que l'on sera entièrement accaparé par la gestion courante. L'organisation des systèmes statistiques doit être assez souple pour que leurs responsables restent capables de percevoir la nécessité d'un changement et de s'y adapter.

Les opérations régulières de production d'information, les enquêtes lourdes, doivent donc être complétées par des opérations légères et exploratoires ; l'introduction d'opérations nouvelles ou de modifications doit être organisée selon des étapes analogues à celles de l'industrie (recherche-développement, qualification, fabrication, etc.). Nous n'irons pas plus loin dans le détail, car nous entrons ici dans le domaine de la statistique-fiction : aucune opération n'est conforme aux schémas que nous venons de décrire, qui ne sont que l'horizon de l'évolution technique tel que le perçoivent plus ou moins clairement les praticiens.

Cependant l'organisation de systèmes statistiques, parfaitement logique et souhaitable au plan technique, risque de conduire à des résultats absurdes, à une bureaucratie de cauchemar, si la technique s'autonomise au point de masquer l'importance de la méthode statistique, de l'adaptation fine à un besoin d'information extérieur. Comme tout instrument qui se complique, s'institutionnalise et emploie un grand nombre d'individus dans des tâches séparées, la statistique risque de tourner à vide, et ce risque est d'autant plus grand que son organisation est plus poussée : pour éviter cet écueil, toute systématisation doit être accompagnée d'un approfondissement de la réflexion sur le rôle de l'instrument.

La description de la technique statistique que nous venons de donner souffre de nombreuses lacunes, et la praticien sera peut-être choqué par la désinvolture avec laquelle nous avons expédié en quelques mots des points qui auraient pu justifier des développements plus amples et plus nuancés. Mais on pourrait écrire sur la technique statistique un livre entier, et même plusieurs, sans venir à bout de sa description : notre propos n'était ici que de fournir les indications générales nécessaires pour entrer, si l'on peut dire, dans l'esprit de cette technique.

Cette technique est toute moderne, marquée par les possibilités offertes par l'outil informatique ; si elle répond à des exigences logiques qui ne sont pas récentes, elle leur répond dans des formes nouvelles. L'artisanat sympathique du statisticien d'avant-guerre, qui réalisait et exploitait des enquêtes ingénieuses avec de faibles moyens et un personnel réduit (11), s'est transformé en une vaste organisation dont les méthodes sont encore tâtonnantes mais qui n'en utilise pas moins un vocabulaire caractéristique : production, gestion, système, planification. Ce travail emploie des équipes nombreuses et spécialisées dans des tâches distinctes (administration, organisation, conception, collecte, informatique, coordination, etc.). Bref, la statistique s'est industrialisée, avec les avantages et les inconvénients que cela comporte et que chacun peut apprécier à sa façon. C'est cette nouvelle statistique que nous avons décrite, et il se peut que cette description paraisse un peu étrange à des personnes qui ont travaillé ou travaillent encore selon des procédures " artisanales ".

L'organisation du travail statistique a été profondément renouvelée, comme dans les autres branches (notamment les banques et les assurances) où le travail de bureau s'est à la fois rapidement développé et automatisé. Ce développement, qui a provoqué la banalisation de certaines tâches, s'est réalisé dans une période où, par ailleurs, le niveau des études scolaires avait augmenté : la relation entre l'organisation du travail, la formation intellectuelle et les perspectives professionnelles est généralement peu satisfaisante pour les personnels. En ce qui concerne la statistique (et aussi l'informatique de gestion dans les entreprises), on peut s'interroger, par exemple, sur l'organisation du travail qui prévaut dans les ateliers de saisie, où des dizaines de personnes tapent à longueur de journée sur des claviers pour transcrire sur support informatique le contenu des questionnaires. Les capacités de ces personnes ne pourraient-elles pas être utilisées de façon plus intelligente et plus féconde ? Les efforts consacrés aux enquêtes ne pourraient-ils pas être répartis autrement ? Est-on certain que les enquêtes lourdes soient toutes indispensables ? Ne pourrait-on pas obtenir une information comparable ou même meilleure en réalisant des opérations plus légères, mais mieux conçues ? Enfin et surtout, est-on certain de consacrer assez d'efforts à l'exploitation et à la publication d'enquêtes dont la saisie et la vérification ont demandé un travail énorme ?

Expression caractéristique : pour un statisticien, réaliser une enquête, c'est " aller au charbon ".

On peut trouver un exposé technique beaucoup plus complet que le nôtre dans le livre (un peu ancien, car il a été rédigé avant l'ère de l'informatique), de G. Chevry Pratique des enquêtes statistiques, P.U.F., 1962.

Nous nous sommes en fait inspiré des enquêtes industrielles pour définir notre " opération type ".

Le vocabulaire est ici un peu indécis. Certains tendent à réserver l'appellation de " répertoire " à de gros instruments d'immatriculation comme S.I.R.E.N.E. (entreprises et établissements) ou comme le répertoire d'identification des personnes. On appellerait alors " fichier de lancement " ce que nous nommons ici répertoire. Le choix des mots prête donc à discussion, mais la chose est claire.

Système informatique pour le répertoire des entreprises et des établissements.

C. Gouriéroux, Théorie des sondages, E.N.S.A.E., janvier 1979.

Chevry, op. cit.

Si une nomenclature en 20 postes est codée de 01 à 20, des codes comme 1A ou 32 seront signalés par des messages d'erreur.

Cf. C. Chiaramonti, " Les statistiques, l'information d'origine administrative et la télématique " in Courrier des statistiques, n° 7, juillet 1978.

Un " système statistique d'entreprises " est en cours de réalisation. Nous ne connaissons pas d'autres cas de ce type d'organisation, qui devrait néanmoins se répandre en raison des possibilités ouvertes par l'informatique.

A. Sauvy, De Paul Reynaud à Charles de Gaulle, Casterman, 1972.