RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Physique des données et physique de l'information

5 juin 2001

La quantité d'information qu'apporte un texte serait, selon la "théorie de l'information" de Shannon, d'autant plus grande que le texte est plus long et moins redondant. Une suite de lettres tirées au hasard ne comporte aucune redondance ; elle contiendrait donc, si on veut la reproduire exactement, plus d'information que n'importe quel texte de même longueur. "wan trus be lifx", que j'ai tapé au hasard sur mon clavier, contient plus d'information (au sens de Shannon) que la phrase de même longueur "le pape est mort". Évidemment pour le lecteur il n'en est pas de même ; la seconde phrase a un sens, la première ne lui dit rien. Shannon pensait non à l'être humain, mais à l'ordinateur et aux réseaux. Sa théorie est une "théorie des données" ; l'expression "théorie de l'information" suscite des contresens qui empêchent que l'on distingue deux concepts également utiles. A vrai dire, "information" et "données" font partie de ces "faux amis" qui abondent en informatique. 

Physique des données

Ce qui nous est donné, c'est le monde dans lequel nous vivons et l'expérience que nous en faisons ; ce que l'on appelle "donnée" en informatique, c'est le résultat d'une observation faite sur l'une des entités de ce monde, donc la mesure d'une variable sur un individu. Cette mesure n'est pas "donnée", mais obtenue à l'issue d'un processus d'abstraction à plusieurs étapes : nous avons décidé (1) d'observer telle population, puis (2) d'observer telle sélection de variables sur les individus qui la composent, (3) de coder chaque variable de telle façon (unité de mesure, format de la donnée, nomenclature pour les variables qualitatives), (4) d'identifier tel individu au sein de cette population, enfin (5) de mesurer sur cet individu la valeur de telle variable. Que l'on nous excuse de rappeler ces choses simples : il fallait le faire, parce que bien des personnes prennent les "données" pour la réalité même et oublient qu'elles résultent d'une construction. Cela ne veut pas dire qu'elles soient fausses, subjectives etc. : elles peuvent être exactes, mais dans le cadre de l'abstraction, de la sélection dont elles résultent. 

L'informatique enregistre, traite, stocke des données ; l'utilisateur les saisit ou les consulte, et lance des traitements qui produisent d'autres données. Les flux qui en résultent dans les processeurs et les réseaux, les stocks qui s'accumulent dans les mémoires, les délais de mise à disposition, tout cela pose des problèmes de physique, la "physique des données". C'est le domaine propre de l'informatique. Elle fait des choix sur le dimensionnement des ressources (débit des réseaux, puissance des processeurs, taille et délai d'accès des mémoires). Les ressources sont hiérarchisées selon l'ordre des performances et des coûts : les mémoires d'accès rapide, coûteuses, sont de faible volume et réservées aux utilisations urgentes. Le gros des données est stocké sur des mémoires peu coûteuses dont l'accès demande plus de temps. Le système d'exploitation transfère automatiquement les données entre les divers types de mémoire pour faciliter la tâche de l'utilisateur. Le réseau est dimensionné par arbitrage entre le coût du haut débit et le besoin de transferts volumineux et rapides, etc. 

Les données sont organisées selon des architectures diverses : ici l'on a réalisé un système en mode objet, là on a une base de données relationnelles ; ici on a utilisé telle nomenclature ou tel typage, là une autre nomenclature, un autre typage. La communication entre les diverses parties du système d'information demande des transcodages et des restructurations effectués par des interfaces. Savoir définir ces architectures, savoir interpréter les offres des fournisseurs de solutions, c'est un métier de spécialiste. 

Les données sont parfois fausses : des erreurs se produisent lors de la saisie ne serait-ce qu'en raison des fautes de frappe - c'est pourquoi les doubles saisies constituent un point de fragilité du système d'information. Lorsqu'une nomenclature change, il est parfois nécessaire de procéder à des corrections rétrospectives de données pourtant correctes lors de leur élaboration. 

Physique de l'information

Prenons le mot "information" non au sens qu'il a dans la théorie de Shannon, mais au sens qu'il a dans le langage courant : une information, c'est quelque chose qui vous informe, c'est-à-dire qui modifie ou complète la forme même de votre représentation du monde. L'information a un effet sur celui qui la reçoit ; elle suscite une action de sa part ou du moins modifie les conditions de son action. 

Une donnée ne peut donner naissance à une information que si elle est communiquée au destinataire dans des conditions telles qu'il puisse l'interpréter, la situer dans son propre monde et lui attribuer un sens. C'est bien là le but implicite de nos bases de données, de nos systèmes d'aide à la décision. Je ne suis pas sûr toutefois que nous ayons bien compris à quelles conditions une donnée peut devenir une information. En faisant de la statistique, j'ai vu combien il fallait travailler pour interpréter les données : les recouper avec d'autres, les mettre en série chronologique, calculer des corrélations, revenir sur les définitions et conditions de l'observation etc. Je me suis demandé comment faisaient ceux qui reçoivent les tableaux de nombres sans disposer du même arsenal pour les interpréter. La réponse est simple : ces tableaux, ils ne les regardent pas, sauf s'ils sont accompagnés par les synthèses en langage naturel qui permettent de les faire parler.

Les données ont une autre utilisation que la statistique : elles servent aussi à régler des cas particuliers. Des décisions nous concernant sont prises à partir de dossiers où chacun de nous est représenté par quelques données plus ou moins bien choisies et plus ou moins exactes. La personne qui vérifiera les traitements automatisés et traitera notre cas pourra-t-elle transformer, dans son esprit, ces données en informations pour comprendre notre cas ? comment se comportera-t-elle ? 

Le mot "comportement" fait passer de la physique des données à la physique de l'information. L'utilisateur d'une information se comporte. Il n'est pas une chose qui obéit aux lois de la physique. Il évalue et agit en fonction de ce qu'il a compris. La physique de l'information ressemble à celle du transport routier où les conducteurs, eux aussi, se "comportent". Voici quelques exemples :

1) La route qui relie telle banlieue au centre ville est encombrée, et on décide de l'élargir : mais elle sera tout aussi encombrée, car comme elle est plus large davantage de personnes prendront leur voiture. 

2) Vous affichez sur un panneau de l'autoroute "bouchon à 6 km" ; certains conducteurs prendront la prochaine sortie, d'autres resteront sur l'autoroute, leur comportement est aléatoire. 

3) Vous dimensionnez largement le réseau de PC pour faciliter la tâche des utilisateurs, et le nouveau réseau sera tout aussi encombré parce que de nouveaux usages s'y installeront. 

4) Le serveur de messagerie tombe en panne, les utilisateurs utiliseront le serveur de télécopie ; si vous avez sous-dimensionné celui-ci, il tombera également en panne ; si par malheur vous l'avez conçu solidaire du serveur applicatif, c'est tout le système d'information qui sera bloqué. 

5) Vous avez installé un routeur de messages dans votre entreprise en utilisant un "firewall" modeste : des "hackers" sauteront cette barrière pour utiliser votre routeur gratuitement. Vous voulez réagir et augmentez la puissance de votre "firewall" : ce sont vos propres utilisateurs qui sont gênés, etc. 

La conception du système d'information doit tenir compte du comportement des utilisateurs : c'est cela, la "physique de l'information". Le système d'information définit d'ailleurs le langage de l'entreprise et sculpte les comportements de ses personnes. Vous avez organisé de telle façon l'annuaire de l'organisation, vous avez découpé de telle sorte les zones géographiques, vous avez choisi telle nomenclature de produits : c'est ainsi que votre entreprise parlera, se pensera, s'organisera, communiquera. Certaines décisions, prises à la va-vite dans un modeste groupe de travail, déterminent à long terme le cadre des représentations selon lesquelles l'entreprise définit ses priorités. 

La délimitation des populations décrites dans le SI, la gestion des identifiants, des nomenclatures, des classes d'objets, que l'on a coutume d'appeler "administration des données" ou "référentiels", conditionne la physique de l'information. Ceux qui en sont chargés doivent anticiper les comportements des utilisateurs. C'est la tâche propre des maîtres d'ouvrage du système d'information que d'assurer l'articulation entre le système d'information et les pratiques, les comportements des personnes de l'entreprise. 

Prendre en compte la physique des données, c'est  indispensable : aucun système d'information ne peut fonctionner si la plate-forme technique n'a pas les performances nécessaires. Mais le SI n'est construit que si l'on considère aussi la physique de l'information.