Physique des données et physique de
l'information
5 juin 2001
La quantité d'information qu'apporte un texte serait, selon la "théorie de l'information" de Shannon, d'autant plus
grande que le texte est plus long et moins redondant. Une suite de
lettres tirées au hasard ne comporte aucune redondance ; elle contiendrait
donc, si on veut la reproduire exactement, plus d'information que n'importe quel texte de même longueur. "wan trus be lifx", que j'ai tapé au
hasard sur mon clavier, contient plus d'information (au sens de Shannon) que la phrase de même
longueur "le pape est mort". Évidemment pour le lecteur il n'en est pas de
même ; la seconde phrase a un sens, la première ne lui dit
rien. Shannon pensait non à l'être humain, mais à
l'ordinateur et aux réseaux. Sa théorie est une
"théorie des données" ; l'expression "théorie de
l'information" suscite des contresens qui empêchent que l'on distingue deux concepts également utiles.
A vrai dire, "information" et "données" font partie de ces
"faux amis" qui abondent en informatique.
Physique des données
Ce qui nous est donné, c'est le monde dans
lequel nous vivons et l'expérience que nous en faisons ; ce que l'on appelle
"donnée" en informatique, c'est le résultat d'une observation faite
sur l'une des entités de ce monde, donc la mesure d'une variable sur un
individu. Cette mesure n'est pas "donnée", mais obtenue à
l'issue d'un processus d'abstraction à plusieurs étapes : nous avons
décidé (1) d'observer telle population, puis (2) d'observer telle sélection de
variables sur les individus qui la composent, (3) de coder chaque variable de telle
façon (unité de mesure, format de la donnée, nomenclature pour les variables
qualitatives), (4) d'identifier tel individu au sein de cette population, enfin
(5) de
mesurer sur cet individu la valeur de telle variable. Que l'on nous excuse de
rappeler ces choses simples : il fallait le faire, parce que bien des personnes
prennent les "données" pour la réalité même et oublient
qu'elles résultent d'une construction. Cela ne veut pas dire qu'elles soient
fausses, subjectives etc. : elles peuvent être exactes, mais dans le cadre de
l'abstraction, de la sélection dont elles résultent.
L'informatique enregistre, traite, stocke des
données ; l'utilisateur les saisit ou les consulte, et lance des traitements qui
produisent d'autres données. Les flux qui en résultent dans les processeurs et
les réseaux, les stocks qui s'accumulent dans les mémoires, les délais de
mise à disposition, tout cela pose des problèmes de physique, la
"physique des données". C'est le domaine propre de
l'informatique. Elle fait des choix sur le dimensionnement des
ressources (débit des réseaux, puissance des processeurs, taille et délai
d'accès des mémoires). Les ressources sont hiérarchisées selon l'ordre des
performances et des coûts : les mémoires d'accès rapide, coûteuses, sont de
faible volume et réservées aux utilisations urgentes. Le gros des données
est stocké sur des mémoires peu coûteuses dont l'accès
demande plus de temps. Le système d'exploitation transfère automatiquement les données entre
les divers types de mémoire pour faciliter la tâche de
l'utilisateur. Le réseau est dimensionné par arbitrage entre le coût du haut
débit et le besoin de transferts volumineux et rapides, etc.
Les données sont organisées selon des
architectures diverses : ici l'on a réalisé un système en mode objet, là on
a une base de données relationnelles ; ici on a
utilisé telle nomenclature ou tel typage, là une autre nomenclature, un
autre typage. La communication entre les diverses parties du système d'information
demande des transcodages et des restructurations effectués par des interfaces.
Savoir définir ces architectures, savoir interpréter les offres des fournisseurs
de solutions, c'est un métier de spécialiste.
Les données sont parfois fausses : des erreurs se
produisent lors de la saisie ne serait-ce qu'en raison des fautes de frappe -
c'est pourquoi les doubles saisies constituent un point de fragilité du système
d'information. Lorsqu'une nomenclature change, il est parfois nécessaire de
procéder à des corrections rétrospectives de données pourtant correctes lors
de leur élaboration.
Physique de l'information
Prenons le mot "information" non au
sens qu'il a dans la théorie de Shannon, mais au sens qu'il a dans le langage
courant : une information, c'est quelque chose qui vous informe,
c'est-à-dire qui modifie ou complète la forme même de votre
représentation du monde. L'information a un effet sur celui qui la reçoit ; elle suscite une action de sa part ou du moins modifie les conditions de
son action.
Une donnée ne peut donner naissance à une
information que si elle est communiquée au destinataire dans des conditions telles
qu'il puisse l'interpréter, la situer dans son propre
monde et lui attribuer un sens. C'est bien là le but implicite de nos bases de données,
de nos systèmes d'aide à la décision. Je ne suis pas sûr toutefois que nous ayons
bien compris à quelles conditions une donnée peut devenir une information. En
faisant de la statistique, j'ai vu combien il
fallait travailler pour interpréter les données : les recouper
avec d'autres, les mettre en série chronologique, calculer des corrélations,
revenir sur les définitions et conditions de l'observation etc. Je me suis
demandé comment faisaient ceux qui reçoivent les tableaux de nombres sans
disposer du même arsenal pour les
interpréter. La réponse est simple : ces tableaux, ils ne les regardent pas,
sauf s'ils sont accompagnés par les synthèses en langage naturel qui
permettent de les faire parler.
Les données ont une autre utilisation
que la statistique : elles servent aussi à régler des cas particuliers. Des décisions nous concernant sont prises à partir de dossiers
où chacun de nous est représenté par quelques données plus ou moins bien
choisies et plus ou moins exactes. La personne qui vérifiera les traitements automatisés et traitera
notre cas pourra-t-elle transformer, dans son esprit, ces données en informations
pour comprendre notre cas ? comment se comportera-t-elle ?
Le mot "comportement"
fait passer de la physique des données à la physique de l'information.
L'utilisateur d'une information se comporte. Il n'est pas une chose qui
obéit aux lois de la physique. Il évalue et agit en fonction de ce
qu'il a compris. La physique de l'information ressemble à celle du transport
routier où les conducteurs, eux aussi, se "comportent". Voici
quelques exemples :
1) La route qui
relie telle banlieue au centre ville est encombrée, et on décide de l'élargir
: mais elle sera tout aussi encombrée, car comme elle est plus large davantage de
personnes prendront leur voiture.
2) Vous affichez sur un panneau de l'autoroute
"bouchon à 6 km" ; certains conducteurs prendront la prochaine
sortie, d'autres resteront sur l'autoroute, leur comportement est aléatoire.
3) Vous dimensionnez largement le réseau de PC pour faciliter la tâche des
utilisateurs, et le nouveau réseau sera tout aussi encombré parce que de
nouveaux usages s'y installeront.
4) Le serveur de messagerie tombe en panne, les
utilisateurs utiliseront le serveur de télécopie ; si vous avez
sous-dimensionné celui-ci, il tombera également en panne ; si par malheur vous
l'avez conçu solidaire du serveur applicatif, c'est
tout le système d'information qui sera bloqué.
5) Vous avez installé un routeur
de messages dans votre entreprise en utilisant un "firewall" modeste :
des "hackers" sauteront cette barrière pour utiliser votre routeur
gratuitement. Vous voulez réagir et augmentez la puissance de votre
"firewall" : ce sont vos propres utilisateurs qui sont gênés,
etc.
La conception du système d'information doit tenir compte du
comportement des utilisateurs : c'est cela, la "physique de
l'information". Le système
d'information définit d'ailleurs le langage de l'entreprise et sculpte les comportements
de ses personnes. Vous avez organisé de telle façon l'annuaire de l'organisation,
vous avez découpé de telle sorte les zones géographiques, vous avez choisi
telle nomenclature de produits : c'est ainsi que votre entreprise parlera, se
pensera, s'organisera, communiquera. Certaines décisions, prises à la va-vite dans
un modeste groupe de travail, déterminent à long terme le cadre des
représentations selon lesquelles l'entreprise définit ses priorités.
La délimitation des populations décrites dans
le SI, la gestion des identifiants, des nomenclatures, des classes d'objets, que l'on a coutume d'appeler "administration des données" ou
"référentiels", conditionne la physique de l'information. Ceux qui
en sont chargés doivent anticiper les comportements des utilisateurs. C'est la
tâche propre des maîtres d'ouvrage du système d'information que d'assurer l'articulation entre le système d'information et les pratiques, les comportements
des personnes de l'entreprise.
Prendre en compte la physique des données,
c'est indispensable : aucun système d'information ne peut fonctionner si
la plate-forme technique n'a pas les performances nécessaires. Mais le SI n'est construit que si l'on considère aussi la physique de
l'information.
|