Physique des données et physique de
l'information
"Frequently the messages have
meaning; that is they refer to or are correlated according to some system
with certain physical or conceptual entities. These semantic aspects of
communication are irrelevant to the engineering problem".
(Claude E. Shannon,
The Mathematical Theory of Communication, University
of Illinois Press, 1963, p. 31.
La quantité d'information qu'apporte un texte serait, selon la "théorie de l'information" de Shannon, d'autant plus
grande que le texte est plus long et moins redondant. Une suite de
lettres tirées au hasard ne comporte aucune redondance ; elle contiendrait
donc, si on veut la reproduire exactement, plus d'information que n'importe quel texte de même longueur. "wan trus be lifx", que j'ai tapé au
hasard sur mon clavier, contient plus d'information (au sens de Shannon) que la phrase de même
longueur "le pape est mort". Évidemment pour le lecteur il n'en est pas de
même ; la seconde phrase a un sens, la première ne lui dit
rien. Shannon pensait non à l'être humain, mais à
l'ordinateur et aux réseaux. Sa théorie est une
"théorie des données" ; l'expression "théorie de
l'information" suscite des contresens qui empêchent que l'on distingue deux concepts également utiles.
Les mots "information" et "données" sont parmi ces
"faux amis" qui abondent en informatique.
Physique des données
Ce qui nous est donné, c'est le monde dans
lequel nous vivons et l'expérience que nous en faisons ; ce que l'on appelle
"donnée" en informatique, c'est le résultat d'une observation faite
sur l'une des entités de ce monde, donc la mesure d'une variable sur un
individu. Cette mesure n'est pas "donnée", mais obtenue à
l'issue d'un processus d'abstraction qui comporte plusieurs étapes : nous avons
décidé (1) d'observer telle population, puis (2) d'observer telle sélection de
variables sur les individus qui la composent, (3) de coder chaque variable de telle
façon (unité de mesure, format de la donnée, "nomenclature" pour les variables
qualitatives), (4) d'identifier tel individu au sein de cette population, enfin
(5) de mesurer sur cet individu la valeur de telle variable.
Que l'on veuille bien nous excuser de rappeler
ces choses simples : il fallait le faire, parce que bien des personnes prennent
les "données" pour la réalité même et oublient qu'elles résultent d'une
construction. Cela ne veut pas dire qu'elles soient fausses, subjectives
etc. : elles peuvent être exactes, mais dans le cadre de l'abstraction, de la
sélection dont elles résultent.
L'informatique enregistre, traite, stocke des
données ; l'utilisateur les saisit ou les consulte, et lance des traitements qui
produisent d'autres données. Les flux qui en résultent dans les processeurs et
les réseaux, les stocks qui s'accumulent dans les mémoires, les délais de
mise à disposition, tout cela pose des problèmes de physique, la
"physique des données".
La physique des données est le domaine propre de
l'informatique. Celle-ci fait des choix sur le dimensionnement des
ressources (débit des réseaux, puissance des processeurs, taille et délai
d'accès des mémoires). Les ressources sont hiérarchisées selon l'ordre des
performances et des coûts : les mémoires d'accès rapide, coûteuses, sont de
faible volume et réservées aux utilisations urgentes, le gros des données
est stocké sur des mémoires peu coûteuses dont l'accès
demande plus de temps. Le système d'exploitation transfère automatiquement les données entre
les divers types de mémoire pour faciliter la tâche de
l'utilisateur. Le réseau est dimensionné par arbitrage entre le coût du haut
débit et le besoin de transferts volumineux et rapides, etc.
Les données sont organisées selon des
architectures diverses : ici l'on a réalisé un système en mode objet, là on
a une base de données relationnelles ; ici on a
utilisé telle nomenclature ou tel typage, là une autre nomenclature, un
autre typage. La communication entre les diverses parties du système d'information
demande des transcodages et restructurations effectués par des interfaces.
Savoir définir ces architectures, savoir interpréter les offres des fournisseurs
de solutions, c'est un métier de spécialiste.
Les données sont parfois fausses : des erreurs se
produisent lors de la saisie ne serait-ce qu'en raison des fautes de frappe -
c'est pourquoi les doubles saisies constituent un point de fragilité du système
d'information. Lorsqu'une nomenclature change, il est parfois nécessaire de
procéder à des corrections rétrospectives de données pourtant correctes lors
de leur élaboration.
Physique de l'information
Prenons le mot "information" non au
sens qu'il a dans la théorie de Shannon, mais au sens qu'il a dans le langage
courant : une information, c'est quelque chose qui vous informe,
c'est-à-dire qui modifie ou complète la forme même de votre
représentation du monde. L'information a un effet sur celui qui la reçoit ; elle suscite une action de sa part ou du moins modifie les conditions de
son action.
Une donnée ne peut donner naissance à une
information que si elle est communiquée au destinataire dans des conditions telles
qu'il puisse l'interpréter, la situer dans son propre monde et lui
attribuer un sens. C'est bien là le but implicite de nos bases de données, de
nos systèmes d'aide à la décision, mais avons nous compris à quelles conditions une donnée peut devenir une information
? La pratique du statisticien
comporte le travail à faire pour interpréter les données : les recouper
avec d'autres, les ranger en série chronologique, calculer des corrélations,
revenir sur les définitions et conditions de l'observation etc. Comment font pour interpréter
les tableaux de nombres ceux qui ne disposent pas de cet arsenal de méthodes ? La réponse est simple : ces tableaux,
la plupart des gens ne les regardent pas,
sauf s'ils sont accompagnés par les synthèses en langage naturel qui
permettent de les faire parler, sauf aussi si l'information utile est concentrée
dans un petit nombre de cases du tableau (le propriétaire qui consulte l'indice
du coût de la construction pour réévaluer un loyer n'utilise qu'un seul nombre).
Les données ont une autre utilisation
que la statistique : elles servent à régler des cas particuliers. Des décisions concernant
chacun de nous sont prises à partir de dossiers
où nous sommes représentés par quelques données plus ou moins bien
choisies, plus ou moins exactes. La personne qui traitera
notre dossier pourra-t-elle transformer, dans son esprit, ces données en informations
pour comprendre notre cas ? comment se comportera-t-elle ?
Ce mot de "comportement"
assure la transition entre la physique des données à la physique de l'information.
L'utilisateur d'une information n'est pas une chose qui obéit aux lois de la
physique. Il évalue et agit en fonction de ce qu'il a compris. Il se comporte. La
physique de l'information ressemble à celle du transport routier où les
conducteurs, eux aussi, se "comportent". Voici des exemples :
1) La route qui
relie telle banlieue au centre ville est encombrée, et on décide de l'élargir
: mais elle sera tout aussi encombrée, car comme elle est plus large davantage de
personnes prendront leur voiture.
2) Vous affichez sur un panneau de l'autoroute
"bouchon à 6 km" ; certains conducteurs prendront la prochaine
sortie, d'autres resteront sur l'autoroute, leur comportement est aléatoire.
3) Vous dimensionnez largement le réseau de PC pour faciliter la tâche des
utilisateurs, et le nouveau réseau sera tout aussi encombré parce que de
nouveaux usages s'y installeront.
4) Le serveur de messagerie tombe en panne, les
utilisateurs utiliseront le serveur de télécopie ; si vous avez sous-dimensionné celui-ci, il tombera également en panne ; si par malheur vous
l'avez conçu solidaire du serveur applicatif, tout le système d'information sera bloqué.
5) Vous avez installé un routeur
de messages dans votre entreprise en utilisant un "firewall" modeste :
des "hackers" sauteront cette barrière pour utiliser votre routeur
gratuitement. Vous augmentez la puissance de votre
"firewall" : ce sont vos propres utilisateurs qui sont gênés,
etc.
La conception du système d'information doit tenir compte du
comportement des utilisateurs : c'est cela, la "physique de
l'information". Le système
d'information définit d'ailleurs le langage de l'entreprise et sculpte les comportements
des personnes. Vous avez organisé de telle façon l'annuaire de l'organisation,
vous avez découpé de telle sorte les zones géographiques, vous avez choisi
telle nomenclature de produits : c'est ainsi que votre entreprise parlera, se
pensera, s'organisera, communiquera. Certaines décisions, prises à la va-vite dans
un modeste groupe de travail, déterminent à long terme le cadre des
représentations selon lesquelles l'entreprise définit ses priorités.
La délimitation des populations décrites dans
le SI, la gestion des identifiants, des nomenclatures, des classes d'objets, que l'on a coutume d'appeler "administration des données" ou
"référentiels", conditionne la physique de l'information. Ceux qui
en sont chargés doivent anticiper les comportements des utilisateurs. C'est la
tâche propre des maîtres d'ouvrage du système d'information que d'assurer l'articulation entre le système d'information et les pratiques, les comportements
des personnes de l'entreprise.
Prendre en compte la physique des données,
c'est indispensable : aucun système d'information ne peut fonctionner si
la plate-forme technique n'a pas les performances nécessaires. Mais le SI n'est construit que si l'on considère aussi la
physique de
l'information.
|