Intranet et Datamining
13 août
2001
Le numéro de juillet 2001 de Communications
of the ACM contient deux articles consacrés à la mise en
oeuvre de techniques "nouvelles" (pas si nouvelles que ça : le
datamining et l'Intranet) : "Exploring
Data Mining Implementation", par Karim K. Hirji (p. 87), décortique un
petit projet de datamining réalisé en 1998 pour une entreprise canadienne de
restauration rapide. "Intraorganizational
Communication with Intranets", par Vincent S. Lai (p. 95), présente une étude réalisée en 1996
sur les 500 plus grandes entreprises de Hong Kong : 41 de ces entreprises avaient
mis en place des Intranets, 23 ont accepté de répondre.
On en apprend de belles. "No quantitative or
qualitative study has been undertaken to understand how to actually perform
datamining" (p. 88), "Most studies of intranet performance have been conceptual
or anecdotal; none has sought to collect empirical data from intranet
implementers and synthesize their experience in order to plan, control,
implement and evaluate intranets" (p. 95). Je n'ai aucune raison de ne pas
croire les auteurs. Ceux qui nous recommandent
depuis des années d'utiliser ces techniques avaient donc la foi du charbonnier,
puisqu'il n'existait pas d'étude des conditions pratiques du succès ; les travaux théoriques
étaient nombreux,
mais quelle garantie apportent-ils à l'utilisateur ?
Datamining
Le datamining est une méthode statistique
qui vise, à partir de l'examen des données, à inférer des modèles descriptifs ou explicatifs.
Il fournit, en réponse à des questions économiques ou scientifiques, des
classifications ("clustering"), études des corrélations (analyse en composantes
principales, analyse des correspondances), outils de "scoring"
(analyse discriminante), modèles prévisionnels (régression). Des "arbres
de décision" utilisant des "réseaux de neurones" aident à s'orienter dans la
forêt des méthodes et dans leur paramétrage. Sur le plan théorique, cela
ressemble à de l'économétrie (le modèle est a priori choisi par tâtonnement) et surtout à
de l'analyse des données
(il n'existe pas de modèle a priori) : le datamining, c'est l'analyse
des données appliquée à de grands volumes de données et portée ainsi au niveau d'une industrie.
La mise en oeuvre du datamining rencontre
trois difficultés principales :
1) qualité des données.
60 à 70 % du travail sera consacré à la préparation des données
(sélection, correction, transcodage, chargement). Si l'entreprise dispose d'un
datawarehouse, les questions de qualité sont déjà traitées et la préparation des données
peut ne représenter que 30 % du travail (c'est ce qui s'est passé
dans l'exemple considéré).
2) choix des méthodes et de l'itinéraire
des travaux. Les "réseaux de neurones" ne règlent pas tout : pour pouvoir
répondre aux questions que se pose le client, les méthodes doivent être choisies
en dialoguant avec lui. Il faut que l'expert en datamining soit aussi un
animateur et possède des qualités que l'on trouve rarement ensemble
dans la même personne : rigueur dans la méthode, ouverture et chaleur humaine
dans la communication.
3) évaluation des résultats. Le
datamining confirme des choses que connaît déjà celui qui consacre plusieurs
heures par jour à l'examen manuel des données, d'où la déception du client
expert (sauf bien sûr si l'on enrichit le datamining par recoupement avec des
données externes qu'il n'aura pas encore utilisées). A cela plusieurs
réponses qui ne semblent pas être venues à l'esprit de l'auteur de l'article :
a) il est heureux que les enseignements
fournis par l'examen assidu des données soient confirmés lorsque l'on utilise
des outils plus puissants : que dirait le client si ce n'était pas le cas !
b) les "évidences" que le datamining retrouve
sont, certes, connues de l'expert attentif, mais il a mis beaucoup de temps à les
découvrir et il lui est difficile de les communiquer à ceux qui n'ont
pas fait le même travail. Plus rapide, le datamining facilite la communication
des "évidences". Il permet aussi de les classer par ordre d'importance en
leur associant une mesure de leur signification statistique.
c) enfin - c'est, je crois, la conclusion
la plus importante quoiqu'elle reste implicite dans l'article - si le travail manuel sur les données a déjà fourni
l'essentiel des conclusions utiles, c'est qu'il constitue déjà une forme artisanale
mais efficace de datamining. Cela conduit à s'interroger sur l'utilité du
datamining "industriel", fortement outillé et donc coûteux (l'exemple
étudié est de taille modeste - 20 jours de travail - mais s'équiper pour l'utilisation systématique du datamining serait une lourde affaire).
Le praticien qui examine
les données jour après jour règle chemin faisant les problèmes de
sélection, estimation des données manquantes, redressement, transcodage etc. qui
sont le premier obstacle au datamining ; pour interpréter les données, il
formule des hypothèses et les teste. Ce travail se fait à petite échelle,
sur un tableur, sans prétention théorique, mais il donne des résultats de
valeur (la preuve : on les retrouve après une approche
"industrielle lourde"). Il ne faut pas sous-estimer l'efficacité du travail
quotidien, assidu, qui ronge les obstacles comme les
vagues rongent une falaise. Seulement les résultats obtenus par le praticien
sont difficiles à communiquer, à partager ; les autres ne peuvent pas
savoir s'il s'agit de vrais résultats, sérieux et solides, ou de lubies du praticien. Le datamining, avec sa lourdeur et son caractère
systématique, apporte aux résultats la caution de son poids.
Si l'entreprise dispose d'un statisticien
sérieux, crédible, pondéré, qui examine assidûment les données, il lui apportera
armé de son habileté et de son tableur - ou si l'on veut d'un logiciel statistique comme SAS
- autant et plus que tous les outils
de datamining, à condition qu'il sache communiquer et qu'elle sache l'écouter.
Il est vrai cependant qu'il faut parfois, pour faire passer une "évidence" dans l'entreprise, jouer
la
comédie et recourir à des outils sophistiqués. Il est vrai
aussi que certaines "évidences" ne se révéleront pas si l'on a pour
seuls outils un bon cerveau et un tableur : alors les lourdes méthodes du
datamining peuvent être utiles. Mais il est prudent, avant de
les utiliser, de s'assurer que l'on a déjà tiré des données ce qu'un bon
statisticien
peut en extraire avec les méthodes "manuelles".
Une "donnée", d'ailleurs, c'est
une observation ; et il faut savoir interpréter les observations. Les premières
interprétations sont le plus souvent maladroites et naïves, puis on affine le
modèle et on parvient à des interprétations riches de sens. Les résultats du
datamining seront d'autant plus faciles à interpréter que l'on se sera déjà
frotté aux données, que l'on aura appris à les interpréter.
Intranet
Utiliser un Intranet, c'est utiliser dans
l'entreprise des outils analogues à ceux que l'on trouve sur l'Internet : messagerie, Web, forums, avec les diverses extensions rendues possibles
par Java, Perl, XML etc. (formulaires, moteurs de recherche, statistiques
d'utilisation etc.).
L'Intranet est utilisé d'abord
pour la communication interne, notamment la rédaction, la diffusion et la tenue
à jour des documentations professionnelles. L'article attribue cette mission à
la DRH, mais dans les entreprises elles peuvent être remplies par d'autres
directions (communication, production, commerciale).
L'Intranet est un moyen peu coûteux pour faire
partager la documentation de l'entreprise par son personnel, quelle que
soit sa localisation dans le monde, car il utilise les standards de l'Internet (TCP/IP, HTTP, HTML) et
sa mise en place ne nécessite donc pas de
chambouler les réseaux ni les ordinateurs. Pour une petite entreprise, c'est une
façon économique de s'informatiser, la petite taille ne constituant pas ici un désavantage.
Les apports essentiels sont l'accès à une
information à jour, la maîtrise de l'information
par les salariés, l'amélioration de la communication sur l'organisation. Les difficultés résident dans la gestion du
contenu, l'animation des groupes de travail et la performance des
réseaux. Ce dernier point est important : s'il est possible de déployer
un Intranet sur les réseaux existants, le débit qu'il suscite lorsque son
utilisation se développe peut contraindre ensuite à des redimensionnements
et à l'acquisition de compétences nouvelles pour maîtriser le
réseau. Les informaticiens doivent eux aussi se qualifier dans les techniques de
l'Intranet notamment pour les questions de sécurité.
Les entreprises utilisatrices ont constaté un gain d'efficacité dans la communication. Par contre
le gain serait peu sensible dans le travail coopératif, c'est
étonnant à première vue. L'Intranet a encore des lacunes
par rapport à un outil de groupware comme Lotus Notes en ce qui concerne
l'intégration avec les bases de données et les applications, ainsi que la
sécurité.
Des efforts sont faits pour combler l'écart entre Intranet et
groupware : l'auteur appelle cela "Webware". C'est une évolution importante
pour l'articulation entre les documents que véhicule l'Intranet et
les données qui constituent la matière première du système
d'information. Je croyais les choses plus avancées que cela, et pensais judicieux d'utiliser
désormais le terme "Intranet" à la place du terme
"groupware". Apparemment, j'allais trop vite en besogne. Je
me suis sans doute laissé impressionner par des discours théoriques trop en avance
sur l'état de l'art pratique de la profession.
|