RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Intranet et Datamining

13 août 2001

Le numéro de juillet 2001 de Communications of the ACM contient deux articles consacrés à la mise en oeuvre de techniques "nouvelles" (pas si nouvelles que ça : le datamining et l'Intranet) : "Exploring Data Mining Implementation", par Karim K. Hirji (p. 87), décortique un petit projet de datamining réalisé en 1998 pour une entreprise canadienne de restauration rapide. "Intraorganizational Communication with Intranets", par Vincent S. Lai (p. 95), présente une étude réalisée en 1996 sur les 500 plus grandes entreprises de Hong Kong : 41 de ces entreprises avaient mis en place des Intranets, 23 ont accepté de répondre.

On en apprend de belles. "No quantitative or qualitative study has been undertaken to understand how to actually perform datamining" (p. 88), "Most studies of intranet performance have been conceptual or anecdotal; none has sought to collect empirical data from intranet implementers and synthesize their experience in order to plan, control, implement and evaluate intranets" (p. 95). Je n'ai aucune raison de ne pas croire les auteurs. Ceux qui nous recommandent depuis des années d'utiliser ces techniques avaient donc la foi du charbonnier, puisqu'il n'existait pas d'étude des conditions pratiques du succès ; les travaux théoriques étaient nombreux, mais quelle garantie apportent-ils à l'utilisateur ?

Datamining

Le datamining est une méthode statistique qui vise, à partir de l'examen des données, à inférer des modèles descriptifs ou explicatifs. Il fournit, en réponse à des questions économiques ou scientifiques, des classifications ("clustering"), études des corrélations (analyse en composantes principales, analyse des correspondances), outils de "scoring" (analyse discriminante), modèles prévisionnels (régression). Des "arbres de décision" utilisant des "réseaux de neurones" aident à s'orienter dans la forêt des méthodes et dans leur paramétrage. Sur le plan théorique, cela ressemble à de l'économétrie (le modèle est a priori choisi par tâtonnement) et surtout à de l'analyse des données (il n'existe pas de modèle a priori) : le datamining, c'est l'analyse des données appliquée à de grands volumes de données et portée ainsi au niveau d'une industrie.

La mise en oeuvre du datamining rencontre trois difficultés principales :

1) qualité des données. 60 à 70 % du travail sera consacré à la préparation des données (sélection, correction, transcodage, chargement). Si l'entreprise dispose d'un datawarehouse, les questions de qualité sont déjà traitées et la préparation des données peut ne représenter que 30 % du travail (c'est ce qui s'est passé dans l'exemple considéré). 

2) choix des méthodes et de l'itinéraire des travaux. Les "réseaux de neurones" ne règlent pas tout : pour pouvoir répondre aux questions que se pose le client, les méthodes doivent être choisies en dialoguant avec lui. Il faut que l'expert en datamining soit aussi un animateur et possède des qualités que l'on trouve rarement ensemble dans la même personne : rigueur dans la méthode, ouverture et chaleur humaine dans la communication.

3) évaluation des résultats. Le datamining confirme des choses que connaît déjà celui qui consacre plusieurs heures par jour à l'examen manuel des données, d'où la déception du client expert (sauf bien sûr si l'on enrichit le datamining par recoupement avec des données externes qu'il n'aura pas encore utilisées). A cela plusieurs réponses qui ne semblent pas être venues à l'esprit de l'auteur de l'article :

a) il est heureux que les enseignements fournis par l'examen assidu des données soient confirmés lorsque l'on utilise des outils plus puissants : que dirait le client si ce n'était pas le cas !

b) les "évidences" que le datamining retrouve sont, certes, connues de l'expert attentif, mais il a mis beaucoup de temps à les découvrir et il lui est difficile de les communiquer à ceux qui n'ont pas fait le même travail. Plus rapide, le datamining facilite la communication des "évidences". Il permet aussi de les classer par ordre d'importance en leur associant une mesure de leur signification statistique.

c) enfin - c'est, je crois, la conclusion la plus importante quoiqu'elle reste implicite dans l'article - si le travail manuel sur les données a déjà fourni l'essentiel des conclusions utiles, c'est qu'il constitue déjà une forme artisanale mais efficace de datamining. Cela conduit à s'interroger sur l'utilité du datamining "industriel", fortement outillé et donc coûteux (l'exemple étudié est de taille modeste - 20 jours de travail - mais s'équiper pour l'utilisation systématique du datamining serait une lourde affaire).

Le praticien qui examine les données jour après jour  règle chemin faisant les problèmes de sélection, estimation des données manquantes, redressement, transcodage etc. qui sont le premier obstacle au datamining ; pour interpréter les données, il formule des hypothèses et les teste. Ce travail se fait à petite échelle, sur un tableur, sans prétention théorique, mais il donne des résultats de valeur (la preuve : on les retrouve après une approche "industrielle lourde"). Il ne faut pas sous-estimer l'efficacité du travail quotidien, assidu, qui ronge les obstacles comme les vagues rongent une falaise. Seulement les résultats obtenus par le praticien sont difficiles à communiquer, à partager ; les autres ne peuvent pas savoir s'il s'agit de vrais résultats, sérieux et solides, ou de lubies du praticien. Le datamining, avec sa lourdeur et son caractère systématique, apporte aux résultats la caution de son poids.

Si l'entreprise dispose d'un statisticien sérieux, crédible, pondéré, qui examine assidûment les données, il lui apportera armé de son habileté et de son tableur - ou si l'on veut d'un logiciel statistique comme SAS - autant et plus que tous les outils de datamining, à condition qu'il sache communiquer et qu'elle sache l'écouter. Il est vrai cependant qu'il faut parfois, pour faire passer une "évidence" dans l'entreprise, jouer la comédie et recourir à des outils sophistiqués. Il est vrai aussi que certaines "évidences" ne se révéleront pas si l'on a pour seuls outils un bon cerveau et un tableur : alors les lourdes méthodes du datamining peuvent être utiles. Mais il est prudent, avant de les utiliser, de s'assurer que l'on a déjà tiré des données ce qu'un bon statisticien peut en extraire avec les méthodes "manuelles".

Une "donnée", d'ailleurs, c'est une observation ; et il faut savoir interpréter les observations. Les premières interprétations sont le plus souvent maladroites et naïves, puis on affine le modèle et on parvient à des interprétations riches de sens. Les résultats du datamining seront d'autant plus faciles à interpréter que l'on se sera déjà frotté aux données, que l'on aura appris à les interpréter.

Intranet

Utiliser un Intranet, c'est utiliser dans l'entreprise des outils analogues à ceux que l'on trouve sur l'Internet : messagerie, Web, forums, avec les diverses extensions rendues possibles par Java, Perl, XML etc. (formulaires, moteurs de recherche, statistiques d'utilisation etc.).

L'Intranet est utilisé d'abord pour la communication interne, notamment la rédaction, la diffusion et la tenue à jour des documentations professionnelles. L'article attribue cette mission à la DRH, mais dans les entreprises elles peuvent être remplies par d'autres directions (communication, production, commerciale).

L'Intranet est un moyen peu coûteux pour faire partager la documentation de l'entreprise par son personnel, quelle que soit sa localisation dans le monde, car il utilise les standards de l'Internet (TCP/IP, HTTP, HTML) et sa mise en place ne nécessite donc pas de chambouler les réseaux ni les ordinateurs. Pour une petite entreprise, c'est une façon économique de s'informatiser, la petite taille ne constituant pas ici un désavantage.

Les apports essentiels sont l'accès à une information à jour, la maîtrise de l'information par les salariés, l'amélioration de la communication sur l'organisation. Les difficultés résident dans la gestion du contenu, l'animation des groupes de travail et la performance des réseaux. Ce dernier point est important : s'il est possible de déployer un Intranet sur les réseaux existants, le débit qu'il suscite lorsque son utilisation se développe peut contraindre ensuite à des redimensionnements et à l'acquisition de compétences nouvelles pour maîtriser le réseau. Les informaticiens doivent eux aussi se qualifier dans les techniques de l'Intranet notamment pour les questions de sécurité.

Les entreprises utilisatrices ont constaté un gain d'efficacité dans la communication. Par contre le gain serait peu sensible dans le travail coopératif, c'est étonnant à première vue. L'Intranet a encore des lacunes par rapport à un outil de groupware comme Lotus Notes en ce qui concerne l'intégration avec les bases de données et les applications, ainsi que la sécurité. Des efforts sont faits pour combler l'écart entre Intranet et groupware : l'auteur appelle cela "Webware". C'est une évolution importante pour l'articulation entre les documents que véhicule l'Intranet et les données qui constituent la matière première du système d'information. Je croyais les choses plus avancées que cela, et pensais judicieux d'utiliser désormais le terme "Intranet" à la place du terme "groupware". Apparemment, j'allais trop vite en besogne. Je me suis sans doute laissé impressionner par des discours théoriques trop en avance sur l'état de l'art pratique de la profession.