ANDON, projet open source d'analyse des données

RECHERCHE :

Bienvenue sur le site de Michel VOLLE

Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
GNU Free Documentation License.

ANDON, projet open source d'analyse des données

11 octobre 2007

Pour poster un commentaire

Messages utiles

ANDON ambitionne de composer en Scheme un ensemble bien ordonné de programmes open source d'analyse des données. Ils seront publiés sous la licence GNU General Public License (http://www.gnu.org/copyleft/gpl.html).

* *

Il s'agit de préparer une nouvelle version de l'ouvrage Analyse des données en lui associant une liste complète des programmes qui permettent d'exécuter effectivement les calculs en analyse factorielle comme en classification automatique.

Cette version du livre, composée en LaTeX, sera librement téléchargeable au format pdf. Elle comportera les extraits de programmes utiles à la compréhension des algorithmes. La présentation graphique des résultats sera conforme aux standards de qualité actuels. Les programmes seront librement téléchargeables.

Le but visé est purement pédagogique : expliciter les algorithmes en tirant parti de la puissance de la récursion, produire facilement des exemples qui illustrent les méthodes. La performance, notamment la capacité à traiter rapidement de très grands volumes de données, n'est pas la priorité d'ANDON : c'est celle des produits professionnels avec lesquels il ne tente pas de rivaliser.

* *

Les personnes intéressées sont invitées à examiner le programme d'analyse factorielle des correspondances composé à titre de premier exercice et à corriger les bogues qu'il peut contenir.

Il se peut que certains des programmes énumérés ci-dessous existent déjà en open source : dans ce cas on pourra les récupérer pour les réutiliser en respectant les conditions prévues dans leurs licences.

* *

ANDON devra comporter les programmes suivants et la documentation associée :

1 - des outils pour interfacer Scheme et Excel (je n'ai pas la moindre idée de la façon dont il convient de s'y prendre) :

a) un outil permettant de saisir les données à analyser sur un tableur, puis de les transmettre automatiquement à un programme en Scheme (il s'agit de transformer un tableau Excel en une liste) ;

b) l'outil réciproque, qui transmettrait automatiquement les résultats d'une analyse des données depuis Scheme vers un tableur et permettrait d'utiliser les outils graphiques que fournit celui-ci.

2 - les modules suivants, écrits en Scheme :

a) l'analyse des cases d'un hypercube (voir Une méthode simple pour analyser rapidement de grands tableaux de nombres) ;

b) l'analyse factorielle d'un nuage de points quelconque, susceptible d'être paramétrée pour réaliser (1) l'analyse en composantes principales, (2) l'analyse des correspondances, (3) l'analyse factorielle sphérique (cette dernière ne figure pas dans la version actuelle du livre).
Ce programme doit fournir les facteurs et les aides à l'interprétation. Il sera facile de le composer à partir du programme d'analyse des correspondances déjà disponible.

c) l'affichage graphique des résultats de l'analyse factorielle ;

d) l'analyse discriminante et aussi une Support Vector Machine (SVM) (la SVM n'est pas dans la version actuelle du livre, mais il faut l'introduire) ;

e) l'analyse canonique et l'analyse canonique généralisée (en théorie on peut faire dériver les analyses factorielles et la régression de l'analyse canonique généralisée ; est-il pratiquement utile d'établir une filiation analogue entre les programmes ?) ;

f) la régression multiple (il existe déjà de nombreux programmes pour la régression mais elle doit figurer dans notre panoplie selon des notations et interfaces cohérentes avec les autres programmes d'analyse des données) ;

g) la régression logistique (qui n'est pas dans la version actuelle du livre) ;

h) les méthodes de classification (classification ascendante hiérarchique, ultramétrique etc.) qu'il est opportun d'associer à une analyse factorielle, avec leurs aides à l'interprétation ;

i) la présentation graphique du résultat d'une classification (arbre, "patates" dans l'espace des axes factoriels).