ANDON, projet open source d'analyse des données
11 octobre 2007
Pour
poster un commentaire
Messages utiles
ANDON ambitionne de composer en
Scheme un ensemble bien ordonné de programmes
open source
d'analyse des données. Ils seront publiés sous la
licence
GNU
General Public License (http://www.gnu.org/copyleft/gpl.html).
* *
Il s'agit de préparer une nouvelle
version de l'ouvrage
Analyse des
données en lui associant une liste
complète des programmes qui permettent d'exécuter
effectivement les calculs en analyse factorielle
comme en classification automatique.
Cette version du livre, composée en
LaTeX, sera librement téléchargeable au format
pdf. Elle comportera les extraits de programmes
utiles à la compréhension des algorithmes. La
présentation graphique des résultats sera conforme
aux standards de qualité actuels. Les programmes
seront librement téléchargeables.
Le but visé est purement
pédagogique : expliciter les algorithmes en tirant
parti de la puissance de la récursion, produire facilement des exemples qui illustrent
les méthodes. La performance, notamment la
capacité à traiter rapidement de très grands
volumes de données, n'est pas la priorité d'ANDON : c'est
celle des produits professionnels avec lesquels il
ne tente pas de rivaliser.
* *
Les personnes intéressées sont
invitées à examiner le programme d'analyse
factorielle des correspondances composé à titre de premier exercice et à
corriger les bogues qu'il peut contenir.
Il se peut que certains des
programmes énumérés ci-dessous existent déjà en
open source : dans ce cas on pourra les
récupérer pour les réutiliser en respectant les
conditions prévues dans leurs licences.
* *
ANDON devra comporter les programmes suivants et la documentation
associée :
1 - des outils pour interfacer Scheme et Excel (je n'ai pas la
moindre idée de la façon dont il convient de s'y prendre) :
a) un outil permettant de saisir
les données à analyser sur un tableur, puis de les
transmettre automatiquement à un programme en
Scheme (il s'agit de transformer un tableau Excel
en une liste) ;
b) l'outil réciproque, qui
transmettrait automatiquement les résultats d'une
analyse des données depuis Scheme vers un tableur
et permettrait d'utiliser les outils graphiques
que fournit celui-ci.
2 - les modules suivants, écrits en Scheme :
a) l'analyse des cases d'un
hypercube (voir
Une méthode simple pour
analyser rapidement de grands tableaux de nombres) ;
b) l'analyse factorielle d'un nuage
de points quelconque, susceptible d'être paramétrée pour réaliser (1) l'analyse en
composantes principales, (2) l'analyse des
correspondances, (3) l'analyse factorielle
sphérique (cette dernière ne figure pas dans la version
actuelle du livre).
Ce programme doit fournir les
facteurs et les aides à l'interprétation. Il sera
facile de le composer à partir du programme
d'analyse des correspondances déjà
disponible.
c) l'affichage graphique des
résultats de l'analyse factorielle ;
d) l'analyse discriminante et aussi
une Support Vector
Machine (SVM) (la SVM n'est pas dans la version
actuelle du livre, mais il faut l'introduire) ;
e) l'analyse canonique et l'analyse
canonique généralisée (en théorie on peut faire
dériver les analyses factorielles et la régression
de l'analyse canonique généralisée ; est-il
pratiquement utile d'établir une filiation
analogue entre les programmes ?) ;
f) la régression multiple (il
existe déjà de nombreux programmes pour la
régression mais elle doit figurer dans notre
panoplie selon des notations et interfaces
cohérentes avec les autres programmes d'analyse
des données) ;
g) la régression logistique (qui
n'est
pas dans la version actuelle du livre) ;
h) les méthodes de classification
(classification ascendante hiérarchique,
ultramétrique etc.) qu'il est opportun d'associer
à une analyse factorielle, avec leurs aides à
l'interprétation ;
i) la présentation graphique du
résultat d'une classification (arbre, "patates"
dans l'espace des axes factoriels). |