jeudi 22 mars 2012

Data Mining with Rattle and R

Data mining with Rattle and R est un livre que j’ai bien apprécié. L’auteur Graham Williams non seulement possède son sujet mais sait le rendre intéressant et simple.

R est un environnement open-source qui permet de réaliser des analyses statistiques qui rencontre un succès important dont témoignent les nombreux livres écrits à son sujet.

Rattle est une extension de R qui permet de réaliser des fouilles de données et par exemple de générer des arbres de décisions à partir d’un ensemble de cas connus. Selon Graham, le but du data mining est de construire un modèle qui capture l’essentiel des savoirs contenus dans les données.
La volonté de l’auteur est de faciliter la compréhension et la mise en oeuvre de ces techniques d’analyse.
Ce livre sent le vécu. Il intéressera les les experts et les débutants en analyse de données. Les experts y trouveront une structure et des capacités pédagogiques. Les débutants y verront facilement plus clair, il n’est d’ailleurs pas nécessaire d’être statisticien ou informaticien pour comprendre le data mining, il faut néanmoins s’intéresser a minima à chacun de ces domaines.

Le livre est structuré selon le cycle de vie d’une analyse. A chaque étape du processus la finalité, les pièges et la mise en oeuvre avec Rattle et R sont décrites.

L’exemple pris est celui d’une prévision météo, une vingtaine de facteurs sont pris en compte pour prévoir si demain il pleuvra.


Autour de cet exemple l’auteur présente de manière intéressante les intérêts de différentes techniques d’analyse permettant d’aboutir à des modèles descriptifs et prédictifs pertinents.
L’auteur insiste sur la capacité à prendre en compte les résultats d’une multiplicité d’analyse.


Il détaille les différentes méthodes d’évaluation des résultats et met en lumière combien cette étape d’évaluation est importante et parfois trompeuse.



Pour terminer, j’illustre le style, l’intérêt et le niveau requis pour lire ce livre d’un exemple. Celui  que j’ai choisi porte sur une famille de meta-algorithmes qui comparent plusieurs modèles pour les combiner et en générer un meilleur :



“ The random forest algorithm tends to produce quite accurate models because the ensemble reduces the instability that we can observe when we build single decisions trees. This can often be illustrated simply by removing a very small number of observations from the training dataset to see quite a change in the resulting decision tree.”