« Pentaho/Data Mining » : différence entre les versions

Contenu supprimé Contenu ajouté
Hiladamouss (discussion | contributions)
Hiladamouss (discussion | contributions)
Aucun résumé des modifications
Ligne 10 :
{{Définition
| contenu =
« Le '''''Data Mining''''' est une technique d'extraction d'information et de découverte de connaissances à partir d'un gros volume de données, avec une méthode et des outils spécifiques »
[[Pentaho]]. }}
 
== Définition ==
 
Le '''''dataData miningMining''''' ou '''''fouille de données''''', est l'ensemble des méthodes et techniques destinées à l'exploration et l'analyse de bases de données informatiques souvent très grande, de façon automatique ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l'essentiel de l'information utile tout en réduisant la quantité de données.
Pour résumer, le data mining est l'art d'extraire des informations à partir de données afin de prendre une décision stratégique.
 
 
Il existe deux type de data'''''Data miningMining''''': le descriptif et le prédictif.
*'''Le descriptif''' vise à mettre en évidence des informations présentes mais cachées par le volume important de donné. C'est le cas lors de classification automatique d'individu et des recherches d’associations de produits ou médicaments.
*'''Le prédictif''' vise à tirer, faire ressortir de nouvelles informations partir des informations présentes. Ces nouvelles informations seront alors qualitatives( (ex: scoring: classer les clients selon des critère définis ou quantitatives (prédictions: prévision de chiffres)
 
== Objectifs ==
 
Le data'''''Data miningMining''''' est une technique d'aide à la décision très utilisée par les entreprises actuelles, peu importe le secteur d'activités. En effet il est aussi bien utilisé par les entreprises commerciales que les industrielles, ou encore les entités financières.
Aujourd'hui, les entreprises ne se demandent plus seulement"combien de clients ont acheté tel produit pendant telle période?", "quel est leur profil?", mais plutôt les questions suivantes:
*Quel autre produit les intéresseront?
*Quand seront-ils intéressés?".
Chaque consommateur est unique et se différencie par ses goûts, son mode de vie, son sexe, son âge, son lieu d'habitation et bien d'autres critères. Il est donc évident que les profils de clientèle à découvrir sont des profils complexes.Les simples oppositions telles que "jeune/âgé", "femme/homme", "citadin/ruraux" peuvent facilement se retrouver avec des statistiques descriptives.Mais la réalité est faite de combinaisons plus complexes, dont les variables discriminantes ne sont pas celles auxquelles on pense directement. C'est dernières sont tellement subtiles que nous n'aurions pas pu les découvrir par hasard.
Et c'est là que le data'''''Data miningMining''''' devient intéressant. Avec le data'''''Data miningMining''''' nous passons de '''"l'analyse confirmatoire"''' à '''"l'analyse" exploratoire"'''. Les techniques de data'''''Data miningMining''''', plus complexes que la statistique descriptive de base, s'appuient sur des outils d'intelligence artificielle ([[Réseaux de neurones]]), la théorie de l'information ([[Arbres de décision]]),des statistiques inférentielles (basées sur des échantillons)et des analyses de données traditionnelles (analyse factorielle, classification automatique...)
 
== Utilisation en entreprise de data mining Pentaho ==