Il s’agit d’une composante essentielle des techniques d’analyse et des données volumineuses, mais aussi de la technologie Big Data. C’est une source d’analyse prédictive. Car il ne suffit pas de stocker les données au sein des database, il faut savoir les exploiter correctement. C’est en majeure partie le rôle du data mining, qui a pour but de tirer des enseignements des masses énormes d’informations et qui bien souvent sont collectées par les entreprises sans réel but et sans savoir vraiment quoi en faire.

 

C’est quoi ?

On peut le définir comme un « forage de données », une exploration en quelque sorte. Cela désigne le plus souvent le fait de transformer des données en des informations qui vont être bénéfiques et utiles aux entreprises, tout cela en mettant en relation les données entre elles ou en repérant des patterns. Ces informations sont ensuite généralement utilisées afin de réduire des coûts, mais aussi pour augmenter le chiffre d’affaire. La compréhension du client est aussi un des enjeux majeurs du Data Mining car il permet grâce à cela, d’établir de meilleures stratégies marketing.

Cela fait parti des outils d’analytique de gestion des données, cela permet aux utilisateurs d’analyser des données sous des angles différents mais aussi plus facilement de les catégoriser. Ce procédé permet aussi souvent de trouver des liens de corrélations entre les bases de données grâce à des algorithmes complexes avec lesquels on peut segmenter les données.

 

Ce qu’il faut savoir

Les données sont avant tout des nombres, des textes ou encore des faits qui peuvent être traitées par des ordinateurs, le problème des entreprises aujourd’hui, c’est qu’elles emmagasinent un grand nombre de données sans savoir comment les exploiter efficacement. Quand on parle de données, on distingue 3 catégories :

  • Les données non opérationnelles : Cela peut être les données prévisionnelles, les données macro économiques ou bien les ventes industrielles.
  • Les données transactionnelles (opérationnelles) : Elles correspondent aux données de ticket de caisse, de comptabilité, mais aussi de coûts et d’inventaires.
  • Les métadonnées : Elles concernent les données en général.

Ce qu’on appelle les « patterns » correspond à l’association des données entre elles (données historiques ou des futures tendances), ce qui permet d’obtenir des informations exploitables. Les supermarchés peuvent par exemple recueillir des informations sur un produit de leur magasin afin de savoir à quel moment il se vent le mieux, qui l’achète, et pourquoi… Suite à cela, ils peuvent adapter une stratégie adaptée afin de le vendre au mieux, ce procédé est déclinable sur beaucoup de supports.

Contrairement au terme de Data Mining, la technologie qu’elle représente n’est pas du tout nouvelle. Les ordinateurs ont depuis longtemps été utilisés pour traiter le volume exponentiel de données qui sont enregistrées par les supermarchés afin d’analyser les rapports de recherche sur les marchés. Les domaines des logiciels statistiques, du stockage et du traitement des informations sont en permanence en évolution, ce qui permet ce qui permet une réduction des coûts pour les entreprises, mais aussi une augmentation de la précision de leurs analyses.

 

Comment on l’utilise ?

Cet instrument d’analyse est fait pour traiter un grand volume de données, contrairement aux méthodes classiques d’analyse statistiques. Les supports informatiques d’aujourd’hui  sont dotés de capacités de stockage extrêmement grands ce qui permet à un maximum de données d’être captées, puis ordonnées et rangées dans un Data Warehouse.

Il existe 5 techniques de Data Mining pour traiter les données :

  • Clustering : Le fait de trouver et documenter visuellement des groupes de faits qui ont été connus précédemment.
  • Analyse de séquence : Il s’agit de cherches des patterns dans lesquels un événement mène à un autre plus tardif.
  • Association : Chercher des patterns dans les quels un évènement est lié à un autre.
  • Prédiction : On découvre les patterns de données qui mènent à des prédictions raisonnables dans le futur. C’est ce qu’on appelle l’analyse prédictive.
  • Classification : La recherche de nouveaux patterns, ce qui pousse à changer l’organisation des données des patterns.

Quel est le processus de fonctionnement ?

Pourquoi s’en servir dans le marketing ?

Ce sont principalement les entreprises centrées sur les consommateurs qui utilisent le Data Mining à l’heure actuelle. Les secteurs les plus avancés dans son utilisation sont ceux de la finance, du retail, de la communication ou encore du data mining marketing. Les secteurs de la génétique, les mathématiques ou encore la cybernétique se sont aussi penchés sur le sujet. En interne, pour les entreprises, le data mining permet de définir un prix, le positionnement d’un produit, ou même les compétences d’un employé. En externe, l’entreprise pourra se soucier des informations démographiques sur ses consommateurs, leur concurrents et les principaux indicateurs économiques. La relation avec le client est un élément essentiel qu’il est possible de prendre en compte avec le Data Mining, tout comme l’approche ou l’appréhension de ces derniers pour un produit. Il est possible de déterminer l’impact de la relation sur les ventes, le bénéfice de l’entreprise, mais aussi la satisfaction des consommateurs.

C’est grâce au Data Mining que les retailers peuvent peuvent utiliser les enregistrements d’achats en point de vente des clients afin de leur envoyer des promotions ciblées le moment venu. Des produits peuvent aussi être développés en fonction de cela pour attirer certains segments de consommateurs durants une période voulue.

Les 3 propriétés principales du data mining

    • La prédiction de résultats probables : Un modèle est par exemple capable de prédire un résultat basé sur l’éducation ainsi que d’autres facteurs démographiques. De nombreuses formes de data mining sont effectivement prédictives.
    • La découverte automatique du pattern : Le data mining se repose sur le développement d’un modèle qui repose sur un algorithme. La découverte automatique se réfère à l’exécution de modèle de Data Mining. Ces modèles peuvent être utilisés afin de mimer les données sur lesquelles elles se bâtissent, tout ce processus est appelé le processus de scoring.
    • Création d’informations exploitables : Comme dit précédemment, le Data Mining permet de sortir des informations exploitables à partir de larges volumes de données. Une agence de location de voiture peut utiliser un modèle pour identifier des segments de consommateurs afin de créer une promotion ciblant les clients à forte valeur par exemple…

 

Quelle infrastructure faut il ?

Il est possible d’avoir accès au Data Mining aujourd’hui pour toutes les tailles de PC, Mainframe ou serveur. Le prix est compris entre plusieurs milliers à plusieurs millions de dollars suivant le type d’applications. Le plus souvent, pour les entreprises; elles sont comprises entre 10 gigabyte et 11 térabytes.  Il existe deux principaux facteurs technologiques :

    • La taille de la base de données : Si le nombre de données à traiter est important, un système puissant est requis.
    • Le niveau de complexité des requêtes

 

Comment se former ?

Aujourd’hui de nombreuses universités qui sont spécialisées en mathématiques ou informatique explorent cette nouvelle technique. Il est possible de se former sur le web aussi car une majorité cours sont mis à la disposition du plus grand nombre, dont  de nombreux cours en PDF et téléchargeables.