Le data mining peut être définie comme le processus consistant à déchiffrer des informations significatives à partir de bases de données existantes et à analyser les résultats à des fins de consommation par les utilisateurs métiers. Analyser des données provenant de diverses sources et les résumer en informations et perspectives significatives est la partie de la découverte des connaissances statistiques qui aide non seulement les utilisateurs professionnels, mais aussi de nombreuses communautés telles que les analystes statistiques, les consultants et les scientifiques de données. La plupart du temps, le processus de découverte des connaissances à partir des bases de données est inattendu et les résultats peuvent être interprétés de plusieurs façons.

Le nombre croissant d'appareils, de tablettes, de smartphones, d'ordinateurs, de capteurs et de divers autres appareils numériques permet de générer et de collecter des données à un rythme beaucoup plus rapide que jamais. Avec la capacité des ordinateurs modernes, l'augmentation des données peut être prétraité et modélisée pour répondre à diverses questions liées à tout processus de prise de décision d'affaires.

Le data mining peut également être définie comme une recherche à forte intensité de connaissance à travers des bases de données discrètes et des référentiels d'informations utilisant des méthodologies statistiques, des techniques d'apprentissage automatique, des technologies de visualisation et de reconnaissance de formes.
La croissance des données structurées et non structurées, telles que l'existence de codes à barres dans tous les produits dans un magasin de détail, la saisie de tags RFID sur tous les actifs dans une usine, les flux Twitter, les messages Facebook, les capteurs intégrés dans une ville les conditions météorologiques changeantes, l'analyse vidéo, la recommandation vidéo basée sur les statistiques d'audience, etc., créent un écosystème propice à l'investissement de divers outils, technologies et méthodologies. Les techniques d'exploration de données appliquées à la variété de données discutées précédemment fournissent non seulement des informations significatives sur la structure des données, mais recommandent également des actions futures possibles à entreprendre par les entreprises.

Le processus de data mining implique différentes étapes:
1. Extrayez les données requises des bases de données et des entrepôts de données.
2. Effectuez une vérification d'intégrité sur les données pour supprimer les caractères redondants et les informations non pertinentes.
3. Parfois, il est important de combiner des informations provenant de diverses autres bases de données disjointes. Par conséquent, recherchez des attributs communs pour combiner des bases de données.
4. Appliquer des techniques de transformation de données. Parfois, il est nécessaire d'inclure quelques attributs et fonctionnalités dans un modèle.
5. Reconnaissance de formes parmi les caractéristiques d'entrée, où l'une quelconque des méthodes de reconnaissance de formes peut être appliquée.
6. Représentation des connaissances. Cela comprend la représentation des connaissances extraites des bases de données sous une forme visuelle à diverses parties prenantes de l'entreprise.

Les données
Nettoyage des données de visualisation

Extraction de données

Modèle
Intégration des données de reconnaissance

Les données
Transformation

Après avoir discuté du processus de data mining et des composants de base, il est également important de regarder quelques défis que l'on peut rencontrer dans l'exploration de données, tels que l'efficacité de calcul, les bases de données non structurées et leur confluence avec des bases de données structurées. , etc. Ces problèmes peuvent être résolus en utilisant des approches innovantes.