La science des données est un sujet plus large dans lequel réside le concept de data mining. Selon la définition précitée de data mining, il s'agit d'un processus d'identification des modèles cachés dans les données et de certaines corrélations intéressantes qui peuvent fournir des informations utiles. Le data mining est un sous-ensemble de projets de science des données qui implique des techniques telles que la reconnaissance de formes, la sélection de caractéristiques, le regroupement, la classification supervisée, etc.

La modélisation analytique et statistique implique un large éventail de modèles prédictifs, basés sur la classification, qui peuvent être appliqués à des ensembles de données pour résoudre des problèmes métier réels. Il existe un chevauchement évident entre les trois terminologies: la science des données, l'analyse, la modélisation statistique et le data mining. Les trois terminologies ne doivent pas être considérées isolément. Selon les exigences du projet et le type de problème commercial, la position de chevauchement peut changer, mais à un niveau général, tous les concepts sont bien associés. Le processus de data mining inclut également des méthodes basées sur l'apprentissage statistique et sur la machine pour extraire des données et automatiser des règles, et représenter également des données à l'aide de bonnes visualisations.