Ce cours se concentre principalement sur les méthodes d'apprentissage et les étapes de l'exploration de données en utilisant le langage de programmation R comme plate-forme. Puisque R est un outil open source, l'apprentissage de l'exploration de données en utilisant R est très intéressant pour les apprenants à tous les niveaux. Le cours est conçu de telle sorte que l'utilisateur peut commencer par les techniques de gestion de données, l'analyse exploratoire des données, la visualisation des données et la modélisation jusqu'à la création de modèles prédictifs avancés tels que les moteurs de recommandation, les modèles de réseaux neuronaux, etc. Ce chapitre donne un aperçu du concept de data mining, de ses différentes facettes avec la science des données, l'analyse, la modélisation statistique et la visualisation. Ce chapitre donne un aperçu des bases de la programmation en utilisant R, comment lire et écrire des données, des notations de programmation et la compréhension de la syntaxe à l'aide d'une étude de cas concrète. Ce chapitre inclut des scripts R pour la pratique afin d'acquérir une expérience pratique des concepts, des terminologies et des raisons sous-jacentes à l'exécution de certaines tâches. Le chapitre est conçu de telle sorte que tout lecteur ayant peu de connaissances en programmation devrait être capable d'exécuter des commandes R pour effectuer diverses tâches d'exploration de données.
Dans ce chapitre, nous discuterons brièvement de la signification de l'exploration de données et de ses relations avec d'autres domaines tels que la science des données, l'analyse et la modélisation statistique; En dehors de cela, nous allons commencer les sujets de gestion de données en utilisant R afin que vous puissiez atteindre les objectifs suivants:
• Comprendre les différents types de données utilisés dans R, y compris le vecteur et ses opérations
• Indexation des trames de données et des séquences de facteurs
• Tri et fusion de données et conversion de types de données
• Manipulation de chaînes et mise en forme d'objets de date
• Traitement des valeurs manquantes et des AN et des techniques d'imputation des valeurs manquantes
• Contrôle de flux, constructions en boucle et utilisation des fonctions d'application