Data mining

Data mining

Pour supprimer les valeurs manquantes de l'ensemble de données, na.omit () peut être utilisé. Il supprime la ligne entière même si les données sont manquantes pour une seule variable. Il existe diverses méthodes d'imputation des valeurs manquantes:
• Imputation moyenne: les valeurs manquantes dans un vecteur de données sont remplacées par la valeur moyenne ou médiane de ce vecteur, à l'exclusion de l'AN
• Méthode de la moyenne locale: en prenant la moyenne locale pour la valeur manquante, en prenant en compte 3 ou 5 périodes moyenne mobile, c'est-à-dire pour une période de 3 la moyenne des données manquantes et la valeur postérieure peuvent décider de la valeur manquante
• Garder cela à part: Parfois, l'imputation n'est tout simplement pas possible, et il se peut que le client veuille séparer les valeurs manquantes pour comprendre séparément le comportement manquant.
• Basé sur un modèle: il existe des techniques d'imputation de valeurs manquantes basées sur un modèle telles que la méthode de prédiction de valeur manquante basée sur la régression
• Clustering: Similaire à la prédiction basée sur la régression à l'imputation de valeur manquante, le clustering k-means peut être utilisé pour imputer les valeurs manquantes de l'ensemble de données

Le traitement des valeurs manquantes est une tâche importante dans la littérature standard d'exploration de données. Dans le langage de programmation R, les valeurs manquantes sont représentées par NA. Les NA ne sont pas des chaînes ou des valeurs numériques; ils sont considérés comme un indicateur des valeurs manquantes. Après avoir importé un ensemble de données dans la plateforme de programmation R, il est important de vérifier si, pour toute variable, des valeurs manquantes existent ou non; Pour vérifier cela, la commande is.na () est utilisée. S'il vous plaît voir l'exemple donné ici:
> x <-c (12,13,14,21,23,24, NA, 25, NA, 0, NA)
> is.na (x)
[1] FAUX FAUX FAUX FAUX FAUX FAUX FAUX FAUX FAUX FAUX FAUX
> mean (x, na.rm = TRUE)
[1] 16,5
> moyenne (x)
[1] NA
L'objet x est un vecteur numérique qui contient des valeurs NA, pour vérifier que is.na () peut être utilisé, à chaque fois qu'il est satisfait, le résultat sera TRUE. Si nous calculons quelque chose avec la présence de NA, nous finissons par obtenir une erreur ou aucun résultat. Soit nous pouvons remplacer l'ensemble de données en modifiant les valeurs NA, soit nous pouvons supprimer ces valeurs NA en effectuant n'importe quel calcul. Comme dans le script précédent, c'est na.rm = T qui est utilisé pour enlever les NA du calcul moyen de l'objet x.

La manipulation de chaînes ou la manipulation de caractères est un aspect important de tout système de gestion de données. Dans un jeu de données typique du monde réel, les noms des clients, par exemple, sont écrits de différentes manières, telles que JH Smith, John H. Smith, John H. Smith, et ainsi de suite. Lors de la vérification, il est observé que les trois noms appartiennent à la même personne. Dans la gestion de données standard, il est important de normaliser les colonnes de texte ou les variables dans un ensemble de données car R est sensible à la casse et il lit toute divergence comme un nouveau point de données. Il peut y avoir beaucoup d'autres variables telles que le nom / modèle d'un véhicule, la description du produit, et ainsi de suite. Regardons comment le texte peut être standardisé en utilisant certaines fonctions:
> x <- "data L'exploitation n'est pas un sujet difficile, tout le monde peut maîtriser le sujet"
> classe (x)
[1] "personnage"
> substr (x, 1, 12)
[1] "Data Mining"
L'objet X dans le script précédent est une chaîne ou un objet de caractère. La commande substr est utilisée pour tirer une sous-chaîne de la chaîne avec la position définie dans la fonction. Si certains motifs ou textes doivent être modifiés ou modifiés, la sous-commande peut être utilisée. Il y a quatre arguments importants que l'utilisateur doit passer: la chaîne dans laquelle un motif doit être recherché, le motif, le motif modifié qui doit être remplacé, et si la sensibilité à la casse est acceptable ou non. Regardons un exemple de script:
> sub ("data mining", "L'exploration de données", x, ignore.case = T, fixed = FALSE) [1] "Le Data Mining n'est pas un sujet difficile, tout le monde peut maîtriser
assujettir"
> strsplit (x, "")
[[1]]
[1] "d" "a" "" "M" "i" "n" "i" "n" "g" "" "i" "s" "" "n"
"o" "t" "" "a" ""
[22] "d" "i" "f" "f" "i" "c" "u" "i" "t" "" "s" "u" "b" "j" "e" "c"
"bronzer"
[43] "y" "o" "n" "e" "" "c" "a" "n" "" "m" "a" "s" "t" "e" "r" ""
"t" "h" "e" "" "s"
[64] "u" "b" "j" "e" "c" "t"
La fonction strsplit aide à développer les lettres d'une chaîne. La commande sub est utilisée pour modifier un motif qui n'est pas correct dans la chaîne. L'option ignore.Case permet à l'utilisateur d'activer ou de désactiver la sensibilité à la casse lors de la recherche du motif dans la chaîne définie.

Concepts de boucle - la boucle for
La boucle for est la construction de boucle la plus populaire dans R. En utilisant une boucle for, une tâche similaire peut être effectuée plusieurs fois de manière itérative, regardons un exemple d'exemple où le concept de boucle for est appliqué. Dans le code suivant, une série de nombres de 10 à 25 est créée. Le vecteur nul v agit comme une unité de stockage. Si la condition mentionnée dans le code suivant n'est pas remplie, la boucle n'est jamais exécutée:
x <-100: 200
y <- NULL # NULL vector comme espace réservé pour (i dans seq (long = x)) {if (x [i] <150) {y <- c (y, x [i] - 50)
} autre {
y <- c (y, x [i] + 50)
}
}
imprimer (y)
Concepts de boucle - la boucle de répétition
La boucle de répétition est utilisée pour itérer un certain calcul sur un vecteur ou une trame de données. Il n'y a aucune disposition pour vérifier la condition pour quitter la boucle; généralement une déclaration de rupture est utilisée pour quitter la boucle. Si vous ne parvenez pas à fournir une condition de rupture dans la boucle de répétition, vous finirez par exécuter la boucle de répétition à l'infini. Regardons le code montrant comment écrire une boucle de répétition. La condition de rupture utilisée dans le code suivant est si x> 2.6:
x <- 100 répétez {print (x) x = sqrt (x) +10 si (x> 2.6) {pause
}
}
Concepts de boucle - alors que les conditions
La structure de la boucle while dans R est simple; il commence avec un résultat souhaité que l'utilisateur veut voir de l'expérience. Lorsque la condition est entrée au début, le corps de la boucle commence l'itération et continue tant que la condition est remplie. La structure squelette d'une boucle while consiste en une condition de contrainte pour commencer; Voici un exemple:
x <- 10
tandis que (x <60) {print (x) x = x + 10
}
Si nous comparons différents types de boucles dans le langage de programmation R, les boucles loop et while sont très fréquemment utilisées; La boucle de répétition n'est pas utilisée fréquemment en raison du temps nécessaire pour terminer la course. Si nous comparons les boucles avec le groupe de fonctions apply, ce dernier ensemble de fonctions est assez efficace pour gérer différentes tâches dans R. Regardons le groupe de fonctions apply.
Appliquer des concepts
La fonction apply utilise un tableau, une matrice ou une image comme entrée et renvoie le résultat dans un format de tableau. Le calcul ou le fonctionnement est défini par la fonction personnalisée de l'utilisateur ou par l'utilisation de fonctions intégrées. L'argument de marge est utilisé pour spécifier quelle marge nous voulons appliquer à la fonction et quelle marge nous souhaitons conserver. Si le tableau que nous utilisons est une matrice, nous pouvons spécifier que la marge soit 1 (appliquer la fonction aux lignes) ou 2 (appliquer la fonction aux colonnes). La fonction peut être n'importe quelle fonction telle que la moyenne, la médiane, l'écart-type, la variance, etc., qui est intégrée ou définie par l'utilisateur. Ici, nous allons utiliser le jeu de données iris pour effectuer la tâche:
> appliquer (ArtPiece [, 2: 3], 2, mean)
Critique.Ratings Acq.Cost
7.200416 44440.900000
> appliquer (ArtPiece [, 2: 3], 1, mean)
[1] 24854.45 26604.68 17153.69 14353.28 14003.47 19604.05 14703.27 15753.29 19602.50
[10] 26954,24 19254,00 18553,77 18903,97 27303,56 24153,74 11553,61
23804,4 17153,76
[19] 19953.30 24854.22 16802.73 20303.33 14354.91 26952.99 24503.28 15752.61 28004.45
[28] 30803.81 29403.27 19604.00 29053.88 17152.81 33253.91 24502.89
37453.92 12604.15
[37] 21353,82 17852,79 28703,83 29753,25 23453,27 18204,34 29753,45 27654,05 39675,14
[46] 24853.61 16102.99 13653.98 14353.66 26252.51
La fonction Lapply est utile pour traiter des données (en appliquant n'importe quelle fonction). Dans R, la trame de données est considérée comme une liste et les variables dans la trame de données sont les éléments de la liste. Nous pouvons donc appliquer une fonction à toutes les variables d'une structure de données en utilisant la fonction lapply:
> lapply (ArtPiece [, 2: 3], moyenne)
$ Critic.Ratings
[1] 7.200416 $ Acq.Cost [1] 44440.9
La fonction Sapply s'applique aux éléments d'une liste et renvoie les résultats dans un vecteur, une matrice ou une liste. Lorsque l'argument est simplify = F, la fonction sapply renvoie les résultats dans une liste tout comme la fonction lapply. Cependant, lorsque l'argument est simplify = T, qui est l'argument par défaut, la fonction sapply renvoie les résultats sous une forme simplifiée si possible:
> sapply (ArtPiece [, 2: 3], moyenne)
Critique.Ratings Acq.Cost
7.200416 44440.900000
Lorsque nous voulons appliquer une fonction à des sous-ensembles d'un vecteur et que les sous-ensembles sont définis par un autre vecteur, généralement un facteur. La sortie de tapply est une matrice / tableau, où un élément dans la matrice / tableau est la valeur de f au groupement g du vecteur, et g est poussé vers les noms de rang / col:
> tête (tapply (Critic.Ratings, Acq.Cost, résumé), 3)
$ '23100'
Min. 1er Qu. Médiane Moyenne 3e Qu. Max.
7.213 7 .213 7.213 7.213 7. .213 7.213
$ '25200'
Min. 1er Qu. Médiane Moyenne 3e Qu. Max.
8,294 8,294 8,294 8,294 8,294 8,294
$ '27300'
Min. 1er Qu. Médiane Moyenne 3e Qu. Max.
7.958 7 958 7.958 7.958 7. 958 7.958

Il existe d'autres fonctions dans la famille de fonctions apply, telles que:
• eapply: applique une fonction sur des valeurs dans un environnement
• mapply: applique une fonction à plusieurs arguments de liste ou de vecteur
• rapply: applique récursivement une fonction à une liste

Sous-catégories

Ce cours se concentre principalement sur les méthodes d'apprentissage et les étapes de l'exploration de données en utilisant le langage de programmation R comme plate-forme. Puisque R est un outil open source, l'apprentissage de l'exploration de données en utilisant R est très intéressant pour les apprenants à tous les niveaux. Le cours est conçu de telle sorte que l'utilisateur peut commencer par les techniques de gestion de données, l'analyse exploratoire des données, la visualisation des données et la modélisation jusqu'à la création de modèles prédictifs avancés tels que les moteurs de recommandation, les modèles de réseaux neuronaux, etc. Ce chapitre donne un aperçu du concept de data mining, de ses différentes facettes avec la science des données, l'analyse, la modélisation statistique et la visualisation. Ce chapitre donne un aperçu des bases de la programmation en utilisant R, comment lire et écrire des données, des notations de programmation et la compréhension de la syntaxe à l'aide d'une étude de cas concrète. Ce chapitre inclut des scripts R pour la pratique afin d'acquérir une expérience pratique des concepts, des terminologies et des raisons sous-jacentes à l'exécution de certaines tâches. Le chapitre est conçu de telle sorte que tout lecteur ayant peu de connaissances en programmation devrait être capable d'exécuter des commandes R pour effectuer diverses tâches d'exploration de données.
Dans ce chapitre, nous discuterons brièvement de la signification de l'exploration de données et de ses relations avec d'autres domaines tels que la science des données, l'analyse et la modélisation statistique; En dehors de cela, nous allons commencer les sujets de gestion de données en utilisant R afin que vous puissiez atteindre les objectifs suivants:
• Comprendre les différents types de données utilisés dans R, y compris le vecteur et ses opérations
• Indexation des trames de données et des séquences de facteurs
• Tri et fusion de données et conversion de types de données
• Manipulation de chaînes et mise en forme d'objets de date
• Traitement des valeurs manquantes et des AN et des techniques d'imputation des valeurs manquantes
• Contrôle de flux, constructions en boucle et utilisation des fonctions d'application

L'analyse exploratoire des données fait partie intégrante de l'exploration de données. Il implique une représentation numérique et graphique des variables dans un ensemble de données pour une compréhension facile et une conclusion rapide sur un ensemble de données. Il est important de comprendre l'ensemble de données, le type de variables prises en compte pour l'analyse, l'association entre diverses variables, etc. Créer des tableaux croisés pour comprendre la relation entre les variables catégoriques et effectuer des tests statistiques classiques sur les données pour vérifier différentes hypothèses sur les données peuvent être testés.
Vous allez maintenant comprendre les choses suivantes:
• Comment utiliser les statistiques de base pour connaître les propriétés d'une variable unique et de plusieurs variables
• Comment calculer la corrélation et l'association entre deux variables ou plus
• Effectuer une analyse de données multivariées
• Propriétés statistiques de diverses fonctions de probabilité pour tout ensemble de données
• Appliquer des tests statistiques sur les données pour conclure des hypothèses
• Comparer deux échantillons ou plus