La manipulation de chaînes ou la manipulation de caractères est un aspect important de tout système de gestion de données. Dans un jeu de données typique du monde réel, les noms des clients, par exemple, sont écrits de différentes manières, telles que JH Smith, John H. Smith, John H. Smith, et ainsi de suite. Lors de la vérification, il est observé que les trois noms appartiennent à la même personne. Dans la gestion de données standard, il est important de normaliser les colonnes de texte ou les variables dans un ensemble de données car R est sensible à la casse et il lit toute divergence comme un nouveau point de données. Il peut y avoir beaucoup d'autres variables telles que le nom / modèle d'un véhicule, la description du produit, et ainsi de suite. Regardons comment le texte peut être standardisé en utilisant certaines fonctions:
> x <- "data L'exploitation n'est pas un sujet difficile, tout le monde peut maîtriser le sujet"
> classe (x)
[1] "personnage"
> substr (x, 1, 12)
[1] "Data Mining"
L'objet X dans le script précédent est une chaîne ou un objet de caractère. La commande substr est utilisée pour tirer une sous-chaîne de la chaîne avec la position définie dans la fonction. Si certains motifs ou textes doivent être modifiés ou modifiés, la sous-commande peut être utilisée. Il y a quatre arguments importants que l'utilisateur doit passer: la chaîne dans laquelle un motif doit être recherché, le motif, le motif modifié qui doit être remplacé, et si la sensibilité à la casse est acceptable ou non. Regardons un exemple de script:
> sub ("data mining", "L'exploration de données", x, ignore.case = T, fixed = FALSE) [1] "Le Data Mining n'est pas un sujet difficile, tout le monde peut maîtriser
assujettir"
> strsplit (x, "")
[[1]]
[1] "d" "a" "" "M" "i" "n" "i" "n" "g" "" "i" "s" "" "n"
"o" "t" "" "a" ""
[22] "d" "i" "f" "f" "i" "c" "u" "i" "t" "" "s" "u" "b" "j" "e" "c"
"bronzer"
[43] "y" "o" "n" "e" "" "c" "a" "n" "" "m" "a" "s" "t" "e" "r" ""
"t" "h" "e" "" "s"
[64] "u" "b" "j" "e" "c" "t"
La fonction strsplit aide à développer les lettres d'une chaîne. La commande sub est utilisée pour modifier un motif qui n'est pas correct dans la chaîne. L'option ignore.Case permet à l'utilisateur d'activer ou de désactiver la sensibilité à la casse lors de la recherche du motif dans la chaîne définie.