Il existe deux grands ensembles de types de données: les vecteurs atomiques et les vecteurs composés. Il existe essentiellement cinq types de données dans la programmation R sous la catégorie de vecteurs atomiques: numérique ou nombres, caractères ou chaînes, facteurs, logique et complexe. Et il existe quatre types de données composés: trame de données, listes, tableau et matrice. L'objet de données primaire dans R est un vecteur; Même lorsque nous affectons un nombre à un seul chiffre à un alphabet, il s'agit d'un vecteur à un élément dans R. Tous les objets de données contiennent un mode et une longueur. Le mode détermine le type de données stockées dans l'objet et la longueur détermine le nombre d'éléments contenus dans cet objet. La fonction c () dans R implique la concaténation de divers éléments dans un vecteur.
Jetons un coup d'oeil à divers exemples montrant différents types de données dans R:

  1. > x1<-c(2.5,1.4,6.3,4.6,9.0)
  2. > class(x1)
  3. [1] "numeric"
  4. > mode(x1)
  5. [1] "numeric"
  6. > length(x1)
  7. [1] 5
Source code


Dans le script précédent, le vecteur x1 est un vecteur numérique et le nombre d'éléments est 5. Les deux classes class () et mode () renvoient les mêmes résultats, donc les deux déterminent le type de vecteur:

  1. > x2<-c(TRUE,FALSE,TRUE,FALSE,FALSE)
  2. > class(x2)
  3. [1] "logical"
  4. > mode(x2)
  5. [1] "logical"
  6. > length(x2)
  7. [1] 5
Source code

Le vecteur x2 est un vecteur logique ayant cinq éléments. Les éléments ou valeurs vectoriels logiques peuvent être écrits comme T / F ou TRUE / FALSE.
  1. > x3< c("DataMining","Statistics","Analytics","Projects","MachineLearning")
  2. > class(x3)
  3. [1] "character"
  4. > length(x3)
  5. [1] 5
Source code

L'objet x3 représente un vecteur de caractère de longueur 25. Tous les éléments du vecteur peuvent être mentionnés entre guillemets doubles ("") ou guillemets simples ('').
Le facteur est une autre forme de données où différentes catégories listées dans le vecteur sont appelées niveaux, dans l'exemple précédent; le vecteur a est un vecteur de caractère à deux niveaux ou catégories, répétés avec une certaine fréquence. La commande as.factor () est utilisée pour convertir un vecteur de caractères en un type de données factoriel. Après avoir appliqué cela, cela indique qu'il existe cinq niveaux tels que Analytics, DataMining, MachineLearning, Projects et Statistics. La commande table () indique la table de fréquence calculée à partir de la variable factor:

  1. > x<-data.frame(x1,x2,x3)
  2. > class(x)
  3. [1] "data.frame"
  4. > print(x)
  5. x1 x2 x3
  6. 12 TRUE Analytics
  7. 13 FALSE DataMining
  8. 24 TRUE MachineLearning
  9. 54 FALSE Projects
  10. 29 TRUE Statistics
Source code

Les données sont une autre forme populaire de type de données dans le langage de programmation R qui inclut tous les types de données différents. Une trame de données est une liste qui contient plusieurs vecteurs de même longueur et différents types de données. Si vous importez simplement un ensemble de données à partir d'une feuille de calcul, le type de données devient par défaut une trame de données. Plus tard, le type de données pour les variables individuelles peut être modifié. Ainsi, les données peuvent être définies comme une matrice contenant des colonnes de différents types de données. Dans le script précédent, l'élément de données x contient trois types de données différents: numérique, logique et caractère. La plupart des ensembles de données du monde réel contiennent des types de données différents; par exemple, dans un magasin de détail, les informations sur les clients sont stockées dans une base de données. Cela comprend l'identification du client, la date d'achat, le montant acheté, si une partie de tout programme de fidélité ou non, et ainsi de suite.
Un point important à propos des vecteurs: tous les éléments d'un vecteur doivent être du même type. Sinon, R convertira de force cela par coercition. Par exemple, dans un vecteur numérique, si un élément contient une valeur de caractère, le type de vecteur passera de numérique à caractère. Le script est donné comme suit:

 

  1. > x1<-c(2.5,1.4,6.3,4.6,9.0)
  2. > class(x1)
  3. [1] "numeric"
  4. > x1<-c(2.5,1.4,6.3,4.6,9.0,"cat")
  5. > class(x1)
  6. [1] "character"
Source code

R est sensible à la casse, donc "chat" est différent de "chat". Par conséquent, soyez prudent lorsque vous attribuez des noms d'objets aux vecteurs. Parfois, il serait difficile de se souvenir des noms d'objets:

  1. > ls()
  2. [1] "a" "centers" "df" "distances"
  3. [5] "dt2" "i" "indexes" "km"
  4. [9] "kmd" "kmeans.results" "log_model" "mtcars"
  5. [13] "outliers" "pred" "predict.kmeans" "probs"
  6. [17] "Smarket" "start" "sumsq" "t"
  7. [21] "test" "Titanic" "train" "x"
  8. [25] "x1" "x2" "x3" "x4"
  9. [29] "x5" "y" "z"
Source code

Pour savoir quels sont les objets actifs dans la session R en cours, la commande ls () peut être utilisée; la commande list imprime tous les objets actifs de la session en cours. Jetons un coup d'oeil à ce qu'est une liste, comment récupérer les éléments d'une liste, et comment la fonction de liste peut être utilisée.