Tout en travaillant sur un ensemble de données client avec un grand nombre d'observations, il est nécessaire de sous-échantillonner les données en fonction de certains critères de sélection et avec ou sans échantillonnage basé sur le remplacement. L'indexation est le processus d'extraction du sous-ensemble de données de la base de données en fonction de certaines conditions logiques. La fonction de sous-ensemble aide à extraire des éléments de la trame de données comme l'indexation:

  1. > newdata <- audit[ which(audit$Gender=="Female" &amp; audit$Age > 65), ]
  2. > rownames(newdata)
  3. [1] "49" "537" "552" "561" "586" "590" "899" "1200" "1598"
  4. "1719"
Source code

Le code précédent explique: sélectionnez les observations de l'ensemble de données d'audit où le sexe est féminin et l'âge est supérieur à 65 ans. Quelle commande est utilisée pour sélectionner ce sous-ensemble d'audit de données sur la base des deux critères précédents? Il y a 10 observations satisfaisant la condition précédente; les numéros de ligne de la trame de données sont imprimés précédemment. Un résultat similaire peut être obtenu en utilisant également la fonction de sous-ensemble. Au lieu de la fonction which, la fonction de sous-ensemble devrait être utilisée, car cette dernière est plus efficace pour passer plusieurs conditions. Jetons un coup d'oeil à la façon dont la fonction de sous-ensemble est utilisée:
  1. > newdata <- subset(audit, Gender=="Female" &amp; Age > 65,
  2. select=Employment:Income)
  3. > rownames(newdata)
  4. [1] "49" "537" "552" "561" "586" "590" "899" "1200" "1598"
  5. "1719"
Source code

L'argument supplémentaire dans la fonction de sous-ensemble rend la fonction plus efficace car elle offre l'avantage supplémentaire de sélectionner des colonnes spécifiques à partir de la base de données dans laquelle la condition logique est satisfaite.