• analyse-de-donnes-cestad
  • analytics_tools_original
  • data-minig1
  • data-minig2
  • Data-Mining-1030
  • Big-data-azzurro
  • marketing-statistics
Enquêtes
Collete des données
Traitement des données
Analyse des données
 
Programmation
Programmation statistique
Developpement des macros
Modélisation et plus encore
 
Data Mining
Exploration des données
Modélisation prédictive
Big Data
 
Formations certifiantes
Formations à la carte
Semilaires et conférences

 

 

R inclut un certain nombre de fonctions pratiques pour travailler avec des tables et des facteurs. Nous en discuterons deux ici: aggregate () et cut ().
NOTE Le package de remodelage de Hadley Wickham «vous permet de restructurer et d'agréger de manière flexible les données en utilisant seulement deux fonctions: fondre et couler». Ce package peut prendre un certain temps pour apprendre, mais il est extrêmement puissant. Son paquet de plyr est aussi assez polyvalent. Vous pouvez télécharger les deux packages depuis le référentiel CRAN de R. Voir l'annexe B pour plus de détails sur le téléchargement et l'installation des paquets.


1 La fonction aggregate ()
La fonction aggregate () appelle tapply () une fois pour chaque variable d'un groupe. Par exemple, dans les données sur les abalones, nous pouvons trouver la médiane de chaque variable, ventilée par sexe, comme suit:

  1. > aggregate(aba[,-1],list(aba$Gender),median)
  2. Group.1 Length Diameter Height WholeWt ShuckedWt ViscWt ShellWt Rings
  3. 1 F 0.590 0.465 0.160 1.03850 0.44050 0.2240 0.295 10
  4. 2 I 0.435 0.335 0.110 0.38400 0.16975 0.0805 0.113 8
  5. 3 M 0.580 0.455 0.155 0.97575 0.42175 0.2100 0.276 10
Source code
Le premier argument, aba [, - 1], est l'ensemble du bloc de données à l'exception de la première colonne, qui est le genre lui-même. Le deuxième argument, qui doit être une liste, est notre facteur genre comme avant. Enfin, le troisième argument indique à R de calculer la médiane sur chaque colonne dans chacune des trames de données générées par le sous-groupe correspondant à nos facteurs. Il y a trois sous-groupes dans notre exemple ici et donc trois lignes dans la sortie de aggregate ().


2 La fonction cut ()
Une manière courante de générer des facteurs, en particulier pour les tables, est la fonction de cut (). Vous lui donnez un vecteur de données x et un ensemble de cases définies par un vecteur b. La fonction détermine alors à quel bin chacun des éléments de x tombe.
Voici la forme de l'appel que nous utiliserons ici:

  1. y <- cut(x,b,labels=FALSE)
Source code

où les casiers sont définis comme étant les intervalles semi-ouverts (b [1], b [2]], (b [2], b [3]], - Voici un exemple:

  1. > z
  2. [1] 0.88114802 0.28532689 0.58647376 0.42851862 0.46881514 0.24226859 0.05289197
  3. [8] 0.88035617
  4. > seq(from=0.0,to=1.0,by=0.1)
  5. [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
  6. > binmarks <- seq(from=0.0,to=1.0,by=0.1)
  7. > cut(z,binmarks,labels=F)
  8. [1] 9 3 6 5 5 3 1 9
Source code

Cela indique que z [1], 0,88114802, est tombé dans la cellule 9, qui était (0,0,0,1); z [2], 0,28532689, est tombé dans la cellule 3 et ainsi de suite.
Cela renvoie un vecteur, comme vu dans le résultat de l'exemple. Mais nous pouvons le convertir en un facteur et éventuellement l'utiliser pour construire une table. Par exemple, vous pouvez imaginer utiliser cette fonction pour écrire votre propre fonction d'histogramme spécialisé. (La fonction R findInterval () serait également utile pour cela).