Pour commencer, regardons l’exemple suivant:
Les deux premiers arguments dans la fonction data.frame () sont clairs (nous souhaitons produire un cadre de données avec nos deux vecteurs: les enfants et les âges). Cependant, le troisième argument, stringsAsFactors = FALSE nécessite plus de commentaires. Si l'argument nommé stringsAsFactors n'est pas spécifié, par défaut StringsAsFactors sera TRUE. Cela signifie que si nous créons un cadre de données, R va le convertir en un facteur. Nous allons définir stringsAsFactors à FALSE parce que notre travail avec les données de caractères sera généralement avec des vecteurs et non des facteurs. Nous allons couvrir les facteurs au prochain chapitre.
1 Accès aux cadres de données
Maintenant que nous avons un cadre de données, explorons un peu. Puisque d est une liste, nous pouvons extraire les éléments:
Mais nous pouvons le traiter de manière matricielle aussi. Par exemple, nous pouvons voir la colonne 1:
Cette qualité semblable à une matrice est également observée lorsque nous supprimons d en utilisant str ():
R nous dit ici que d se compose de deux observations. Envisagez trois façons d'accéder à la première colonne de notre cadre de données ci-dessus: d [[1]], d [, 1] et d $ kids. Parmi ceux-ci, le troisième serait généralement considéré comme étant plus clair et, plus important encore, plus sûr que les deux premiers. Cela identifie mieux la colonne et rend moins probable que vous fassiez référence à la mauvaise colonne. Mais, en écriture, le code général, par exemple, l'écriture des paquets R, la notation matricielle d [, 1] est nécessaire, et il est particulièrement pratique si vous extrayez des images sous-données (comme vous le verrez lorsque nous parlons d'extraire des images de sous-données dans Section 5.2).
5.1.2 Exemple étendu: Analyse de régression des notes d'examen Suite
Rappelons nos données d'examen de cours dans la section 1.5. Là, nous n'avons pas d'en-tête, mais pour cet exemple, nous faisons, et les premiers enregistrements dans le fichier sont les suivants:
Quiz "examen 2" examen "examen 2"
2.0 3.3 4.0
3.3 2.0 3.7
4.0 4.0 4.0
2,3 0,0 3,3
2,3 1,0 3,3
3.3 3.7 4.0
Comme vous pouvez le voir, chaque ligne contient les trois résultats de tests pour un étudiant. C'est la notion classique de fichier bidimensionnel, comme cela a été mentionné dans la sortie précédente de str (). Ici, chaque ligne de notre fichier contient les données pour une observation dans un ensemble de données statistiques. L'idée d'un cadre de données est d'encapsuler ces données, ainsi que des noms de variables, en un seul objet.
Notez que nous avons séparé les champs ici par des espaces. D'autres délimiteurs peuvent être spécifiés, notamment des virgules pour les fichiers de valeur séparée par des virgules (CSV) (comme vous le verrez dans la section 5). Les noms de variables spécifiés dans le premier enregistrement doivent être séparés par le même délimiteur utilisé pour les données, ce qui est un espace dans ce cas. Si les noms eux-mêmes contiennent des espaces intégrés, comme nous l'avons fait ici, ils doivent être cités.
Nous lisons dans le fichier comme précédemment, mais dans ce cas, nous déclarons qu'il y a un enregistrement d'en-tête:
Les noms des colonnes apparaissent maintenant, avec des périodes remplaçant les blancs: