Une première session avec R

Faisons un ensemble de données simple en langage R (un vecteur) composé des nombres 1, 2 et 4, et nommez-le x:

> x <- c (1,2,4)

> x <- c (1,2,4)

L'opérateur d'assignation standard dans R est <-. Vous pouvez également utiliser =, mais cela est déconseillé, car cela ne fonctionne pas dans certaines situations particulières. Notez qu'il n'y a pas de types fixes associés à des variables. Ici, nous avons assigné un vecteur à x, mais plus tard nous pourrions lui assigner quelque chose d'un type différent. Nous examinerons les vecteurs et les autres types dans la section 1.4.
Le c signifie concaténer. Ici, nous concaténons les nombres 1, 2 et 4. Plus précisément, nous concaténons trois vecteurs à un élément composés de ces nombres. En effet, tout nombre est également considéré comme un vecteur à un élément.
Maintenant, nous pouvons également faire ce qui suit:

> q <- c (x, x, 8)

> q <- c (x, x, 8)

qui définit q à (1,2,4,1,2,4,8) (oui, y compris les doublons).
Maintenant, confirmons que les données sont vraiment en x. Pour imprimer le vecteur à l'écran, tapez simplement son nom. Si vous tapez un nom de variable (ou, plus génériquement, une expression) en mode interactif, R affichera la valeur de cette variable (ou de cette expression). Les programmeurs familiarisés avec d'autres langages tels que Python trouveront cette fonctionnalité familière. Pour notre exemple, entrez ceci:

> x
[1] 1 2 4

> x
[1] 1 2 4

Oui, bien sûr, x est composé des nombres 1, 2 et 4.
Des éléments individuels d'un vecteur sont accessibles via []. Voici comment nous pouvons imprimer le troisième élément de x:

> x[3]
[1] 4

> x[3]
[1] 4

Comme dans les autres langages, le sélecteur (ici, 3) est appelé index ou sous-script. Ceux qui sont familiers avec les langages de la famille ALGOL, tels que C et C ++, devraient noter que les éléments des vecteurs R sont indexés à partir de 1, et non de 0. La sous-segmentation est une opération très importante sur les vecteurs. Voici un exemple:

> x <- c (1,2,4)
> x [2: 3]
[1] 2 4

> x <- c (1,2,4)
> x [2: 3]
[1] 2 4

L'expression x [2: 3] fait référence au sous-vecteur de x constitué d'éléments 2 à 3, qui sont 2 et 4 ici.
Nous pouvons facilement trouver la moyenne et l'écart-type de notre ensemble de données, comme suit:

> mean(x)
[1] 2.333333
> sd(x)
[1] 1.527525

> mean(x)
[1] 2.333333
> sd(x)
[1] 1.527525

Cela montre de nouveau en tapant une expression à l'invite afin de l'imprimer. Dans la première ligne, notre expression est la fonction appel mean (x). La valeur de retour de cet appel est imprimée automatiquement, sans nécessiter d'appel à la fonction print () de R.
Si nous voulons enregistrer la moyenne calculée dans une variable au lieu de l'imprimer simplement à l'écran, nous pourrions exécuter ce code:

> y <- mean(x)

> y <- mean(x)

Encore une fois, confirmons que y contient vraiment la moyenne de x:

> y
[1] 2,3333333

> y
[1] 2,3333333

Comme indiqué précédemment, nous utilisons # pour écrire des commentaires, comme ceci:

> y # imprime y
 
[1] 2.333333

> y # imprime y

[1] 2.333333

Les commentaires sont particulièrement utiles pour la documentation du code de programme, mais ils sont également utiles dans les sessions interactives, puisque R enregistre l'historique des commandes (comme indiqué dans la section 1.6). Si vous enregistrez votre session et la reprenez plus tard, les commentaires peuvent vous aider à vous souvenir de ce que vous faisiez.
Enfin, faisons quelque chose avec l'un des ensembles de données internes de R (ceux-ci sont utilisés pour les démos). Vous pouvez obtenir une liste de ces ensembles de données en tapant ce qui suit:

> data()

> data()

L'un des ensembles de données s'appelle Nile et contient des données sur le débit du Nil. Trouvons la moyenne et l'écart-type de cet ensemble de données:

> mean(Nile)
[1] 919.35
> sd(Nile)
[1] 169.2275

> mean(Nile)
[1] 919.35
> sd(Nile)
[1] 169.2275

Une fenêtre apparaît avec l'histogramme, comme illustré dans la Figure 1-1. Ce graphique est simple, mais R a toutes sortes de cloches et de sifflets facultatifs pour le traçage. Par exemple, vous pouvez changer le nombre de cases en spécifiant la variable breaks. L'appel hist (z, breaks = 12) dessinerait un histogramme de l'ensemble de données z avec 12 cases. Vous pouvez également créer des étiquettes plus agréables, utiliser des couleurs et apporter de nombreux autres changements pour créer un graphique plus informatif et attrayant. Lorsque vous vous familiariserez avec R, vous pourrez construire des graphismes complexes et riches en couleurs d'une beauté saisissante.
Eh bien, c'est la fin de notre première introduction de cinq minutes à R. Quit R en appelant la fonction q () (ou en appuyant sur CTRL-D sous Linux ou CMD-D sur un Mac):

> q ()

> q ()

Cette dernière invite vous demande si vous souhaitez enregistrer vos variables afin de pouvoir reprendre le travail plus tard. Si vous répondez y, alors tous ces objets seront automatiquement chargés la prochaine fois que vous exécuterez R. Ceci est une fonction très importante, en particulier lorsque vous travaillez avec des ensembles de données volumineux ou nombreux. Répondre ici enregistre également l'historique des commandes de la session. Nous parlerons plus de sauvegarder votre espace de travail et l'historique des commandes dans la section 1.6.

Une première session avec R

Enquête statistique

A qui nos services?