Fusion de cadres de données

Dans le monde de la base de données relationnelle, l'une des opérations les plus importantes est celle d'une jointure, dans laquelle deux tables peuvent être combinées selon les valeurs d'une variable commune. Dans R, deux trames de données peuvent être combinées de manière similaire à l'aide de la fonction merge().
La forme la plus simple est la suivante:

merge(x,y)

merge(x,y)

Cela fusionne les images x et y. Il suppose que les deux trames de données ont une ou plusieurs colonnes avec des noms en commun. Voici un exemple:

> d1
kids states
1 Jack CA
2 Jill MA
3 Jillian MA
4 John HI
> d2
ages kids
1 10 Jill
2 7 Lillian
3 12 Jack
> d <- merge(d1,d2)
> d
kids states ages
1 Jack CA 12
2 Jill MA 10

> d1
kids states
1 Jack CA
2 Jill MA
3 Jillian MA
4 John HI
> d2
ages kids
1 10 Jill
2 7 Lillian
3 12 Jack
> d <- merge(d1,d2)
> d
kids states ages
1 Jack CA 12
2 Jill MA 10

Ici, les deux cadres de données ont en commun les enfants comme variables. R a trouvé les lignes dans lesquelles cette variable avait la même valeur d'enfants dans les deux cadres de données (ceux de Jack et Jill). Il a ensuite créé un cadre de données avec des lignes correspondantes et avec des colonnes issues de cadres de données (enfants, états et âges).
La fonction merge() a nommé les arguments by.x et by.y qui gèrent les cas dans lesquels les variables ont des informations similaires mais des noms différents dans les deux trames de données. Voici un exemple:

> d3
ages pals
1 12 Jack
2 10 Jill
3 7 Lillian
> merge(d1,d3,by.x="kids",by.y="pals")
kids states ages
1 Jack CA 12
2 Jill MA 10

> d3
ages pals
1 12 Jack
2 10 Jill
3 7 Lillian
> merge(d1,d3,by.x="kids",by.y="pals")
kids states ages
1 Jack CA 12
2 Jill MA 10

Même si notre variable s'appelait les enfants dans un cadre de données et les pals dans l'autre, il était destiné à stocker la même information, et donc la fusion avait du sens.
Les correspondances en double apparaîtront pleinement dans le résultat, éventuellement de manière non souhaitable.

> d1
kids states
1 Jack CA
2 Jill MA
3 Jillian MA
4 John HI
> d2a <- rbind(d2,list(15,"Jill"))
> d2a
ages kids
1 12 Jack
2 10 Jill
3 7 Lillian
4 15 Jill
> merge(d1,d2a)
kids states ages
1 Jack CA 12
2 Jill MA 10
3 Jill MA 15

> d1
kids states
1 Jack CA
2 Jill MA
3 Jillian MA
4 John HI
> d2a <- rbind(d2,list(15,"Jill"))
> d2a
ages kids
1 12 Jack
2 10 Jill
3 7 Lillian
4 15 Jill
> merge(d1,d2a)
kids states ages
1 Jack CA 12
2 Jill MA 10
3 Jill MA 15

Il y a deux Jills dans d2a. Il y a un Jill dans d1 qui vit à Massachu -setts et un autre Jill avec une résidence inconnue. Dans notre exemple précédent, merge (d1, d2), il n'y avait qu'un Jill, qui a été supposé être le même dans les deux cadres de données. Mais ici, dans la fusion de l'appel (d1, d2a), il se pourrait que l'un des Jills soit un résident du Massachusetts. Il ressort clairement de ce petit exemple que vous devez choisir les variables correspondantes avec beaucoup de soin.

Exemple étendu: une base de données sur les employés
Voici une adaptation de l'un de mes projets de consultation. Il s'agissait de savoir si les travailleurs âgés étaient aussi nombreux que les plus jeunes. J'ai eu des données sur plusieurs variables, telles que l'âge et les notes de rendement, que j'ai utilisées dans ma comparaison des employés plus âgés et plus jeunes. J'ai également eu des numéros d'identification des employés, ce qui était crucial pour pouvoir connecter les deux fichiers de données: DA et DB.
Le fichier DA avait cet en-tête:

"EmpID","Perf 1","Perf 2","Perf 3","Job Title"

"EmpID","Perf 1","Perf 2","Perf 3","Job Title"

Ce sont les noms de l'ID de l'employé, trois notes de performance et le titre du poste. DB n'avait pas d'en-tête. Les variables ont de nouveau commencé avec l'ID, suite aux dates de début et de fin d'emploi.
Les deux fichiers étaient au format CSV. Une partie de ma phase de nettoyage des données consistait à vérifier que chaque enregistrement contenait le nombre approprié de champs. DA, par exemple, devrait avoir cinq champs par enregistrement. Voici le contrôle:

> count.fields ("DA", sep = ",")
[1] 5555555555555555555555555555555555
5 5 5 5
...

> count.fields ("DA", sep = ",")
[1] 5555555555555555555555555555555555
5 5 5 5
...

Ici, j'ai précisé que le dossier DA avait des champs séparés par des virgules. La fonction a ensuite signalé le nombre de champs dans chaque enregistrement du fichier, ce qui, heureusement, était de 5 s.
J'aurais pu utiliser all () pour vérifier cela, plutôt que de le vérifier visuellement, via cet appel:

all(count.fields("DA",sep=",") >= 5)

all(count.fields("DA",sep=",") >= 5)

Une valeur de retour de TRUE signifierait que tout va bien. Alternativement, j'aurais pu utiliser ce formulaire:

table(count.fields("DA",sep=","))

table(count.fields("DA",sep=","))

Je voudrais alors compter le nombre d'enregistrements avec cinq champs, quatre champs, six champs, etc.
Après cette vérification, j'ai ensuite lu dans les fichiers en tant que données:

da <- read.csv("DA",header=TRUE,stringsAsFactors=FALSE)
db <- read.csv("DB",header=FALSE,stringsAsFactors=FALSE)

da <- read.csv("DA",header=TRUE,stringsAsFactors=FALSE)
db <- read.csv("DB",header=FALSE,stringsAsFactors=FALSE)

Je voulais vérifier les éventuelles erreurs d'orthographe dans les différents champs, alors j'ai exécuté le code suivant:

for (col in 1:6)
print(unique(sort(da[,col])))

for (col in 1:6)
print(unique(sort(da[,col])))

Cela m'a donné une liste des valeurs distinctes dans chaque colonne afin que je puisse explorer visuellement les mauvaises orthographes.
J'avais besoin de fusionner les deux trames de données, correspondant à l'ID de l'employé, alors j'ai exécuté le code suivant:

mrg <- merge(da,db,by.x=1,by.y=1)

mrg <- merge(da,db,by.x=1,by.y=1)

J'ai précisé que la première colonne serait la variable de fusion dans les deux cas. (Comme on l'a remarqué plus tôt, j'aurais aussi pu utiliser les noms de champs plutôt que les chiffres ici.)

Fusion de cadres de données

Enquête statistique

A qui nos services?