Tableaux de contingence, statistiques bivariées et vérification de la normalité des données

Les tables de contingence sont des tables de fréquence représentées par deux variables catégorielles ou plus avec la proportion de chaque classe représentée en tant que groupe. La table de fréquence est utilisée pour représenter une variable catégorielle; cependant, un tableau de contingence est utilisé pour représenter deux variables catégorielles.
> table (Type Cars93 $)
Grande camionnette sportive compacte de taille moyenne
16 11 22 21 14 9
> table (Cars93 $ AirBags)
Pilote conducteur et passager seulement
16 43 34
La table de fréquence individuelle pour deux variables catégorielles AirBags et Type de la voiture est représentée précédemment:
> contTable <-table (Cars93 $ Type, Cars93 $ Airbags)
> contTable
Pilote conducteur et passager seulement
Compact 2 9 5
Grand 4 7 0
Taille moyenne 7 11 4
Petit 0 5 16
Sportif 3 8 3
Van 0 3 6
L'objet conTable contient la tabulation croisée de deux variables. La proportion de chaque cellule en pourcentage est reflétée dans le tableau suivant. Si nous devons calculer les pourcentages de ligne ou les pourcentages de colonne, il est nécessaire de spécifier les valeurs dans l'argument:
> prop.table (contTable)
Pilote conducteur et passager seulement
Compact 0.022 0.097 0.054
Grand 0,043 0,075 0,000
Taille moyenne 0,075 0,118 0,043
Petit 0,000 0,054 0,172
Sportif 0.032 0.086 0.032
Van 0,000 0,032 0,065
Pour les pourcentages de ligne, la valeur doit être 1, et pour les pourcentages de colonne, la valeur doit être entrée comme 2 dans la commande précédente:
> prop.table (contTable, 1)
Pilote conducteur et passager seulement
Compact 0,12 0,56 0,31
Grand 0,36 0,64 0,00
Taille moyenne 0,32 0,50 0,18
Petit 0.00 0.24 0.76
Sportif 0.21 0.57 0.21
Van 0,00 0,33 0,67
> prop.table (contTable, 2)
Pilote conducteur et passager seulement
Compact 0,125 0,209 0,147
Grand 0.250 0.163 0.000
Taille moyenne 0,438 0,256 0,118
Petit 0,000 0,110 0,471
Sportif 0.188 0.186 0.088
Van 0,000 0,070 0,176
Le résumé du tableau de contingence effectue un test d'indépendance du chi carré entre les deux variables catégorielles:
> résumé (contTable)
Nombre de cas dans le tableau: 93 Nombre de facteurs: 2
Testez l'indépendance de tous les facteurs:
Chisq = 33, df = 10, p-value = 3e-04 L'approximation du Chi-carré peut être incorrecte
Le test du khi-deux de l'indépendance pour tous les facteurs est représenté précédemment. Le message que l'approximation du khi-carré peut être incorrecte est dû à la présence de valeurs nulles ou inférieures à 5 dans les cellules du tableau de contingence. Comme dans le cas précédent, deux variables aléatoires, type voiture et airbags, peuvent être indépendantes si la distribution de probabilité d'une variable n'a pas d'impact sur la distribution de probabilité de l'autre variable. L'hypothèse nulle pour le test de l'indépendance du khi carré est que deux variables sont indépendantes l'une de l'autre. Puisque la valeur p du test est inférieure à 0,05, au niveau de signification de 5%, nous pouvons rejeter l'hypothèse nulle que les deux variables sont indépendantes. Par conséquent, la conclusion est que le type de voiture et les airbags ne sont pas indépendants les uns des autres; ils sont assez liés ou dépendants.
Au lieu de deux variables, que se passe-t-il si nous ajoutons une dimension supplémentaire au tableau de contingence? Prenons Origin, et la table ressemblerait à ceci:

> contTable <-table (Cars93 $ Type, Cars93 $ Airbags, Cars93 $ Origine)
> contTable,, = USA
Pilote conducteur et passager seulement
Compact 1 2 4
Grand 4 7 0
Taille moyenne 2 5 3
Petit 0 2 5
Sportif 2 5 1
Van 0 2 3
,, = non-USA
Pilote conducteur et passager seulement Aucun Compact 1 7 1 Grand 0 0 0
Taille moyenne 5 6 1 Petit 0 3 11 Sporty 1 3 2 Van 0 1 3
La commande de résumé pour le test d'indépendance de tous les facteurs peut être utilisée pour tester l'hypothèse nulle:
> résumé (contTable)
Nombre de cas dans le tableau: 93 Nombre de facteurs: 3
Testez l'indépendance de tous les facteurs:
Chisq = 65, df = 27, p-value = 5e-05 L'approximation du Chi-carré peut être incorrecte
En dehors des méthodes graphiques discutées précédemment, il existe des tests statistiques numériques qui peuvent être utilisés pour savoir si une variable est normalement distribuée ou non. Il y a une bibliothèque appelée norm.test pour effectuer des tests de normalité des données, une liste de fonctions qui aident à évaluer la normalité des données de cette bibliothèque sont listées comme suit:
ajb.norm.test Test de Jarque-Bera ajusté pour la normalité
frosini.norm.test Frosini test de normalité
geary.norm.test Test de Geary pour la normalité
hegazy1.norm.test Test de Hegazy-Green pour la normalité
hegazy2.norm.test Test de Hegazy-Green pour la normalité
jb.norm.test Test de Jarque-Bera pour la normalité
kurtosis.norm.test Test de kurtosis pour la normalité
skewness.norm.test Test de skewness pour la normalité
Spiegelhalter.norm.test Spiegelhalter test de normalité
wb.norm.test Test de Weisberg-Bingham pour la normalité

test d'ad.test Anderson-Darling pour la normalité
cvm.test Test de Cramer-von Mises pour la normalité
lillie.test Lilliefors (Kolmogorov-Smirnov) test de normalité
pearson.test Test de chi-carré de Pearson pour la normalité
test de sf.test Shapiro-Francia pour la normalité

> bibliothèque (nortest)
> ad.test (Cars93 $ Prix) # test Anderson-Darling test de normalité Anderson-Darling
données: Cars93 $ Prix A = 3, p-value = 9e-07
> cvm.test (Cars93 $ Prix) # test de Cramer-von Mises test de normalité de Cramer-von Mises
données: Cars93 $ Prix W = 0.5, p-value = 6e-06
> lillie.test (Cars93 $ Prix) # Lilliefors (KS) test Lilliefors (Kolmogorov-Smirnov) données de test de normalité: Cars93 $ Prix
D = 0,2, valeur p = 1e-05
> pearson.test (Cars93 $ Prix) # Test de normalité chi carré Pearson chi carré
données: Cars93 $ Prix P = 30, p-value = 3e-04
> sf.test (Cars93 $ Prix) # Shapiro-Francia test Test de normalité Shapiro-Francia
données: Cars93 $ Prix
D'après les tests mentionnés précédemment, il est évident que la variable Price n'est pas normalement distribuée car les valeurs p de tous les tests statistiques sont inférieures à 0,05. Si nous ajoutons plus de dimensions à la relation bivariée, cela devient une analyse multivariée. Essayons de comprendre la relation entre la puissance et la longueur d'une voiture à partir de l'ensemble de données Cars93:

> bibliothèque (corrplot)
> o <-cor (Cars93 [, c ("Puissance", "Longueur")])
> corrplot (o, méthode = "circle", main = "Tracé de corrélation")
m
LZJ
Lorsque nous incluons plus de variables, cela devient une relation multivariée. Essayons de tracer une relation multivariée entre différentes variables de l'ensemble de données Cars93:
> bibliothèque (corrplot)
> t <-
cor (Cars93 [, c ("Prix", "MPG.city", "RPM", "Rev.per.mile", "Largeur", "Poids", "Hor
sepower "," Longueur ")])
> corrplot (t, méthode = "ellipse")

Il existe diverses méthodes qui peuvent être transmises en tant qu'argument au graphe de corrélation. Ils
sont "cercle", "carré", "ellipse", "nombre", "ombre", "couleur" et "tarte".