Analyse exploratoire des données avec les données de l'automobile

L'analyse exploratoire des données fait partie intégrante de l'exploration de données. Il implique une représentation numérique et graphique des variables dans un ensemble de données pour une compréhension facile et une conclusion rapide sur un ensemble de données. Il est important de comprendre l'ensemble de données, le type de variables prises en compte pour l'analyse, l'association entre diverses variables, etc. Créer des tableaux croisés pour comprendre la relation entre les variables catégoriques et effectuer des tests statistiques classiques sur les données pour vérifier différentes hypothèses sur les données peuvent être testés.
Vous allez maintenant comprendre les choses suivantes:
• Comment utiliser les statistiques de base pour connaître les propriétés d'une variable unique et de plusieurs variables
• Comment calculer la corrélation et l'association entre deux variables ou plus
• Effectuer une analyse de données multivariées
• Propriétés statistiques de diverses fonctions de probabilité pour tout ensemble de données
• Appliquer des tests statistiques sur les données pour conclure des hypothèses
• Comparer deux échantillons ou plus

Lorsqu'un ensemble de données d'apprentissage n'est pas conforme à une distribution de probabilité spécifique en raison du non-respect des hypothèses de cette distribution de probabilité spécifique, la seule option qui reste pour analyser les données est par des méthodes non paramétriques. Les méthodes non paramétriques ne suivent aucune hypothèse concernant la distribution de probabilité. En utilisant des méthodes non-paramétriques, on peut faire des inférences et effectuer des tests d'hypothèses sans adhérer à aucune hypothèse. Examinons maintenant un ensemble de tests sur-paramétriques qui peuvent être utilisés lorsqu'un ensemble de données n'est pas conforme aux hypothèses d'une distribution de probabilité spécifique.

Test de Wilcoxon
Si l'hypothèse de normalité est violée, il est alors nécessaire d'appliquer des méthodes non paramétriques afin de répondre à une question telle que: existe-t-il une différence de kilométrage moyen dans la ville entre les voitures de type automatique et manuelle?
> wilcox.test (Cars93 $ MPG.city ~ Cars93 $ Man.trans.avail, correct = F)
Test de somme de Wilcoxon
données: Cars93 $ MPG.city par Cars93 $ Man.trans.avail W = 380, p-value = 1e-06
L'argument apparié peut être utilisé si les deux échantillons correspondent à des paires et que les échantillons ne suivent pas les hypothèses de normalité:
> wilcox.test (Cars93 $ MPG.city, Cars93 $ MPG.highway, jumelé = T)
Test de rang signé Wilcoxon avec données de correction de continuité: Cars93 $ MPG.city et Cars93 $ MPG.highway V = 0, p-value <2e-16
hypothèse alternative: le décalage d'emplacement réel n'est pas égal à 0
Test de Mann-Whitney-Wilcoxon
Si deux échantillons ne sont pas appariés, sont indépendants et ne suivent pas une distribution normale, il est nécessaire d'utiliser le test de Mann-Whitney-Wilcoxon pour tester l'hypothèse que la différence moyenne dans les deux échantillons sont statistiquement significativement différentes:
> wilcox.test (Cars93 $ MPG.city ~ Cars93 $ Man.trans.avail, data = Cars93)
Test de la somme des rangs de Wilcoxon avec les données de correction de continuité: Cars93 $ MPG.city par Cars93 $ Man.trans.avail W = 380, p-value = 1e-06
hypothèse alternative: le décalage d'emplacement réel n'est pas égal à 0
Kruskal-Wallis test
Pour comparer les moyennes de plus de deux groupes, c'est-à-dire le côté non-paramétrique de l'analyse ANOVA, on peut utiliser le test de Kruskal-Wallis. Il est également connu sous le nom de test statistique sans distribution:
> kruskal.test (Cars93 $ MPG.city ~ Cars93 $ Cylindres, data = Cars93)
Kruskal-Wallis test de somme
données: Cars93 $ MPG.city par Cars93 $ Cylindres
Kruskal-Wallis khi carré = 68, df = 5, p-valeur = 3e

 

 

Deux échantillons test de variance
Pour comparer les variances de deux échantillons, le test F est utilisé comme statistique:
> var.test (Cars93 $ MPG.highway ~ Cars93 $ Man.trans.avail, data = Cars93)
Test F pour comparer deux variances
data: Cars93 $ MPG.highway par Cars93 $ Man.trans.avail F = 0.24, num df = 31, denom df = 60, p-value = 5e-05 hypothèse alternative: le vrai ratio des variances n'est pas égal à 1 95 pour cent Intervalle de confiance:
0,1330 0,4617 estimations de l'échantillon: ratio des variances 0,2402
Puisque la valeur p est inférieure à 0,05, nous pouvons rejeter l'hypothèse nulle selon laquelle il n'y a pas de différence dans la variance du kilométrage sur une autoroute pour les voitures manuelles et automatiques. Cela implique qu'il existe une différence statistiquement significative dans la variance de deux échantillons à un niveau de confiance de 95%.
Les variances des deux groupes peuvent également être testées en utilisant le test de Bartlett:
> bartlett.test (Cars93 $ MPG.highway ~ Cars93 $ Man.trans.avail, data = Cars93) Test de Bartlett de l'homogénéité des variances
données: Cars93 $ MPG.highway par Cars93 $ Man.trans.avail K-carré de Bartlett = 17, df = 1, p-value = 4e-05
D'après le test précédent, on peut également conclure que l'hypothèse nulle de variances égales peut être rejetée au niveau alpha 0,05, et il peut être prouvé qu'il existe une différence statistiquement significative dans la variance des deux échantillons.
ANOVA à une voie: ANOVA à un facteur peut être utilisé. La variable considérée est RPM et la variable de regroupement considérée est Cylindres.
Hypothèse nulle: Il n'y a pas de différence dans les moyennes de RPM entre les différents types de cylindres. Hypothèse alternative: Il y a une différence de RPM moyen pour au moins un type de cylindre:
> aov (Cars93 $ RPM ~ Cars93 $ Cylindres)
Appel:
aov (formule = Cars93 $ RPM ~ Cars93 $ Cylindres)
Termes:
Cars93 $ Cylindres résiduels
Somme des carrés 67 63791 25996370
Deg. de la liberté 5 87
Erreur standard résiduelle: 546.6
Les effets estimés peuvent être déséquilibrés
> résumé (aov (Cars93 $ RPM ~ Cars93 $ Cylindres))
Df Somme Sq Moyenne Sq F valeur Pr (> F)
Voitures93 $ Cylindres 5 6763791 1352758 4,53 0,001 **
Résidus 87 25996370 298809
Signif. Codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 '' 1
De l'ANOVA précédent, la valeur p est inférieure à 0,05; par conséquent, l'hypothèse nulle peut être rejetée. Cela signifie au moins pour un type de cylindre, le RPM moyen est statistiquement significativement différent. Pour identifier quel type de cylindre est différent, un test post hoc peut être effectué sur les résultats du modèle ANOVA:
> TukeyHSD (aov (Cars93 $ RPM ~ Cars93 $ Cylindres))
Comparaisons multiples de Tukey
95% niveau de confiance de la famille
Ajustement: aov (formule = Cars93 $ RPM ~ Cars93 $ Cylindres)
$ 'Cars93 $ Cylinders' diff lwr upr p adj
4- 3 -321,8 -1269,23 625,69 0,9201
5- 3 -416.7 -1870.88 1037.54 0.9601
6- 3 -744,1 -1707,28 219,11 0,2256 8-3 -895,2 -1994,52 204,04 0,1772 rotatif-3 733,3 -1106,11 2572,78 0,8535
5- 4 -94,9 -1244,08 1054,29 0,9999
6- 4 -422,3 -787,90 -56,74 0,0140 8-4 -573,5 -1217,14 70,20 0,1091 rotatif-4 1055,1 -554,08 2664,28 0,4027 6-5 -327,4 -1489,61 834,77 0,9629
8-5 -478,6 -1755,82 798,67 0,8834 rotatif-5 1150,0 -801,03 3101,03 0,5240 8-6 -151,2 -817,77 515,47 0,9857 rotatif-6 1477,4 -141,08 3095,92 0,0941 rotatif-8 1628,6 -74,42 3331,57 0,0692
Là où la valeur ajustée p est inférieure à 0,05, la différence moyenne de RPM est statistiquement différente de celle des autres groupes.
ANOVA bi-directionnel avec tests post hoc: Les facteurs considérés sont l'origine et les airbags. L'hypothèse qui doit être testée est la suivante: y a-t-il un impact des deux variables catégoriques sur la variable RPM?
> aov (Cars93 $ RPM ~ Cars93 $ Origine + Cars93 $ Airbags)
Appel:
aov (formule = Cars93 $ RPM ~ Cars93 $ Origine + Cars93 $ Airbags)
Termes:
Voitures93 $ Origine Voitures93 $ Airbags Résidus Somme des cases 8343880 330799 24085482
Deg. de la Liberté 1 2 89 Erreur-type résiduelle: 520.2 Les effets estimés peuvent être déséquilibrés
> résumé (aov (Cars93 $ RPM ~ Cars93 $ Origine + Cars93 $ Airbags))
Df Somme Sq Moyenne Sq F valeur Pr (> F)
Voitures93 $ Origine 1 8343880 8343880 30,83 2,9e-07 *** Voitures93 $ Airbags 2 330799 165400 0,61 0,54 Résiduelles 89 24085482 270623
Signif. Codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 '' 1
> TukeyHSD (aov (Voitures93 $ RPM ~ Cars93 $ Origine + Cars93 $ Airbags))
Comparaisons multiples de Tukey
95% niveau de confiance de la famille
Fit: aov (formule = Voitures93 $ RPM ~ Cars93 $ Origine + Cars93 $ AirBags)
$ 'Cars93 $ Origine'
diff lwr upr p adj
États-Unis - États-Unis 599,4 384,9 813,9 0
$ 'Cars93 $ Airbags'
diff lwr upr p adj
Conducteur seulement-Conducteur et passager -135,74 -498,8 227,4 0,6474 Aucun-Conducteur et passager -25,68 -401,6 350,2 0,9855 Aucun-Conducteur seulement 110,06 -174,5 394,6 0,6280

 

L'hypothèse nulle indique que rien ne s'est passé, les moyennes sont constantes et ainsi de suite. Cependant, l'hypothèse alternative indique que quelque chose de différent est arrivé et que les moyens sont différents pour une population. Il y a certaines étapes dans la réalisation d'un test d'hypothèse:
1. Énoncez l'hypothèse nulle: Une affirmation sur la population est supposée; par exemple, le kilométrage moyen des voitures dans une ville est de 40.
2. Énoncez l'hypothèse alternative: Si l'hypothèse nulle s'avère être fausse, alors quelle autre possibilité existe-t-il? Par exemple, si le kilométrage dans la ville n'est pas 40, alors est-il supérieur à 40 ou inférieur à 40? S'il n'est pas égal à 40, il s'agit d'une hypothèse alternative non directionnelle.
3. Calculez la statistique de test de l'échantillon: La statistique de test peut être t-test, f-test, z-test, etc. Sélectionnez la statistique de test appropriée en fonction de la disponibilité des données et de l'hypothèse déclarée précédemment.
4. Décidez de la limite de confiance: Il existe trois limites de confiance différentes: 90%,
95% et 99% selon le degré d'exactitude lié à un problème commercial spécifique. Il appartient au chercheur / analyste de choisir le niveau d'intervalle de confiance.
5. Définissez la valeur alpha: Si le niveau de confiance sélectionné est de 95%, la valeur alpha va être de 5%. Par conséquent, décider de la valeur alpha aiderait à calculer la valeur p pour le test.
6. Décision: Si la valeur p sélectionnée est inférieure au niveau alpha, il y a des preuves que l'hypothèse nulle peut être rejetée; si ce n'est pas le cas, nous allons accepter l'hypothèse nulle.

Test de la moyenne de la population
En utilisant la procédure de test d'hypothèse, prenons un exemple de l'ensemble de données Cars93 pour tester la moyenne de la population.
Un test de queue de moyenne avec variance connue
Supposons que le chercheur affirme que le kilométrage moyen donné par toutes les voitures collectées dans l'échantillon est supérieur à 35. Dans l'échantillon de 93 voitures, on observe que le kilométrage moyen de toutes les voitures est de 29. Si vous acceptez ou rejetez la demande du chercheur ?
Hypothèse nulle: moyenne = 35
Hypothèse alternative = moyenne> 35> mu <-mean (Cars93 $ MPG.highway)
> mu [1] 29
> sigma <-sd (Cars93 $ MPG.highway)
> sigma [1] 5,3
> n <-length (Cars93 $ MPG.highway)
> n [1] 93
> xbar = 35
> z <- (xbar-mu) / (sigma / sqrt (n))
> z [1] 11
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm (1-alpha)
> z1 [1] 1,6
> ifelse (z> z1, "rejeter l'hypothèse nulle", "accepter l'hypothèse nulle") Hypothèse nulle: moyenne = 35
Hypothèse alternative = moyenne <35
Test de queue de moyenne, avec variance connue:> mu <-mean (Cars93 $ MPG.highway)
> mu
[1] 29.09
> sigma <-sd (Cars93 $ MPG.highway)
> sigma [1] 5,332
> n <-length (Cars93 $ MPG.highway)
> n [1] 93
> xbar = 35
> z <- (xbar-mu) / (sigma / sqrt (n))
> z
[1] 10,7
>
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm ((1-alpha) / 2))
Erreur: inattendue ')' dans "z1 = qnorm ((1-alpha) / 2))"
> c (-z1, z1)
[1] -1,96 1,96
>
>
> ifelse (z> z1 | z <-z1, "Rejeter l'hypothèse nulle", "Accepter l'hypothèse nulle")
La façon dont nous avons analysé le test unilatéral et bilatéral de la population signifie pour les données de l'échantillon dans le cas de la variance connue.
Une queue et deux queue test de proportions
En utilisant l'ensemble de données Cars93, supposons que 40% des voitures fabriquées aux États-Unis ont un RPM supérieur à 5000. D'après les données de l'échantillon, nous avons constaté que 17 voitures sur 57 ont un RPM supérieur à 5000. Qu'est-ce que vous interprétez?
> kilométrage <-subset (Cars93, Cars93 $ RPM> 5000)
> table (kilométrage $ Origine)
USA non-USA
17 40
> p1 <-17/57
> p0 <- 0,4
> n <- longueur (kilométrage)
> z <- (p1-p0) / sqrt (p0 * (1-p0) / n)
> z
[1] -1.079
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm (1-alpha)
> z1
[1] 1,645
> ifelse (z> z1, "rejeter l'hypothèse nulle", "accepter l'hypothèse nulle") [1] "accepter l'hypothèse nulle"
Si l'hypothèse alternative n'est pas directionnelle, il s'agit d'un test bilatéral de proportions; rien du calcul précédent ne changerait sauf le calcul de la valeur critique. Le script détaillé est donné comme suit:
> kilométrage <-subset (Cars93, Cars93 $ RPM> 5000)
> table (kilométrage $ Origine)
USA non-USA
17 40
> p1 <-17/57
> p0 <- 0,4
> n <- longueur (kilométrage)
> z <- (p1-p0) / sqrt (p0 * (1-p0) / n)
> z
[1] -1.079
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm (1-alpha / 2)
> c (-z1, z1)
[1] -1,96 1,96
> ifelse (z> z1 | z <-z1, "Rejeter l'hypothèse nulle", "Accepter l'hypothèse nulle")
[1] "Accepter l'hypothèse nulle"
• Deux échantillons appariés pour les données continues: L'hypothèse nulle qui est testée dans le test apparié à deux échantillons serait qu'il n'y a pas d'impact d'une procédure sur les sujets, le traitement n'a aucun effet sur les sujets, et ainsi de suite. L'hypothèse alternative serait qu'il y ait un impact statistiquement significatif d'une procédure, l'efficacité d'un traitement ou d'un médicament sur les sujets.
Bien que nous n'ayons pas une telle variable dans l'ensemble de données Cars93, nous pouvons toujours supposer la relation appariée entre les prix minimums et les prix maximum pour différentes marques de voitures.
• Hypothèse nulle pour le test t à deux échantillons: il n'y a pas de différence dans les prix moyens.
• Hypothèse alternative: Il existe une différence dans les prix moyens:
> t.test (Cars93 $ Min.Price, Cars93 $ Max.Prix, jumelé = T)
Test t apparié
données: Cars93 $ Prix min.et Cars93 $ Prix max t = -9.6, df = 92, p-value = 2e-15
Hypothèse alternative: la vraie différence de moyennes n'est pas égale à 0 Intervalle de confiance à 95%:
-5,765 -3,781 estimations de l'échantillon: moyenne des différences -4,773
La valeur p est inférieure à 0,05. Par conséquent, on peut conclure que la différence entre le prix minimum moyen et le prix maximum est statistiquement significative au niveau de confiance alpha de 95%.
• Deux échantillons de test non appariés pour les données continues: À partir de l'ensemble de données Cars93, le kilométrage sur l'autoroute et dans la ville est supposé être différent. Si la différence est statistiquement significative, peut être testé en utilisant le test t des échantillons indépendants pour la comparaison des moyennes.
• Hypothèse nulle: Il n'y a pas de différence dans le MPG sur autoroute et MPG dans ville.
• Hypothèse alternative: Il y a une différence dans le MPG sur autoroute et MPG dans la ville:
Welch Deux échantillons t-test
données: Cars93 $ MPG.city et Cars93 $ MPG.highway
t = -8,4, df = 180, p-valeur = 1e-14
Hypothèse alternative: la vraie différence de moyennes n'est pas égale à 0 Intervalle de confiance à 95%:
-8.305 -5.136 estimations de l'échantillon: moyenne de x moyenne de y 22.37 29.09
À partir du test t à deux échantillons, lorsque les deux échantillons sont indépendants, la valeur p est inférieure à 0,05; par conséquent, nous pouvons rejeter l'hypothèse nulle qu'il n'y a aucune différence dans le kilométrage moyen sur la route et dans la ville. Il y a une différence statistiquement significative dans le kilométrage moyen dans la ville et sur la route. Cela peut être représenté d'une manière légèrement différente, en mettant une hypothèse nulle, la différence de kilométrage moyen dans la ville est différente pour les voitures manuelles par rapport aux voitures automatiques:
, data = Cars93)
Welch Deux échantillons t-test
données: Cars93 $ MPG.city par Cars93 $ Man.trans.avail t = -6, df = 84, p-value = 4e-08
Hypothèse alternative: la vraie différence de moyennes n'est pas égale à 0 Intervalle de confiance à 95%:
-6.949 -3.504 estimations de l'échantillon:
moyenne dans le groupe Non moyenne dans le groupe Oui 18,94 24,16
Ainsi, la conclusion du test précédent est qu'il existe une différence statistiquement significative dans le kilométrage moyen entre les types de véhicules à transmission automatique et manuelle; c'est parce que la valeur p est inférieure à 0,05.
Avant d'appliquer le test t, il est important de vérifier la normalité des données; la normalité d'une variable peut être évaluée en utilisant la fonction de test de Shapiro:
> shapiro.test (Cars93 $ MPG.city)
Données de test de normalité Shapiro-Wilk: Cars93 $ MPG.city
W = 0,8 6, p-value = 6e-08)
> qqline (Cars93 $ MPG.city)
 

En regardant le graphique QQ pour la lignée par gallon dans la ville et l'histogramme, on peut conclure que la variable n'est pas normalement distribuée. Étant donné que la variable de kilométrage n'est pas distribuée normalement, il est nécessaire d'appliquer des méthodes non paramétriques telles que le test de rang signé Wilcoxon ou le test de Kolmogorov-Smirnov.

Les tables de contingence sont des tables de fréquence représentées par deux variables catégorielles ou plus avec la proportion de chaque classe représentée en tant que groupe. La table de fréquence est utilisée pour représenter une variable catégorielle; cependant, un tableau de contingence est utilisé pour représenter deux variables catégorielles.
> table (Type Cars93 $)
Grande camionnette sportive compacte de taille moyenne
16 11 22 21 14 9
> table (Cars93 $ AirBags)
Pilote conducteur et passager seulement
16 43 34
La table de fréquence individuelle pour deux variables catégorielles AirBags et Type de la voiture est représentée précédemment:
> contTable <-table (Cars93 $ Type, Cars93 $ Airbags)
> contTable
Pilote conducteur et passager seulement
Compact 2 9 5
Grand 4 7 0
Taille moyenne 7 11 4
Petit 0 5 16
Sportif 3 8 3
Van 0 3 6
L'objet conTable contient la tabulation croisée de deux variables. La proportion de chaque cellule en pourcentage est reflétée dans le tableau suivant. Si nous devons calculer les pourcentages de ligne ou les pourcentages de colonne, il est nécessaire de spécifier les valeurs dans l'argument:
> prop.table (contTable)
Pilote conducteur et passager seulement
Compact 0.022 0.097 0.054
Grand 0,043 0,075 0,000
Taille moyenne 0,075 0,118 0,043
Petit 0,000 0,054 0,172
Sportif 0.032 0.086 0.032
Van 0,000 0,032 0,065
Pour les pourcentages de ligne, la valeur doit être 1, et pour les pourcentages de colonne, la valeur doit être entrée comme 2 dans la commande précédente:
> prop.table (contTable, 1)
Pilote conducteur et passager seulement
Compact 0,12 0,56 0,31
Grand 0,36 0,64 0,00
Taille moyenne 0,32 0,50 0,18
Petit 0.00 0.24 0.76
Sportif 0.21 0.57 0.21
Van 0,00 0,33 0,67
> prop.table (contTable, 2)
Pilote conducteur et passager seulement
Compact 0,125 0,209 0,147
Grand 0.250 0.163 0.000
Taille moyenne 0,438 0,256 0,118
Petit 0,000 0,110 0,471
Sportif 0.188 0.186 0.088
Van 0,000 0,070 0,176
Le résumé du tableau de contingence effectue un test d'indépendance du chi carré entre les deux variables catégorielles:
> résumé (contTable)
Nombre de cas dans le tableau: 93 Nombre de facteurs: 2
Testez l'indépendance de tous les facteurs:
Chisq = 33, df = 10, p-value = 3e-04 L'approximation du Chi-carré peut être incorrecte
Le test du khi-deux de l'indépendance pour tous les facteurs est représenté précédemment. Le message que l'approximation du khi-carré peut être incorrecte est dû à la présence de valeurs nulles ou inférieures à 5 dans les cellules du tableau de contingence. Comme dans le cas précédent, deux variables aléatoires, type voiture et airbags, peuvent être indépendantes si la distribution de probabilité d'une variable n'a pas d'impact sur la distribution de probabilité de l'autre variable. L'hypothèse nulle pour le test de l'indépendance du khi carré est que deux variables sont indépendantes l'une de l'autre. Puisque la valeur p du test est inférieure à 0,05, au niveau de signification de 5%, nous pouvons rejeter l'hypothèse nulle que les deux variables sont indépendantes. Par conséquent, la conclusion est que le type de voiture et les airbags ne sont pas indépendants les uns des autres; ils sont assez liés ou dépendants.
Au lieu de deux variables, que se passe-t-il si nous ajoutons une dimension supplémentaire au tableau de contingence? Prenons Origin, et la table ressemblerait à ceci:

> contTable <-table (Cars93 $ Type, Cars93 $ Airbags, Cars93 $ Origine)
> contTable,, = USA
Pilote conducteur et passager seulement
Compact 1 2 4
Grand 4 7 0
Taille moyenne 2 5 3
Petit 0 2 5
Sportif 2 5 1
Van 0 2 3
,, = non-USA
Pilote conducteur et passager seulement Aucun Compact 1 7 1 Grand 0 0 0
Taille moyenne 5 6 1 Petit 0 3 11 Sporty 1 3 2 Van 0 1 3
La commande de résumé pour le test d'indépendance de tous les facteurs peut être utilisée pour tester l'hypothèse nulle:
> résumé (contTable)
Nombre de cas dans le tableau: 93 Nombre de facteurs: 3
Testez l'indépendance de tous les facteurs:
Chisq = 65, df = 27, p-value = 5e-05 L'approximation du Chi-carré peut être incorrecte
En dehors des méthodes graphiques discutées précédemment, il existe des tests statistiques numériques qui peuvent être utilisés pour savoir si une variable est normalement distribuée ou non. Il y a une bibliothèque appelée norm.test pour effectuer des tests de normalité des données, une liste de fonctions qui aident à évaluer la normalité des données de cette bibliothèque sont listées comme suit:
ajb.norm.test Test de Jarque-Bera ajusté pour la normalité
frosini.norm.test Frosini test de normalité
geary.norm.test Test de Geary pour la normalité
hegazy1.norm.test Test de Hegazy-Green pour la normalité
hegazy2.norm.test Test de Hegazy-Green pour la normalité
jb.norm.test Test de Jarque-Bera pour la normalité
kurtosis.norm.test Test de kurtosis pour la normalité
skewness.norm.test Test de skewness pour la normalité
Spiegelhalter.norm.test Spiegelhalter test de normalité
wb.norm.test Test de Weisberg-Bingham pour la normalité

test d'ad.test Anderson-Darling pour la normalité
cvm.test Test de Cramer-von Mises pour la normalité
lillie.test Lilliefors (Kolmogorov-Smirnov) test de normalité
pearson.test Test de chi-carré de Pearson pour la normalité
test de sf.test Shapiro-Francia pour la normalité

> bibliothèque (nortest)
> ad.test (Cars93 $ Prix) # test Anderson-Darling test de normalité Anderson-Darling
données: Cars93 $ Prix A = 3, p-value = 9e-07
> cvm.test (Cars93 $ Prix) # test de Cramer-von Mises test de normalité de Cramer-von Mises
données: Cars93 $ Prix W = 0.5, p-value = 6e-06
> lillie.test (Cars93 $ Prix) # Lilliefors (KS) test Lilliefors (Kolmogorov-Smirnov) données de test de normalité: Cars93 $ Prix
D = 0,2, valeur p = 1e-05
> pearson.test (Cars93 $ Prix) # Test de normalité chi carré Pearson chi carré
données: Cars93 $ Prix P = 30, p-value = 3e-04
> sf.test (Cars93 $ Prix) # Shapiro-Francia test Test de normalité Shapiro-Francia
données: Cars93 $ Prix
D'après les tests mentionnés précédemment, il est évident que la variable Price n'est pas normalement distribuée car les valeurs p de tous les tests statistiques sont inférieures à 0,05. Si nous ajoutons plus de dimensions à la relation bivariée, cela devient une analyse multivariée. Essayons de comprendre la relation entre la puissance et la longueur d'une voiture à partir de l'ensemble de données Cars93:

> bibliothèque (corrplot)
> o <-cor (Cars93 [, c ("Puissance", "Longueur")])
> corrplot (o, méthode = "circle", main = "Tracé de corrélation")
m
LZJ
Lorsque nous incluons plus de variables, cela devient une relation multivariée. Essayons de tracer une relation multivariée entre différentes variables de l'ensemble de données Cars93:
> bibliothèque (corrplot)
> t <-
cor (Cars93 [, c ("Prix", "MPG.city", "RPM", "Rev.per.mile", "Largeur", "Poids", "Hor
sepower "," Longueur ")])
> corrplot (t, méthode = "ellipse")
 

Il existe diverses méthodes qui peuvent être transmises en tant qu'argument au graphe de corrélation. Ils
sont "cercle", "carré", "ellipse", "nombre", "ombre", "couleur" et "tarte".