Lorsqu'un ensemble de données d'apprentissage n'est pas conforme à une distribution de probabilité spécifique en raison du non-respect des hypothèses de cette distribution de probabilité spécifique, la seule option qui reste pour analyser les données est par des méthodes non paramétriques. Les méthodes non paramétriques ne suivent aucune hypothèse concernant la distribution de probabilité. En utilisant des méthodes non-paramétriques, on peut faire des inférences et effectuer des tests d'hypothèses sans adhérer à aucune hypothèse. Examinons maintenant un ensemble de tests sur-paramétriques qui peuvent être utilisés lorsqu'un ensemble de données n'est pas conforme aux hypothèses d'une distribution de probabilité spécifique.
Test de Wilcoxon
Si l'hypothèse de normalité est violée, il est alors nécessaire d'appliquer des méthodes non paramétriques afin de répondre à une question telle que: existe-t-il une différence de kilométrage moyen dans la ville entre les voitures de type automatique et manuelle?
> wilcox.test (Cars93 $ MPG.city ~ Cars93 $ Man.trans.avail, correct = F)
Test de somme de Wilcoxon
données: Cars93 $ MPG.city par Cars93 $ Man.trans.avail W = 380, p-value = 1e-06
L'argument apparié peut être utilisé si les deux échantillons correspondent à des paires et que les échantillons ne suivent pas les hypothèses de normalité:
> wilcox.test (Cars93 $ MPG.city, Cars93 $ MPG.highway, jumelé = T)
Test de rang signé Wilcoxon avec données de correction de continuité: Cars93 $ MPG.city et Cars93 $ MPG.highway V = 0, p-value <2e-16
hypothèse alternative: le décalage d'emplacement réel n'est pas égal à 0
Test de Mann-Whitney-Wilcoxon
Si deux échantillons ne sont pas appariés, sont indépendants et ne suivent pas une distribution normale, il est nécessaire d'utiliser le test de Mann-Whitney-Wilcoxon pour tester l'hypothèse que la différence moyenne dans les deux échantillons sont statistiquement significativement différentes:
> wilcox.test (Cars93 $ MPG.city ~ Cars93 $ Man.trans.avail, data = Cars93)
Test de la somme des rangs de Wilcoxon avec les données de correction de continuité: Cars93 $ MPG.city par Cars93 $ Man.trans.avail W = 380, p-value = 1e-06
hypothèse alternative: le décalage d'emplacement réel n'est pas égal à 0
Kruskal-Wallis test
Pour comparer les moyennes de plus de deux groupes, c'est-à-dire le côté non-paramétrique de l'analyse ANOVA, on peut utiliser le test de Kruskal-Wallis. Il est également connu sous le nom de test statistique sans distribution:
> kruskal.test (Cars93 $ MPG.city ~ Cars93 $ Cylindres, data = Cars93)
Kruskal-Wallis test de somme
données: Cars93 $ MPG.city par Cars93 $ Cylindres
Kruskal-Wallis khi carré = 68, df = 5, p-valeur = 3e
L'hypothèse nulle indique que rien ne s'est passé, les moyennes sont constantes et ainsi de suite. Cependant, l'hypothèse alternative indique que quelque chose de différent est arrivé et que les moyens sont différents pour une population. Il y a certaines étapes dans la réalisation d'un test d'hypothèse:
1. Énoncez l'hypothèse nulle: Une affirmation sur la population est supposée; par exemple, le kilométrage moyen des voitures dans une ville est de 40.
2. Énoncez l'hypothèse alternative: Si l'hypothèse nulle s'avère être fausse, alors quelle autre possibilité existe-t-il? Par exemple, si le kilométrage dans la ville n'est pas 40, alors est-il supérieur à 40 ou inférieur à 40? S'il n'est pas égal à 40, il s'agit d'une hypothèse alternative non directionnelle.
3. Calculez la statistique de test de l'échantillon: La statistique de test peut être t-test, f-test, z-test, etc. Sélectionnez la statistique de test appropriée en fonction de la disponibilité des données et de l'hypothèse déclarée précédemment.
4. Décidez de la limite de confiance: Il existe trois limites de confiance différentes: 90%,
95% et 99% selon le degré d'exactitude lié à un problème commercial spécifique. Il appartient au chercheur / analyste de choisir le niveau d'intervalle de confiance.
5. Définissez la valeur alpha: Si le niveau de confiance sélectionné est de 95%, la valeur alpha va être de 5%. Par conséquent, décider de la valeur alpha aiderait à calculer la valeur p pour le test.
6. Décision: Si la valeur p sélectionnée est inférieure au niveau alpha, il y a des preuves que l'hypothèse nulle peut être rejetée; si ce n'est pas le cas, nous allons accepter l'hypothèse nulle.
En regardant le graphique QQ pour la lignée par gallon dans la ville et l'histogramme, on peut conclure que la variable n'est pas normalement distribuée. Étant donné que la variable de kilométrage n'est pas distribuée normalement, il est nécessaire d'appliquer des méthodes non paramétriques telles que le test de rang signé Wilcoxon ou le test de Kolmogorov-Smirnov.
Les tables de contingence sont des tables de fréquence représentées par deux variables catégorielles ou plus avec la proportion de chaque classe représentée en tant que groupe. La table de fréquence est utilisée pour représenter une variable catégorielle; cependant, un tableau de contingence est utilisé pour représenter deux variables catégorielles.
> table (Type Cars93 $)
Grande camionnette sportive compacte de taille moyenne
16 11 22 21 14 9
> table (Cars93 $ AirBags)
Pilote conducteur et passager seulement
16 43 34
La table de fréquence individuelle pour deux variables catégorielles AirBags et Type de la voiture est représentée précédemment:
> contTable <-table (Cars93 $ Type, Cars93 $ Airbags)
> contTable
Pilote conducteur et passager seulement
Compact 2 9 5
Grand 4 7 0
Taille moyenne 7 11 4
Petit 0 5 16
Sportif 3 8 3
Van 0 3 6
L'objet conTable contient la tabulation croisée de deux variables. La proportion de chaque cellule en pourcentage est reflétée dans le tableau suivant. Si nous devons calculer les pourcentages de ligne ou les pourcentages de colonne, il est nécessaire de spécifier les valeurs dans l'argument:
> prop.table (contTable)
Pilote conducteur et passager seulement
Compact 0.022 0.097 0.054
Grand 0,043 0,075 0,000
Taille moyenne 0,075 0,118 0,043
Petit 0,000 0,054 0,172
Sportif 0.032 0.086 0.032
Van 0,000 0,032 0,065
Pour les pourcentages de ligne, la valeur doit être 1, et pour les pourcentages de colonne, la valeur doit être entrée comme 2 dans la commande précédente:
> prop.table (contTable, 1)
Pilote conducteur et passager seulement
Compact 0,12 0,56 0,31
Grand 0,36 0,64 0,00
Taille moyenne 0,32 0,50 0,18
Petit 0.00 0.24 0.76
Sportif 0.21 0.57 0.21
Van 0,00 0,33 0,67
> prop.table (contTable, 2)
Pilote conducteur et passager seulement
Compact 0,125 0,209 0,147
Grand 0.250 0.163 0.000
Taille moyenne 0,438 0,256 0,118
Petit 0,000 0,110 0,471
Sportif 0.188 0.186 0.088
Van 0,000 0,070 0,176
Le résumé du tableau de contingence effectue un test d'indépendance du chi carré entre les deux variables catégorielles:
> résumé (contTable)
Nombre de cas dans le tableau: 93 Nombre de facteurs: 2
Testez l'indépendance de tous les facteurs:
Chisq = 33, df = 10, p-value = 3e-04 L'approximation du Chi-carré peut être incorrecte
Le test du khi-deux de l'indépendance pour tous les facteurs est représenté précédemment. Le message que l'approximation du khi-carré peut être incorrecte est dû à la présence de valeurs nulles ou inférieures à 5 dans les cellules du tableau de contingence. Comme dans le cas précédent, deux variables aléatoires, type voiture et airbags, peuvent être indépendantes si la distribution de probabilité d'une variable n'a pas d'impact sur la distribution de probabilité de l'autre variable. L'hypothèse nulle pour le test de l'indépendance du khi carré est que deux variables sont indépendantes l'une de l'autre. Puisque la valeur p du test est inférieure à 0,05, au niveau de signification de 5%, nous pouvons rejeter l'hypothèse nulle que les deux variables sont indépendantes. Par conséquent, la conclusion est que le type de voiture et les airbags ne sont pas indépendants les uns des autres; ils sont assez liés ou dépendants.
Au lieu de deux variables, que se passe-t-il si nous ajoutons une dimension supplémentaire au tableau de contingence? Prenons Origin, et la table ressemblerait à ceci:
test d'ad.test Anderson-Darling pour la normalité
cvm.test Test de Cramer-von Mises pour la normalité
lillie.test Lilliefors (Kolmogorov-Smirnov) test de normalité
pearson.test Test de chi-carré de Pearson pour la normalité
test de sf.test Shapiro-Francia pour la normalité
> bibliothèque (nortest)
> ad.test (Cars93 $ Prix) # test Anderson-Darling test de normalité Anderson-Darling
données: Cars93 $ Prix A = 3, p-value = 9e-07
> cvm.test (Cars93 $ Prix) # test de Cramer-von Mises test de normalité de Cramer-von Mises
données: Cars93 $ Prix W = 0.5, p-value = 6e-06
> lillie.test (Cars93 $ Prix) # Lilliefors (KS) test Lilliefors (Kolmogorov-Smirnov) données de test de normalité: Cars93 $ Prix
D = 0,2, valeur p = 1e-05
> pearson.test (Cars93 $ Prix) # Test de normalité chi carré Pearson chi carré
données: Cars93 $ Prix P = 30, p-value = 3e-04
> sf.test (Cars93 $ Prix) # Shapiro-Francia test Test de normalité Shapiro-Francia
données: Cars93 $ Prix
D'après les tests mentionnés précédemment, il est évident que la variable Price n'est pas normalement distribuée car les valeurs p de tous les tests statistiques sont inférieures à 0,05. Si nous ajoutons plus de dimensions à la relation bivariée, cela devient une analyse multivariée. Essayons de comprendre la relation entre la puissance et la longueur d'une voiture à partir de l'ensemble de données Cars93:
> bibliothèque (corrplot)
> o <-cor (Cars93 [, c ("Puissance", "Longueur")])
> corrplot (o, méthode = "circle", main = "Tracé de corrélation")
m
LZJ
Lorsque nous incluons plus de variables, cela devient une relation multivariée. Essayons de tracer une relation multivariée entre différentes variables de l'ensemble de données Cars93:
> bibliothèque (corrplot)
> t <-
cor (Cars93 [, c ("Prix", "MPG.city", "RPM", "Rev.per.mile", "Largeur", "Poids", "Hor
sepower "," Longueur ")])
> corrplot (t, méthode = "ellipse")
Il existe diverses méthodes qui peuvent être transmises en tant qu'argument au graphe de corrélation. Ils
sont "cercle", "carré", "ellipse", "nombre", "ombre", "couleur" et "tarte".