Lorsqu'un ensemble de données d'apprentissage n'est pas conforme à une distribution de probabilité spécifique en raison du non-respect des hypothèses de cette distribution de probabilité spécifique, la seule option qui reste pour analyser les données est par des méthodes non paramétriques. Les méthodes non paramétriques ne suivent aucune hypothèse concernant la distribution de probabilité. En utilisant des méthodes non-paramétriques, on peut faire des inférences et effectuer des tests d'hypothèses sans adhérer à aucune hypothèse. Examinons maintenant un ensemble de tests sur-paramétriques qui peuvent être utilisés lorsqu'un ensemble de données n'est pas conforme aux hypothèses d'une distribution de probabilité spécifique.
Test de Wilcoxon
Si l'hypothèse de normalité est violée, il est alors nécessaire d'appliquer des méthodes non paramétriques afin de répondre à une question telle que: existe-t-il une différence de kilométrage moyen dans la ville entre les voitures de type automatique et manuelle?
> wilcox.test (Cars93 $ MPG.city ~ Cars93 $ Man.trans.avail, correct = F)
Test de somme de Wilcoxon
données: Cars93 $ MPG.city par Cars93 $ Man.trans.avail W = 380, p-value = 1e-06
L'argument apparié peut être utilisé si les deux échantillons correspondent à des paires et que les échantillons ne suivent pas les hypothèses de normalité:
> wilcox.test (Cars93 $ MPG.city, Cars93 $ MPG.highway, jumelé = T)
Test de rang signé Wilcoxon avec données de correction de continuité: Cars93 $ MPG.city et Cars93 $ MPG.highway V = 0, p-value <2e-16
hypothèse alternative: le décalage d'emplacement réel n'est pas égal à 0
Test de Mann-Whitney-Wilcoxon
Si deux échantillons ne sont pas appariés, sont indépendants et ne suivent pas une distribution normale, il est nécessaire d'utiliser le test de Mann-Whitney-Wilcoxon pour tester l'hypothèse que la différence moyenne dans les deux échantillons sont statistiquement significativement différentes:
> wilcox.test (Cars93 $ MPG.city ~ Cars93 $ Man.trans.avail, data = Cars93)
Test de la somme des rangs de Wilcoxon avec les données de correction de continuité: Cars93 $ MPG.city par Cars93 $ Man.trans.avail W = 380, p-value = 1e-06
hypothèse alternative: le décalage d'emplacement réel n'est pas égal à 0
Kruskal-Wallis test
Pour comparer les moyennes de plus de deux groupes, c'est-à-dire le côté non-paramétrique de l'analyse ANOVA, on peut utiliser le test de Kruskal-Wallis. Il est également connu sous le nom de test statistique sans distribution:
> kruskal.test (Cars93 $ MPG.city ~ Cars93 $ Cylindres, data = Cars93)
Kruskal-Wallis test de somme
données: Cars93 $ MPG.city par Cars93 $ Cylindres
Kruskal-Wallis khi carré = 68, df = 5, p-valeur = 3e