L'hypothèse nulle indique que rien ne s'est passé, les moyennes sont constantes et ainsi de suite. Cependant, l'hypothèse alternative indique que quelque chose de différent est arrivé et que les moyens sont différents pour une population. Il y a certaines étapes dans la réalisation d'un test d'hypothèse:
1. Énoncez l'hypothèse nulle: Une affirmation sur la population est supposée; par exemple, le kilométrage moyen des voitures dans une ville est de 40.
2. Énoncez l'hypothèse alternative: Si l'hypothèse nulle s'avère être fausse, alors quelle autre possibilité existe-t-il? Par exemple, si le kilométrage dans la ville n'est pas 40, alors est-il supérieur à 40 ou inférieur à 40? S'il n'est pas égal à 40, il s'agit d'une hypothèse alternative non directionnelle.
3. Calculez la statistique de test de l'échantillon: La statistique de test peut être t-test, f-test, z-test, etc. Sélectionnez la statistique de test appropriée en fonction de la disponibilité des données et de l'hypothèse déclarée précédemment.
4. Décidez de la limite de confiance: Il existe trois limites de confiance différentes: 90%,
95% et 99% selon le degré d'exactitude lié à un problème commercial spécifique. Il appartient au chercheur / analyste de choisir le niveau d'intervalle de confiance.
5. Définissez la valeur alpha: Si le niveau de confiance sélectionné est de 95%, la valeur alpha va être de 5%. Par conséquent, décider de la valeur alpha aiderait à calculer la valeur p pour le test.
6. Décision: Si la valeur p sélectionnée est inférieure au niveau alpha, il y a des preuves que l'hypothèse nulle peut être rejetée; si ce n'est pas le cas, nous allons accepter l'hypothèse nulle.
En utilisant la procédure de test d'hypothèse, prenons un exemple de l'ensemble de données Cars93 pour tester la moyenne de la population.
Un test de queue de moyenne avec variance connue
Supposons que le chercheur affirme que le kilométrage moyen donné par toutes les voitures collectées dans l'échantillon est supérieur à 35. Dans l'échantillon de 93 voitures, on observe que le kilométrage moyen de toutes les voitures est de 29. Si vous acceptez ou rejetez la demande du chercheur ?
Hypothèse nulle: moyenne = 35
Hypothèse alternative = moyenne> 35> mu <-mean (Cars93 $ MPG.highway)
> mu [1] 29
> sigma <-sd (Cars93 $ MPG.highway)
> sigma [1] 5,3
> n <-length (Cars93 $ MPG.highway)
> n [1] 93
> xbar = 35
> z <- (xbar-mu) / (sigma / sqrt (n))
> z [1] 11
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm (1-alpha)
> z1 [1] 1,6
> ifelse (z> z1, "rejeter l'hypothèse nulle", "accepter l'hypothèse nulle") Hypothèse nulle: moyenne = 35
Hypothèse alternative = moyenne <35
Test de queue de moyenne, avec variance connue:> mu <-mean (Cars93 $ MPG.highway)
> mu
[1] 29.09
> sigma <-sd (Cars93 $ MPG.highway)
> sigma [1] 5,332
> n <-length (Cars93 $ MPG.highway)
> n [1] 93
> xbar = 35
> z <- (xbar-mu) / (sigma / sqrt (n))
> z
[1] 10,7
>
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm ((1-alpha) / 2))
Erreur: inattendue ')' dans "z1 = qnorm ((1-alpha) / 2))"
> c (-z1, z1)
[1] -1,96 1,96
>
>
> ifelse (z> z1 | z <-z1, "Rejeter l'hypothèse nulle", "Accepter l'hypothèse nulle")
La façon dont nous avons analysé le test unilatéral et bilatéral de la population signifie pour les données de l'échantillon dans le cas de la variance connue.
En utilisant l'ensemble de données Cars93, supposons que 40% des voitures fabriquées aux États-Unis ont un RPM supérieur à 5000. D'après les données de l'échantillon, nous avons constaté que 17 voitures sur 57 ont un RPM supérieur à 5000. Qu'est-ce que vous interprétez?
> kilométrage <-subset (Cars93, Cars93 $ RPM> 5000)
> table (kilométrage $ Origine)
USA non-USA
17 40
> p1 <-17/57
> p0 <- 0,4
> n <- longueur (kilométrage)
> z <- (p1-p0) / sqrt (p0 * (1-p0) / n)
> z
[1] -1.079
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm (1-alpha)
> z1
[1] 1,645
> ifelse (z> z1, "rejeter l'hypothèse nulle", "accepter l'hypothèse nulle") [1] "accepter l'hypothèse nulle"
Si l'hypothèse alternative n'est pas directionnelle, il s'agit d'un test bilatéral de proportions; rien du calcul précédent ne changerait sauf le calcul de la valeur critique. Le script détaillé est donné comme suit:
> kilométrage <-subset (Cars93, Cars93 $ RPM> 5000)
> table (kilométrage $ Origine)
USA non-USA
17 40
> p1 <-17/57
> p0 <- 0,4
> n <- longueur (kilométrage)
> z <- (p1-p0) / sqrt (p0 * (1-p0) / n)
> z
[1] -1.079
> #computer la valeur critique au niveau alpha de 5%
> alpha = 0,05
> z1 = qnorm (1-alpha / 2)
> c (-z1, z1)
[1] -1,96 1,96
> ifelse (z> z1 | z <-z1, "Rejeter l'hypothèse nulle", "Accepter l'hypothèse nulle")
[1] "Accepter l'hypothèse nulle"
• Deux échantillons appariés pour les données continues: L'hypothèse nulle qui est testée dans le test apparié à deux échantillons serait qu'il n'y a pas d'impact d'une procédure sur les sujets, le traitement n'a aucun effet sur les sujets, et ainsi de suite. L'hypothèse alternative serait qu'il y ait un impact statistiquement significatif d'une procédure, l'efficacité d'un traitement ou d'un médicament sur les sujets.
Bien que nous n'ayons pas une telle variable dans l'ensemble de données Cars93, nous pouvons toujours supposer la relation appariée entre les prix minimums et les prix maximum pour différentes marques de voitures.
• Hypothèse nulle pour le test t à deux échantillons: il n'y a pas de différence dans les prix moyens.
• Hypothèse alternative: Il existe une différence dans les prix moyens:
> t.test (Cars93 $ Min.Price, Cars93 $ Max.Prix, jumelé = T)
Test t apparié
données: Cars93 $ Prix min.et Cars93 $ Prix max t = -9.6, df = 92, p-value = 2e-15
Hypothèse alternative: la vraie différence de moyennes n'est pas égale à 0 Intervalle de confiance à 95%:
-5,765 -3,781 estimations de l'échantillon: moyenne des différences -4,773
La valeur p est inférieure à 0,05. Par conséquent, on peut conclure que la différence entre le prix minimum moyen et le prix maximum est statistiquement significative au niveau de confiance alpha de 95%.
• Deux échantillons de test non appariés pour les données continues: À partir de l'ensemble de données Cars93, le kilométrage sur l'autoroute et dans la ville est supposé être différent. Si la différence est statistiquement significative, peut être testé en utilisant le test t des échantillons indépendants pour la comparaison des moyennes.
• Hypothèse nulle: Il n'y a pas de différence dans le MPG sur autoroute et MPG dans ville.
• Hypothèse alternative: Il y a une différence dans le MPG sur autoroute et MPG dans la ville:
Welch Deux échantillons t-test
données: Cars93 $ MPG.city et Cars93 $ MPG.highway
t = -8,4, df = 180, p-valeur = 1e-14
Hypothèse alternative: la vraie différence de moyennes n'est pas égale à 0 Intervalle de confiance à 95%:
-8.305 -5.136 estimations de l'échantillon: moyenne de x moyenne de y 22.37 29.09
À partir du test t à deux échantillons, lorsque les deux échantillons sont indépendants, la valeur p est inférieure à 0,05; par conséquent, nous pouvons rejeter l'hypothèse nulle qu'il n'y a aucune différence dans le kilométrage moyen sur la route et dans la ville. Il y a une différence statistiquement significative dans le kilométrage moyen dans la ville et sur la route. Cela peut être représenté d'une manière légèrement différente, en mettant une hypothèse nulle, la différence de kilométrage moyen dans la ville est différente pour les voitures manuelles par rapport aux voitures automatiques:
Welch Deux échantillons t-test
données: Cars93 $ MPG.city par Cars93 $ Man.trans.avail t = -6, df = 84, p-value = 4e-08
Hypothèse alternative: la vraie différence de moyennes n'est pas égale à 0 Intervalle de confiance à 95%:
-6.949 -3.504 estimations de l'échantillon:
moyenne dans le groupe Non moyenne dans le groupe Oui 18,94 24,16
Ainsi, la conclusion du test précédent est qu'il existe une différence statistiquement significative dans le kilométrage moyen entre les types de véhicules à transmission automatique et manuelle; c'est parce que la valeur p est inférieure à 0,05.
Avant d'appliquer le test t, il est important de vérifier la normalité des données; la normalité d'une variable peut être évaluée en utilisant la fonction de test de Shapiro:
> shapiro.test (Cars93 $ MPG.city)
Données de test de normalité Shapiro-Wilk: Cars93 $ MPG.city
W = 0,8 6, p-value = 6e-08)
> qqline (Cars93 $ MPG.city)
En regardant le graphique QQ pour la lignée par gallon dans la ville et l'histogramme, on peut conclure que la variable n'est pas normalement distribuée. Étant donné que la variable de kilométrage n'est pas distribuée normalement, il est nécessaire d'appliquer des méthodes non paramétriques telles que le test de rang signé Wilcoxon ou le test de Kolmogorov-Smirnov.