Dans les statistiques classiques, un test d'hypothèse concerne la valeur d'un paramètre que nous souhaitons estimer avec nos échantillons de données. Considérons notre exemple précédent du problème des deux
groupes concernant la tentative d'établir si la prise d'une pilule est efficace pour réduire les symptômes des céphalées. S'il n'y avait pas de différence entre le groupe recevant le traitement et le groupe ne recevant pas le traitement, nous nous attendrions à ce que la différence de paramètre soit égale à 0. Nous déclarons ceci comme notre hypothèse nulle:
Hypothèse nulle: La différence moyenne dans la population est égale à 0.
L'hypothèse alternative est que la différence moyenne n'est pas égale à 0. Maintenant, si nos moyennes d'échantillons sont de 50,0 pour le groupe témoin et de 50,0 pour le groupe traité, alors il est évident que nous le faisons ne pas avoir de preuve pour rejeter le null, puisque la différence de 50.0 - 50.0 = 0 s'aligne directement avec l'attente sous le null. Par contre, si les moyennes étaient de 48,0 contre 52,0, pourrions-nous rejeter la null? Oui, il y a certainement une différence d'échantillon entre les groupes, mais avons-nous des preuves d'une différence de population? Il est difficile de dire sans poser la question suivante:
Quelle est la probabilité d'observer une différence telle que 48,0 vs 52,0 sous l'hypothèse nulle sans différence?
Lorsque nous évaluons une hypothèse nulle, c'est le paramètre qui nous intéresse, et non la statistique de l'échantillon. Le fait que nous ayons observé une différence de 4 (soit 52.0-48.0) dans notre échantillon n'indique pas à lui seul que dans la population, le paramètre est inégal à 0. Pour pouvoir rejeter l’hypothèse nulle, il faut avoir une signification test sur la différence moyenne de 48,0 contre 52,0, ce qui implique de calculer (dans ce cas particulier) ce que l'on appelle une erreur standard de la différence des moyennes pour estimer la probabilité de ces différences dans l'échantillonnage répété théorique. Lorsque nous faisons cela, nous comparons une différence observée à une différence à laquelle nous pourrions nous attendre simplement en raison de la variation aléatoire. Pratiquement toutes les statistiques de test suivent la même logique. Autrement dit, nous comparons ce que nous avons observé dans nos échantillons à la variation à laquelle nous nous attendrions dans une hypothèse nulle ou, plus grossièrement, à ce que nous attendions sous la simple "chance". Pratiquement toutes les statistiques de test ont la forme suivante:
Test statistique = observé / attendu
Si la différence observée est importante par rapport à la différence attendue, nous avons alors la preuve qu'une telle différence n'est pas simplement due au hasard et peut représenter une différence réelle dans la population à partir de laquelle les données ont été tirées.
Comme mentionné précédemment, les tests de signification ne sont pas uniquement effectués sur les différences moyennes. Chaque fois que nous souhaitons estimer un paramètre, quel qu’en soit le type, nous pouvons effectuer un test de signification. Par conséquent, lorsque nous effectuons des tests t, des analyses de variance, des régressions, etc., nous calculons continuellement des statistiques d'échantillons et effectuons des tests d'importance sur les paramètres d'intérêt. Chaque fois que vous voyez une sortie telle que "Sig." Dans SPSS avec une valeur de probabilité en dessous, cela signifie qu'un test de signification a été effectué sur cette statistique, qui, comme déjà mentionné, contient la valeur p. Lorsque nous rejetons la valeur nulle à, par exemple, p <0,05, nous le faisons avec un risque d’erreur de type I ou de type II. Nous passons en revue ces prochains, ainsi que les niveaux de signification.