Les niveaux de référence font toute la différence dans l'interprétation des résultats de la régression logistique. La variable dépendante a un niveau de référence  et les variables prédictives ou indépendantes catégoriques (facteurs) ont aussi des niveaux de référence.

Les niveaux de référence pour les variables prédictives sont parallèles à la pratique courante dans la régression MCO consistant à omettre un niveau d'une variable catégorique lors de la création d'un ensemble de variables nominales, où la catégorie laissée pour compte est le niveau de référence. Une estimation de paramètre (coefficient b) sera produite pour toutes les catégories sauf la catégorie de référence.
Les paquets statistiques offrent différents types de contrastes (codage) pour les facteurs et ont des défauts différents. Certains paquets statistiques permettent de retourner l'ordre de sorte que "premier" et "dernier" sont inversés.
Le codage de l'indicateur, également appelé codage de référence, est le type de contraste le plus courant. Si la présence du cas dans la catégorie donnée est mise en contraste avec l'absence d'appartenance à la catégorie, le codage de l'indicateur est utilisé.


SPSS
La définition de la catégorie de référence (contraste) pour un facteur (prédicteur catégoriel) dans SPSS varie selon le type d'analyse. Plus précisément, les variables dichotomiques et catégorielles peuvent être saisies en tant que facteurs, mais sont traitées différemment par défaut dans la régression binaire ou multinomiale.
Régression logistique binaire
Dans la régression logistique binaire, après avoir déclaré qu'une variable est catégorielle, l'utilisateur a la possibilité de déclarer la première ou la dernière valeur comme catégorie de référence.
Le codage des indicateurs est la valeur par défaut, mais cela peut être modifié par le chercheur. Dans la régression binaire avec SPSS, différents contrastes de codage sont sélectionnés lorsque les variables sont déclarées catégoriques comme décrit ci-dessus. Attention: le chercheur doit cliquer sur le bouton "Modifier" après avoir sélectionné le contraste dans le menu déroulant: ne cliquez pas simplement sur le bouton "Continuer".

 

Régression logistique multinomiale
Dans la régression logistique multinomiale avec SPSS, la dernière catégorie (la plus codée) est la catégorie de référence. Autrement dit, les contrastes / codages d'indicateurs sont utilisés et les paramétrisations alternatives ne sont pas disponibles. Les catégories de référence de facteur ne peuvent pas être modifiées. Si le chercheur préfère une autre catégorie à la catégorie de référence factorielle dans la régression logistique multinomiale dans SPSS, le chercheur doit soit (1) recoder préalablement les variables pour rendre la catégorie de référence désirée la dernière, soit (2) créer manuellement des variables fictives à exécuter l'analyse.

SAS
PROC LOGISTIC
La commande PROC LOGISTIC de SAS offre un éventail d'options de contraste. Les options sont définies par PARAM  dans l'instruction CLASS. Le codage d'effet, également appelé codage d'écart, est la valeur par défaut si elle n'est pas remplacée par une spécification PARAM =. Le codage de l'effet de note (déviation) est différent de la valeur par défaut de SPSS, qui est le codage de référence (indicateur).
PARAM = Codage
EFFET
Codage d'effet (déviation de codage), qui est la valeur par défaut dans le codage des cellules de référence à codage incomplet SAS (ce mot-clé ne peut être utilisé que dans une option globale)
Paramétrage cumulatif pour une variable de classe CLASS Codage polynomial
Codage de cellule de référence (codage d'indicateur)
Orthogonalise le codage PARAM = EFFECT
Orthogonalise le codage PARAM = ORDINAL
Orthogonalizes PARAM = codage POLYNOMIAL Orthogonalizes PARAM = codage REFERENCE
Dans PROC LOGISTIC, l'instruction CLASS déclare des variables catégorielles. Et son option ORDER = définit l'ordre de tri des niveaux de facteur et détermine ainsi la "dernière" catégorie. La valeur par défaut est ORDER = INTERNAL, qui commande les niveaux par leurs valeurs codées à l'origine et correspond également à la valeur par défaut de SPSS. Les alternatives sont:
• ORDER = FREQ: les niveaux sont classés par fréquence. C'est la régression multinomiale par défaut de Stata
• ORDER = DATA: les niveaux sont classés en fonction de leur apparence dans l'ensemble de données.
• ORDER = FORMATTED: Les niveaux sont ordonnés comme spécifié par une procédure PROC FORMAT antérieure dans SAS. S'il n'y a pas eu de procédure préalable, SAS utilise par défaut ORDER = INTERNAL
Le chercheur peut déterminer si la première ou la dernière valeur ordonnée est le niveau de référence dans PROC LOGISTIC en ajoutant une spécification REF = FIRST ou REF = LAST à l'instruction CLASS. REF = LAST est la valeur par défaut.


PROC CATMOD
PROC CATMOD, souvent utilisé pour la régression logistique multinomiale, utilise par défaut le codage d'écart (effet) avec la dernière valeur (codée la plus élevée) comme référence
Catégorie. Le codage d'écart est discuté ci-dessous dans la section FAQ. Notez que ceci diffère de la valeur par défaut de SPSS, qui est le codage d'indicateur. Dans l'instruction SAS MODEL pour PROC CATMOD, en utilisant l'option PARAM = REFERENCE plutôt que d'accepter la valeur par défaut, qui est PARAM = EFFECT, le chercheur peut substituer le codage de référence, également appelé codage d'indicateur et également discuté ci-dessous.
Dans l'instruction de commande PROC CATMOD elle-même (pas dans une instruction CLASS comme dans PROC LOGISTIC), l'option ORDER = définit l'ordre de tri des niveaux de facteur et détermine ainsi la «dernière» catégorie. La valeur par défaut est ORDER = INTERNAL, qui commande les niveaux par leurs valeurs codées à l'origine et correspond également à la valeur par défaut de SPSS. Les alternatives sont celles décrites ci-dessus pour PROC LOGISTIC.

Les spécifications PARAM = et ORDER = apparaissent dans l'exemple de régression multinomiale SAS ci-dessous.



Stata
Régression logistique binaire

Dans la commande logistique, le niveau le plus bas d'un facteur est le niveau de référence par défaut (le contraire de SPSS). Si la variable "matrimonial" est l'état matrimonial, codé 1 = Marié, 2 = Veuf, 3 = Divorcé, 4 = Séparé, et 5 = Jamais Marié, par défaut "Marié" sera le niveau de référence et il n'y aura pas de ligne pour en sortie d'estimations de paramètres ou de rapports de cotes. Cependant, ceci peut être changé en utilisant des préfixes à "conjugal":
logistic depvar i.marital: Le préfixe «I» déclare que le matrimonial est une variable catégorielle, le niveau le plus bas étant le niveau de référence par défaut.
logistique depvar ib5.marital: Le préfixe "ib5" remplace la valeur par défaut et rend le niveau le plus élevé, qui est 5, le niveau de référence. Le "i" peut être omis.
Le codage de l'indicateur est utilisé dans la valeur par défaut de Stata, comme dans la valeur par défaut de SPSS.


Régression logistique multinomiale
Dans la commande mlogit, le niveau de facteur le plus bas est le niveau de référence par défaut. D'autres niveaux peuvent être spécifiés à la place de la même manière que pour la régression logistique binaire. Le codage d'indicateur est utilisé par défaut.