La variable continue est l'étape la plus appropriée que vous devez prendre avant d'inclure la variable dans le modèle. Ceci peut être expliqué en prenant un exemple de la capacité du réservoir de carburant d'une voiture à partir de l'ensemble de données Cars93. Basé sur la capacité du réservoir de carburant, nous pouvons créer une variable catégorique avec haut, moyen et bas, moyen inférieur:
> range (Cars93 $ Fuel.tank.capacity)
[1] 9,2 27,0
> chat
[1] 9,2 13,2 17,2 21,2 25,2
> options (chiffres = 2)
> t <-cut (Cars93 $ Fuel.tank.capacity, chat)
> as.data.frame (cbind (table (t)))
V1
(9.2.13.2] 19
(13.2.17.2] 33
(17.2.21.2] 36
(21.2.25.2] 3
La plage de capacité du réservoir de carburant est identifiée par 9.2 et 27.0. Ensuite, logiquement, la différence de classe de 4 est utilisée pour arriver aux classes. Ces classes définissent comment chaque valeur de la variable est affectée à chaque groupe. Le tableau des résultats finaux indique qu'il y a 4 groupes; la capacité maximale du réservoir de carburant est disponible sur 4 voitures seulement.
Le binning variable ou la discrétisation aide non seulement à la construction d'arbre de décision, mais est également utile dans le cas du mode de régression logistique et de toute autre forme de modèles basés sur l'apprentissage automatique.
> range (Cars93 $ Fuel.tank.capacity)
[1] 9,2 27,0
> chat
[1] 9,2 13,2 17,2 21,2 25,2
> options (chiffres = 2)
> t <-cut (Cars93 $ Fuel.tank.capacity, chat)
> as.data.frame (cbind (table (t)))
V1
(9.2.13.2] 19
(13.2.17.2] 33
(17.2.21.2] 36
(21.2.25.2] 3
La plage de capacité du réservoir de carburant est identifiée par 9.2 et 27.0. Ensuite, logiquement, la différence de classe de 4 est utilisée pour arriver aux classes. Ces classes définissent comment chaque valeur de la variable est affectée à chaque groupe. Le tableau des résultats finaux indique qu'il y a 4 groupes; la capacité maximale du réservoir de carburant est disponible sur 4 voitures seulement.
Le binning variable ou la discrétisation aide non seulement à la construction d'arbre de décision, mais est également utile dans le cas du mode de régression logistique et de toute autre forme de modèles basés sur l'apprentissage automatique.