Résumé | L'estimation exacte de la probabilité générée par des modèles d'apprentissage est souhaitable pour certaines applications pratiques telles que les diagnostics médicaux. Dans le présent article, nous étudions de façon empirique les modèles classiques d'apprentissage par arbres de décision et leurs variantes en termes d'estimation de la probabilité, mesurée à l'aide d'un logarithme de la fonction de vraisemblance conditionnelle (<em>Conditional Log Likelihood</em>, CLL). De plus, nous comparons également l'apprentissage par arbres décisionnels avec d'autres types d'apprentissage : bayésien naïf, arbre naïf de Bayes, réseau bayésien, K-plus proches voisins et machine à vecteurs de support relativement à l'estimation de la probabilité. D'après nos expériences, nous pouvons faire plusieurs observations intéressantes. D'abord, parmi les modèles d'apprentissage par arbres de décision, C4.4 est le meilleur puisqu'il permet une estimation précise de la probabilité à l'aide du CLL, bien qu'il ne soit pas aussi performant à l'égard d'autres critères d'évaluation, notamment l'exactitude et la classification. Nous en fournissons une explication et nous révélons la nature du logarithme de la fonction de vraisemblance conditionnelle. Deuxièmement, par rapport à d'autres modèles populaires, le C4.4 permet d'obtenir le meilleur logarithme de la fonction de vraisemblance conditionnelle. Enfin, le logarithme de la fonction de vraisemblance conditionnelle ne surclasse pas une autre méthode éprouvée et pertinente de mesure, celle de l'aire sous la courbe (ASC) de la fonction d'efficacité du récepteur (ROC), qui indique que différents modèles d'apprentissage par arbres de décision devraient être utilisés pour différents objectifs. Nos expériences sont menées d'après 36 ensembles d'échantillons de niveau de confiance élevé qui couvrent une gamme étendue de domaines et de caractéristiques pour les données. Nous mettons à l'essai tous les modèles à l'aide d'une plate-forme d'apprentissage automatique Weka. |
---|