Decision Trees for Probability Estimation: An Empirical Study

Par Conseil national de recherches du Canada

Téléchargement	Voir le manuscrit accepté : Decision Trees for Probability Estimation: An Empirical Study (PDF, 294 Kio)
Auteur	Rechercher : Liang, H.; Rechercher : Zhang, H.; Rechercher : Yan, Y.
Format	Texte, Article
Conférence	The 18th IEEE International Conference on Tools with Artificial Intelligence (ICTAI06), November 13-15, 2006, Washington, DC
Résumé	L'estimation exacte de la probabilité générée par des modèles d'apprentissage est souhaitable pour certaines applications pratiques telles que les diagnostics médicaux. Dans le présent article, nous étudions de façon empirique les modèles classiques d'apprentissage par arbres de décision et leurs variantes en termes d'estimation de la probabilité, mesurée à l'aide d'un logarithme de la fonction de vraisemblance conditionnelle (<em>Conditional Log Likelihood</em>, CLL). De plus, nous comparons également l'apprentissage par arbres décisionnels avec d'autres types d'apprentissage : bayésien naïf, arbre naïf de Bayes, réseau bayésien, K-plus proches voisins et machine à vecteurs de support relativement à l'estimation de la probabilité. D'après nos expériences, nous pouvons faire plusieurs observations intéressantes. D'abord, parmi les modèles d'apprentissage par arbres de décision, C4.4 est le meilleur puisqu'il permet une estimation précise de la probabilité à l'aide du CLL, bien qu'il ne soit pas aussi performant à l'égard d'autres critères d'évaluation, notamment l'exactitude et la classification. Nous en fournissons une explication et nous révélons la nature du logarithme de la fonction de vraisemblance conditionnelle. Deuxièmement, par rapport à d'autres modèles populaires, le C4.4 permet d'obtenir le meilleur logarithme de la fonction de vraisemblance conditionnelle. Enfin, le logarithme de la fonction de vraisemblance conditionnelle ne surclasse pas une autre méthode éprouvée et pertinente de mesure, celle de l'aire sous la courbe (ASC) de la fonction d'efficacité du récepteur (ROC), qui indique que différents modèles d'apprentissage par arbres de décision devraient être utilisés pour différents objectifs. Nos expériences sont menées d'après 36 ensembles d'échantillons de niveau de confiance élevé qui couvrent une gamme étendue de domaines et de caractéristiques pour les données. Nous mettons à l'essai tous les modèles à l'aide d'une plate-forme d'apprentissage automatique Weka.
Date de publication	2006
Dans	The 18th IEEE International Conference on Tools with Artificial Intelligence (ICTAI06) [Proceedings].
Langue	anglais
Numéro du CNRC	NRCC 48783
Numéro NPARC	8913817
Exporter la notice	Exporter en format RIS
Signaler une correction	Signaler une correction (s'ouvre dans un nouvel onglet)
Identificateur de l’enregistrement	b265c491-acd0-4b85-9d44-7aa857525974
Enregistrement créé	2009-04-22
Enregistrement modifié	2020-10-09

Date de modification :: 2025-04-03