Résumé | L'estimation de la probabilité par arbre de décision a reçu beaucoup d'attention, puisqu'une estimation exacte de la probabilité peut permettre d'améliorer l'exactitude de la classification, ainsi que la classification basée sur la probabilité. Dans le présent article, nous cherchons à améliorer la classification basée sur la probabilité dans le paradigme d'arbre de décision, en utilisant l'aire sous la courbe (ASC) comme mesure d'évaluation. Nous utilisons un estimateur paresseux de probabilités à chacune des feuilles afin d'éviter l'attribution de probabilités uniformes. En outre, l'estimateur paresseux des probabilités accorde plus de poids aux échantillons des feuilles plus proches d'un échantillon non étiqueté, de sorte que l'estimation de la probabilité pour cet échantillon non étiqueté est basée sur ses similarités avec les échantillons des feuilles. Cette méthode se justifie par le fait que la classification est une mesure d'évaluation relative dans un ensemble d'échantillons et que, par conséquent, il apparaît raisonnable qu'elle permette de livrer la probabilité d'un échantillon non étiqueté d'après l'ampleur des similarités avec ses voisins. Le nouveau modèle proposé d'arbre de décision, LazyTree, surpasse le modèle C4.5, sa récente amélioration C4.4 et leurs plus récentes variantes dans l'utilisation des ASC, pour une vaste série d'ensembles d'échantillons de référence. |
---|