Résumé | Les travaux actuels montrent que les arbres de décision classiques comportent des lacunes inhérentes à l'obtention d'une bonne classification en fonction de la probabilité (par ex. l'aire sous la courbe ou ASC). Le présent article vise à améliorer le rendement de la classification d'après des paradigmes d'arbres décisionnels en présentant deux nouveaux modèles. Nos travaux s'appuient sur l'hypothèse selon laquelle la classification basée sur la probabilité est une mesure relative entre les échantillons et que, par conséquent, des probabilités distinctes sont cruciales pour une classification exacte. Le premier modèle, un modèle d'apprentissage paresseux par arbre de décision basé sur la distance (<em>Lazy Distance-based Tree</em>, LDTree), utilise un système d'apprentissage paresseux à chacune des feuilles, afin de distinguer de façon explicite les différentes contributions des échantillons des feuilles, lors de l'estimation des probabilités pour un échantillon non étiqueté. Le deuxième modèle, un modèle d'apprentissage glouton par arbre de décision basé sur la distance (<em>Eager Distance-based Tree</em>, EDTree), permet d'améliorer le LDTree en lui appliquant un algorithme glouton. Dans les deux modèles, on attribue à chaque échantillon non étiqueté un ensemble de probabilités uniques d'appartenance à une classe, plutôt qu'un ensemble de probabilités uniformisées, ce qui permet d'obtenir une meilleure résolution pour différencier les échantillons, et ainsi d'améliorer la classification. Pour 34 ensembles d'échantillons de niveau de confiance élevé, nos expériences démontrent que nos modèles surpassent considérablement les modèles C4.5, C4.4 et d'autres méthodes normalisées de lissage conçues pour l'amélioration de la classification. |
---|