Résumé | Bon nombre d'algorithmes d'exploration de données et d'apprentissage machine requièrent des bases de données dans lesquelles les objets sont décrits d'après des attributs discrets. Il arrive toutefois très souvent que les attributs soient dans les échelles de rapport ou d'intervalle. Afin d'appliquer ces algorithmes, les attributs d'origine doivent être transformés par discrétisation en échelle nominale ou ordinale. Une transformation convenable est essentielle, étant donné sa grande influence sur les résultats obtenus des procédures d'exploration de données. Le présent document décrit une technique hybride de discrétisation surveillée simultanée des attributs continus, d'après des algorithmes évolutifs, en particulier des stratégies d'évolution (SE), qui sont combinés à la théorie des ensembles bruts et à la théorie de l'information. On vise ainsi à construire un modèle de discrétisation pour tous les attributs continus simultanément (c.-à-d. globalement), de manière à maximiser la prévisibilité des classes discrètes produites pour les variables explicatives. La démarche des SE est appliquée à 17 ensembles de données publics, puis les résultats sont comparés aux méthodes de discrétisation classiques. Non seulement la discrétisation fondée sur des SE dépasse ces méthodes, mais donne des modèles de données beaucoup plus simples et permet de découvrir les attributs non pertinents. Les techniques de discrétisation classiques ne comportent pas ces particularités. |
---|