Résumé | Les méthodes d'exploration de données multirelationnelles découvrent des structures dans de multiples tables interreliées (relations) dans une base de données relationnelle. Dans de nombreuses grandes organisations, de telles bases de données multirelationnelles couvrent de nombreux secteurs et ou sous-divisions, qui participent à divers aspects des entreprises comme l'établissement des profils des utilisateurs, la détection des fraudes, la gestion des inventaires, la gestion financière et ainsi de suite. Lorsqu'on envisage la classification mutirelationnelle, ces subdivisions expriment des intérêts divers envers les données, ce qui a pour effet qu'il est nécessaire d'explorer divers sous-ensembles de relations pertinentes ayant une grande utilité sur le plan de la catégorie cible. Cet article présente une nouvelle approche d'émondage des relations non intéressantes dans une base de données relationnelle dont les relations proviennent d'origines aussi diversifiées et couvrent de multiples tâches de classification. Nous visons à créer une structure émondée et à minimiser ainsi les pertes de rendement prédictif du modèle de classification final. Notre méthode identifie un ensemble de sous-graphes fortement non corrélés en vue de la formation et elle rejette toutes les autres. Les expériences effectuées montrent que notre stratégie est en mesure de réduire fortement la taille du schéma relationnel sans sacrifier l'exactitude prédictive. |
---|