Résumé | Les bases et entrepôts de données contiennent des volumes faramineux de renseignements que les utilisateurs doivent explorer afin d'extraire des connaissances valables et utilisables afin de prendre des décisions. La présente contribution s'attaque au problème de l'analyse automatique de vastes tables multidimensionnelles afin d'obtenir une représentation concise des données, d'identifier des motifs et d'obtenir des réponses approximatives à des interrogations. Comme les cubes de données ne sont que des tables multidimensionnelles, nous nous proposons d'analyser le potentiel d'une technique de modélisation probabiliste, la « factorisation matricielle multidimensionnelle non négative », afin d'obtenir des approximations de valeurs aggrégatives et multidimensionnelles. Au moyen de cette technique, nous calculons l'ensemble de composantes (grappes) qui correspondra le plus étroitement au jeu de données initial et dont la superposition épouse approximativement les données initiales. Les composantes générées peuvent ensuite être exploitées afin d'obtenir des réponses approximatives à des requêtes OLAP, comme les opérations de récapitulation et de permutation d'axes d'analyse. La technique de modélisation proposée est ensuite comparée à la technique de modélisation log-linéaire qui a déjà été utilisée ailleurs aux fins de compression et de détection des valeurs aberrantes dans les cubes de données. À la fin, trois jeux de données sont utilisés afin de discuter des avantages potentiels de la factorisation matricielle multidimensionnelle non négative. |
---|