Résumé | Cet article présente l'Analyse relationnelle latente (ARL), une méthode qui permet de mesurer la similarité relationnelle. L'ARL a des applications éventuelles dans de nombreux domaines, dont l'extraction de l'information, la désambiguation sémantique, la traduction automatique et la recherche documentaire.La similarité relationnelle est la correspondance entre des relations par opposition à la similarité attributionnelle, qui est la correspondance entre des attributs. Lorsque deux mots ont un degré élevé de similarité attributionnelle, on parle de synonymie. Lorsque deux paires de mots ont un degré élevé de similarité relationnelle, on dit que leurs relations sont analogues. Par exemple, la paire maçon/pierre est analogue à la paire menuisier/bois, c'est-à-dire que les relations entre maçon et pierre sont hautement similaires aux relations entre menuisier et bois. Dans le passé, les chercheurs qui ont travaillé sur les mesures de la similarité sémantique se sont surtout intéressés à la similarité attributionnelle. Par exemple, l'Analyse sémantique latente (ASL) peut mesurer le degré de similarité entre deux mots, mais non entre deux relations. Récemment, le modèle de l'espace vectoriel (MEV) de la recherche documentaire a été adapté en vue de mesurer la similarité relationnelle, et a obtenu un taux de succès de 47 % sur une série de 374 questions à choix multiple d'analogie sémantique de niveau collégial. Dans l'approche MEV, la relation entre une paire de mots est caractérisée par un vecteur de fréquences de combinaisons prédéfinies dans un corpus important. L'ARL enrichit l'approche du MEV de trois façons : 1) les combinaisons sont tirées automatiquement du corpus (elles ne sont pas prédéfinies) ; 2) la Décomposition en valeurs singulières (DVS) est utilisée pour lisser les données sur la fréquence (elle est également utilisée à cette fin dans l'analyse sémantique latente), et 3) on a recours à des synonymes générés automatiquement pour explorer des reformulations des paires de mots. L'ARL obtient un taux de succès de 56 % aux 374 questions d'analogie sémantique, ce qui est statistiquement équivalent au résultats humain moyen. Quant au problème connexe lié à la classification des relations noms-épithètes, l'ARL présente des avantages semblables par rapport au MEV tout en utilisant un corpus plus restreint. |
---|