Résumé | Il existe au moins deux types de similarité. La similarité relationnelle est la correspondance entre des relations par opposition à la similarité attributionnelle, qui est la correspondance entre des attributs. Lorsque deux mots ont un degré élevé de similarité attributionnelle, on parle de synonymie. Lorsque deux paires de mots ont un degré élevé de similarité relationnelle, on dit que leurs relations sont analogues. Par exemple, la paire maçon/pierre est analogue à la paire menuisier/bois. Cet article présente l'analyse relationnelle latente (ARL), méthode qui permet de mesurer la similarité relationnelle. L'ARL a des applications éventuelles dans de nombreux domaines, dont l'extraction de l'information, la désambiguation sémantique et la recherche documentaire. Récemment, le modèle de l'espace vectoriel (MEV) de la recherche documentaire a été adapté en vue de mesurer la similarité relationnelle, et a obtenu un taux de succès de 47 % sur une série de 374 questions à choix multiple d'analogie sémantique de niveau collégial. Dans l'approche MEV, la relation entre une paire de mots est caractérisée par un vecteur de fréquences de combinaisons prédéfinies dans un corpus important. L'ARL enrichit l'approche du MEV de trois façons : 1) les combinaisons sont tirées automatiquement du corpus; 2) la décomposition en valeurs singulières (DVS) est utilisée pour lisser les données sur la fréquence; et 3) on a recours à des synonymes générés automatiquement pour explorer des variations de paires de mots. L'ARL obtient un taux de succès de 56 % aux 374 questions d'analogie sémantique, ce qui est statistiquement équivalent au résultat humain moyen de 57 %. Quant au problème connexe lié à la classification des relations sémantiques, l'ARL présente des avantages semblables par rapport au MEV. |
---|