Résumé | Les expressions-clés sont utiles pour diverses raisons, y compris l'établissement d'un résumé, l'indexation, l'étiquetage, la définition de catégories, le regroupement, la mise en évidence, la navigation et la recherche. L'extraction automatique d'expressions-clés consiste à sélectionner des expressions-clés dans le texte d'un document donné. Grâce à cette extraction, on peut produire des expressions-clés pour les innombrables documents pour lesquels il n'existe aucune expression-clé attribuée à la main. Les algorithmes d'extraction d'expressions-clés existants présentent une limitation : l'incohérence occasionnelle des expressions-clés sélectionnées. C'est-à-dire que la majorité des expressions-clés extraites peuvent former un tout cohérent, mais il peut y avoir une minorité d'expressions qui semblent être aberrantes et ne présentent pas de relation sémantique évidente avec la majorité des expressions-clé ou entre elles. Le présent document décrit les améliorations apportées à l'algorithme d'extraction d'expressions-clés KEA, qui ont pour but d'augmenter la cohérence des expressions-clés extraites. L'approche consiste à utiliser le degré d'association statistique parmi les expressions-clés candidates pour prouver qu'elles peuvent être reliées sémantiquement. L'association statistique est mesurée à l'aide de l'exploration du Web. Les expériences démontrent que les améliorations apportées accroissent la qualité des expressions-clés extraites. De plus, les améliorations ne sont pas propres à un domaine : l'algorithme se généralise efficacement lorsque l'apprentissage se fait dans un domaine donné (documents sur l'informatique) et qu'il réussit l'essai dans un autre domaine (documents sur la physique). |
---|