Résumé | Ce rapport présente une évaluation empirique de quatre algorithmes d'extraction automatique de mots et d'expressions clés dans des documents. Ces quatre algorithmes sont comparés en utilisant cinq ensembles de documents différents. Pour chaque document, on établit un ensemble cible d'expressions clés, générées manuellement. Ces expressions clés ont été générées à l'intention de lecteurs humains; elles n'ont été conçues pour aucun des quatre algorithmes d'extraction. Les divers algorithmes ont été évalués en fonction du degré d'adéquation des expressions clés extraites et des expressions clés générées manuellement. Les quatre algorithmes sont les suivants : (1) la fonction AutoSummarize de Microsoft Word 97; (2) un algorithme basé sur le descripteur de nature grammaticale de Eric Brillis; (3) la fonction Summarize de Verityis Search 97; (4) l'algorithme Extractor du CNR. Pour les cinq ensembles de documents, c'est l'algorithme Extractor du CNRC qui a fourni la meilleure adéquation avec les expressions clés générées manuellement. |
---|