Résumé | Nous présentons ici un algorithme d'apprentissage à partir d'un texte non étiqueté, basé sur le modèle de l'espace vectoriel (VSM pour Vector Space Model) de l'extraction de l'information qui permet de résoudre des problèmes d'analogie verbale du type de ceux que l'on retrouve dans le test SAT d'entrée à l'université. Une analogie verbale se présente sous la forme A:B::C:D, ce qui signifie que « A est à B ce que C est à D »; ainsi, maçon:pierre::charpentier:bois. Dans ses questions sur les analogies, le test SAT propose une paire de mots A:B, et le problème consiste alors à choisir la paire de mots la plus analogue, C:D, à partir d'un ensemble de cinq choix. L'algorithme VSM permet de répondre correctement à 47 % d'un ensemble de 374 questions portant sur l'analogie, de niveau universitaire (en devinant au hasard, on obtient un taux de bonnes réponses de 20 %; l'élève moyen de niveau secondaire qui se destine à l'université obtient un taux de bonnes réponses d'environ 57 %). Cette recherche est motivée par le fait que nous désirons l'appliquer à un difficile problème dans le traitement des langues naturelles, à savoir la détermination des relations sémantiques qui existent dans les paires nom modificateur. Le problème consiste à classer la paire nom modificateur, par exemple « imprimante laser », selon une relation sémantique qui existe entre le nom (ici imprimante) et le qualificateur (ici laser). Nous nous servons de l'algorithme supervisé du voisin le plus proche, qui affecte une classe à une paire nom modificateur déterminée, en trouvant la paire nom modificateur la plus analogue parmi les données de formation. Avec 30 classes de relations sémantiques et un ensemble de 600 paires nom modificateur étiquetées, l'algorithme d'apprentissage permet d'obtenir pour F une valeur de 26,5 % (en devinant au hasard : 3,3 %). Avec cinq classes de relations sémantiques, la valeur obtenue pour F est de 43,2 % (en devinant au hasard : 20 %). Ces performances sont à la pointe de la technologie à la fois pour les analogies verbales et les relations nom modificateur. |
---|