Résumé | Nous proposons ici un système permettant d'extraire des phrases semblables à partir d'un corpus qui traite les phrases comme des chaînes pures. L'avantage de cette méthode, par rapport aux méthodes orientées linguistiquement, c'est que le système peut rapidement extraire des phrases semblables à partir d'un corpus de grande taille (plus d'un million de phrases), qu'il fonctionne bien avec des phrases mal structurées, et qu'il fonctionne pour différentes langues humaines. Ce système a été testé au moyen de corpus anglais, français et chinois, et les résultats ont été évalués manuellement. L'application proposée dans cet article consiste à utiliser notre moteur de recherche de phrases semblables dans le contexte de l'apprentissage d'une langue, pour aider les apprenants à améliorer leurs compétences en rédaction et à mieux comprendre les règles grammaticales de la langue seconde, par l'étude de différentes variantes de phrases tirées d'exemples réalistes. Nous suggérons en outre d'utiliser ce système avec des corpus bilingues parallèles afin d'aider les étudiants en traduction à améliorer leurs compétences dans ce domaine, en leur permettant de consulter des traductions professionnelles. |
---|