Résumé | Les textes en parallèle sont des documents qui présentent des traductions en parallèle. Le présent document décrit une méthode simple pouvant être déployée pour des nouvelles en temps réel, et ce dans le but de créer une source sans cesse grandissante de textes en parallèle en français et en anglais. Notre expérience a été menée pour les nouvelles de Canada NewsWire. Étant donné certaines propriétés intrinsèques de cet organisme, il a été possible de déployer des techniques relativement simples de mise en concordance de textes qui dépendaient de mots apparentés indépendants sur le plan linguistique, comme les nombres, les mots en majuscules, la ponctuation et les caractères de retour à la ligne. Après avoir suivi pendant trois semaines les communiqués, notre système a pu identifier correctement en parallèle la grande majorité de ceux-ci. En effet, il n'a commis que des erreurs mineures pour des articles répétés. |
---|