Résumé | Internet est l'une des principales sources d'information sur la santé. Toutefois, certaines études révèlent que le niveau de lisibilité de l'information présentée dans les sites web consacrés à la santé pose problème pour de nombreux consommateurs. Souvent, les formules d'évaluation de la lisibilité mesurent le niveau de difficulté du style du texte et non celui de son contenu. Afin de pouvoir recommander la lecture de textes sur la santé dont le niveau de difficulté convient aux consommateurs, nous étudions la possibilité de déterminer le niveau de difficulté de ces textes à partir de méthodes d'apprentissage machine. On utilise les Support Vector Machines pour classifier l'information sur la santé destinée aux consommateurs selon qu'elle soit facile à lire et lisible par le grand public. On évalue l'exactitude de la classification des trois ensembles de caractéristiques suivants : les caractéristiques linguistiques superficielles, la complexité du vocabulaire, et les unigrammes et leurs combinaisons. À elles seules, les caractéristiques d'unigrammes atteignent des taux de précision de 80,71 %, et la classification la plus efficace s'obtient par la combinaison d'ensembles de trois caractéristiques (précision de 84,06 %). Cette dernière est largement supérieure aux caractéristiques linguistiques superficielles, aux caractéristiques de complexité du vocabulaire et à leur combinaison. |
---|