| Téléchargement | - Voir le manuscrit accepté : Semi-Supervised Self-Training for Sentence Subjectivity Classification (PDF, 551 Kio)
|
|---|
| Auteur | Rechercher : Wang, B.; Rechercher : Spencer, Bruce; Rechercher : Ling, C.X.; Rechercher : Zhang, H. |
|---|
| Format | Texte, Article |
|---|
| Conférence | AI'08, The 21st Canadian Conference on Artificial Intelligence, May 28-30, 2008, Windsor, Ontario |
|---|
| Résumé | Les recherches récentes sur le traitement des langues naturelles montre que l'identification et l'extraction d'information subjective à partir de textes peuvent contribuer grandement à de nombreuses applications du traitement des langues naturelles. Dans ce document, nous traitons d'une approche faisant appel à l'apprentissage semi-supervisé en vue de la classification de la subjectivité des phrases. En auto-apprentissage, le degré de confiance, qui est fonction de l'ordonnancement des probabilités d'appartenance à des classes, est souvent utilisé comme paramètre de sélection qui ordonne par rangs et sélectionne les instances non étiquetées pour l'apprentissage subséquent appliqué au classificateur sous-jacent. Le classificateur bayésien naïf (NB) est souvent utilisé comme classificateur sous-jacent parce que ses estimés de probabilité d'appartenance à une classe présentent une bonne performance sur le plan de l'ordonnancement. La première contribution du présent document est l'étude des performances de l'auto-apprentissage au moyen de modèles d'arbres de décision comme C4.5, C4.4 et de l'arbre bayésien naïf, comme classificateurs sous-jacents. Notre seconde contribution consiste à proposer un paramètre de différence de valeur adapté comme paramètre de sélection en auto-apprentissage qui n'est pas fonction de probabilités d'appartenance à une classe. Nous nous sommes basés sur le corpus MPQA (réponse à des interrogations à perspectives multiples) pour créer un ensemble d'expériences conçues afin de comparer les rendements de l'auto-apprentissage avec divers classificateurs sous-jacents utilisant des paramètres de sélection différents dans diverses conditions. Les résultats expérimentaux montrent que le rendement de l'auto-apprentissage est amélioré lorsqu'on utilise des paramètres de différence de valeur plutôt qu'un niveau de confiance et que l'auto-apprentissage effectué avec un arbre bayésien naïf et des paramètres de différence de valeur présente de meilleures performances que l'auto-apprentissage effectué avec d'autres combinaisons de classificateurs sous-jacents et paramètres de sélection. Il est aussi démontré que la démarche d'auto-apprentissage produit des rendements comparables aux modèles d'apprentissage supervisés. |
|---|
| Date de publication | 2008 |
|---|
| Dans | |
|---|
| Langue | anglais |
|---|
| Numéro du CNRC | NRCC 50417 |
|---|
| Numéro NPARC | 8913184 |
|---|
| Exporter la notice | Exporter en format RIS |
|---|
| Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
|---|
| Identificateur de l’enregistrement | 1256764d-560d-42bb-9ffd-5a36578f7804 |
|---|
| Enregistrement créé | 2009-04-22 |
|---|
| Enregistrement modifié | 2020-08-12 |
|---|