Semi-Supervised Self-Training for Sentence Subjectivity Classification

Par Conseil national de recherches du Canada

Téléchargement	Voir le manuscrit accepté : Semi-Supervised Self-Training for Sentence Subjectivity Classification (PDF, 551 Kio)
Auteur	Rechercher : Wang, B.; Rechercher : Spencer, Bruce; Rechercher : Ling, C.X.; Rechercher : Zhang, H.
Format	Texte, Article
Conférence	AI'08, The 21st Canadian Conference on Artificial Intelligence, May 28-30, 2008, Windsor, Ontario
Résumé	Les recherches récentes sur le traitement des langues naturelles montre que l'identification et l'extraction d'information subjective à partir de textes peuvent contribuer grandement à de nombreuses applications du traitement des langues naturelles. Dans ce document, nous traitons d'une approche faisant appel à l'apprentissage semi-supervisé en vue de la classification de la subjectivité des phrases. En auto-apprentissage, le degré de confiance, qui est fonction de l'ordonnancement des probabilités d'appartenance à des classes, est souvent utilisé comme paramètre de sélection qui ordonne par rangs et sélectionne les instances non étiquetées pour l'apprentissage subséquent appliqué au classificateur sous-jacent. Le classificateur bayésien naïf (NB) est souvent utilisé comme classificateur sous-jacent parce que ses estimés de probabilité d'appartenance à une classe présentent une bonne performance sur le plan de l'ordonnancement. La première contribution du présent document est l'étude des performances de l'auto-apprentissage au moyen de modèles d'arbres de décision comme C4.5, C4.4 et de l'arbre bayésien naïf, comme classificateurs sous-jacents. Notre seconde contribution consiste à proposer un paramètre de différence de valeur adapté comme paramètre de sélection en auto-apprentissage qui n'est pas fonction de probabilités d'appartenance à une classe. Nous nous sommes basés sur le corpus MPQA (réponse à des interrogations à perspectives multiples) pour créer un ensemble d'expériences conçues afin de comparer les rendements de l'auto-apprentissage avec divers classificateurs sous-jacents utilisant des paramètres de sélection différents dans diverses conditions. Les résultats expérimentaux montrent que le rendement de l'auto-apprentissage est amélioré lorsqu'on utilise des paramètres de différence de valeur plutôt qu'un niveau de confiance et que l'auto-apprentissage effectué avec un arbre bayésien naïf et des paramètres de différence de valeur présente de meilleures performances que l'auto-apprentissage effectué avec d'autres combinaisons de classificateurs sous-jacents et paramètres de sélection. Il est aussi démontré que la démarche d'auto-apprentissage produit des rendements comparables aux modèles d'apprentissage supervisés.
Date de publication	2008
Dans	AI'08, The 21st Canadian Conference on Artificial Intelligence [Proceedings].
Langue	anglais
Numéro du CNRC	NRCC 50417
Numéro NPARC	8913184
Exporter la notice	Exporter en format RIS
Signaler une correction	Signaler une correction (s'ouvre dans un nouvel onglet)
Identificateur de l’enregistrement	1256764d-560d-42bb-9ffd-5a36578f7804
Enregistrement créé	2009-04-22
Enregistrement modifié	2020-08-12

Date de modification :: 2025-05-11