Téléchargement | - Voir le manuscrit accepté : Exploiting Multiple Features with MEMMs for Focused Web Crawling (PDF, 349 Kio)
|
---|
Auteur | Rechercher : Liu, H.; Rechercher : Milios, E.; Rechercher : Korba, Larry |
---|
Format | Texte, Article |
---|
Conférence | The 13th International Conference on Applications of Natural Language to Information Systems (NLDB 2008), June 24-27, 2008, London, United Kingdom |
---|
Sujet | exploration ciblée; recherche Web; sélection de caractéristiques; modèle de Markov |
---|
Résumé | L'exploration ciblée automatisée du Web consiste à arpenter le Web afin de recueillir des documents portant sur un sujet déterminé. Ce qui n'est pas une sinécure, car les automates d'exploration ciblés doivent identifier le lien suivant le plus prometteur en se fondant sur le sujet de la recherche et le contenu et les liens des pages explorées précédemment. Dans cet exposé, nous présentons un cadre de travail basé sur des modèles de Markov à entropie maximale (MMEM) afin de produire un automate de recherche ciblée amélioré afin de tirer parti des représentations plus riches des multiples caractéristiques extraites des pages Web, comme le texte d'ancrage et les mots-clés intégrés dans l'URL du lien afin de représenter un contexte utile. Le principe clé de notre recherche consiste à traiter le problème de l'exploration automatisée ciblée du Web comme une tâche séquentielle et d'utiliser une combinaison d'analyse de contenu et de structures de liens afin de saisir des patrons séquentiels menant aux cibles visées. Les résultats expérimentaux montrent que l'exploration automatisée ciblée appliquant le principe des MMEM constitue une technique qui concurrence avantageusement, sur le plan de deux paramètres, la précision et la similarité moyenne maximale, le principe de l'exploration de données sur le Web suivant la voie du « meilleur en premier ». |
---|
Date de publication | 2008 |
---|
Dans | |
---|
Langue | anglais |
---|
Numéro du CNRC | NRCC 50373 |
---|
Numéro NPARC | 5765089 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | 32528c1e-e4f6-40ce-ba06-414d5bd7f94c |
---|
Enregistrement créé | 2009-03-29 |
---|
Enregistrement modifié | 2020-08-12 |
---|