Téléchargement | - Voir le manuscrit accepté : Using Data Mining Methods to Predict Personally Identifiable Information in Emails (PDF, 310 Kio)
|
---|
Auteur | Rechercher : Geng, L.; Rechercher : Korba, Larry; Rechercher : Wang, X.; Rechercher : Wang, Y.; Rechercher : Liu, H.; Rechercher : You, Y. |
---|
Format | Texte, Article |
---|
Conférence | The Fourth International Conference on Advanced Data Mining and Applications (ADMA 2008), October 8-10, 2008, Chengdu, China |
---|
Résumé | La gestion des renseignements personnels et le respect des règles constituent aujourd'hui des questions importantes pour la plupart des organisations. À titre d'outil de communications important des organisations, la messagerie électronique constitue une source potentielle de divulgation de renseignements personnels. De méthodes d'extraction de renseignements ont été appliquées afin de détecter les renseignements personnels dans les fichiers texte. Toutefois, comme les courriels sont habituellement composés de texte de qualité médiocre, les méthodes d'extraction d'information qui visent à détecter les renseignements personnels peuvent ne pas présenter de bons rendements. Dans cet exposé, nous nous penchons sur la question de la prédiction de la présence de renseignements personnels dans les courriels en faisant appel à l'exploration de données et de texte. Deux modèles de prévision sont proposés. Le premier modèle est basé sur des règles d'association qui prévoient un type de renseignement personnel en se basant sur d'autres types de renseignements personnels relevés dans des courriels. Le deuxième modèle est basé sur des modèles de classification qui prévoient la présence de renseignements personnels en se fondant sur le contenu des courriels. Les résultats des expériences appliquées au jeu de données de courriels d'Enron se montrent prometteurs. |
---|
Date de publication | 2008 |
---|
Dans | |
---|
Langue | anglais |
---|
Numéro du CNRC | NRCC 50381 |
---|
Numéro NPARC | 8914417 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | 6a47e196-20ca-470b-ad71-905eb20e5e77 |
---|
Enregistrement créé | 2009-04-22 |
---|
Enregistrement modifié | 2020-08-12 |
---|