Résumé | Le présent rapport avance un certain nombre de nouveaux points de vue et techniques qu'on juge très importants pour le problème de reconnaissance faciale dans un vidéo (FRiV). D'abord, on établit une nette distinction entre les données photographiques faciales et les données vidéo faciales comme deux modalités différentes : l'une fournit des données biométriques objectives, et l'autre, des données biométriques plus subjectives. Deuxièmement, il est démontré que les visages qui ont une résolution d'au moins 12 pixels entre les yeux sont reconnaissables par les ordinateurs, tout comme ils le sont par les humains. Pour aborder la faible résolution et la mauvaise qualité de chaque image vidéo individuelle, le rapport propose d'utiliser le principe neuro-associatif employé par le cerveau humain, selon lequel tant la mémorisation que la reconnaissance de données sont effectuées en fonction d'une séquence d'images plutôt que d'une image unique : la plasticité synaptique offre un moyen de mémoriser à partir d'une séquence, tandis que la prise de décision collective sur une certaine période convient très bien à la reconnaissance d'une séquence. En tant que repère pour les approches FRiV, le rapport introduit la base de données faciales axée sur séquence vidéo de l'ITI-CNRC, qui comprend des paires de séquences vidéo de faible résolution de mouvements faciaux non contraints. Le taux de reconnaissance de plus de 95 %, que nous atteignons au moyen de cette base de données, ainsi que les résultats obtenus avec l'annotation en temps réel de personnes à la télévision nous portent à croire que le cadre de référence proposé nous rapproche du repère ultime pour les approches de la FriV : l'ordinateur devrait être capable de reconnaître une personne au même titre qu'une autre personne. |
---|