Résumé | Dans la recherche des séquences biologiques, on utilise fréquemment la matrice position-poids (MPP) pour détecter les signaux de motif. Des oligonucléotides vérifiés expérimentalement comme étant des sous-séquences fonctionnelles, qui peuvent être liés par un facteur de transcription comme promoteurs translationnels ou sites d'épissage de pré-ARNm, sont recueillis et alignés. La fréquence de chaque nucléotide A, C, G ou T dans chaque colonne de l'alignement est calculée dans la matrice. Une fois qu'une MPP est construite, elle peut être utilisée pour chercher dans une séquence de nucléotides les sous-séquences qui pourraient avoir la même fonction. La concordance entre une sous-séquence et une MPP est généralement décrite par une fonction de score, qui mesure la proximité de la sous-séquence et de la MPP comparativement au bruit de fond donné. Cependant, la détermination de seuils de score permettant de vérifier la qualification d'une sous-séquence fonctionnelle reste un obstacle important. Plusieurs laboratoires ont tenté de résoudre ce problème, mais il n'y a eu aucune percée importante jusqu'ici. Dans le présent chapitre, nous discutons les caractéristiques d'une MPP et les facteurs qui influent sur la prévision des motifs, et nous proposons une nouvelle fonction de score qui est liée au contenu en information et à l'espérance statistique d'une MPP. Nous utilisons également cette fonction de score dans des MPP obtenues de bases de données du domaine public, et elle se compare favorablement à la méthode Match couramment utilisée. |
---|