Error Detection and Correction
- f Gene Trees Using Gene
Order
Manuel Lafond, Krister M. Swenson and Nadia El- Mabrouk Université de Montréal
1
Error Detection and Correction of Gene Trees Using Gene Order - - PowerPoint PPT Presentation
Error Detection and Correction of Gene Trees Using Gene Order Manuel Lafond , Krister M. Swenson and Nadia El- Mabrouk Universit de Montral 1 Introduction Gene trees reflect the evolutionary history of a family of homologous genes
1
g1 G : g2 g3 g4 g5
2
Duplication Speciatio n g1 G : g2 g3 g4 g5
3
G : Duplication Speciatio n g1 g2 g3 g4 g5 (LCA = Lowest Common Ancestor)
4
G : a b c d S :
5
a1 a2 b1 c1 d1
G : a b c d S :
6
g s a1 a2 b1 c1 d1
G : a b c d S :
7
g s a1 a2 b1 c1 d1
G : a b c d S : a1 a2 b1 c1 d1
8
g s
9
G : a b c d S : a1 a2 b1 c1 d1
10
G : a b c d S : a1 a2 b1 c1 d1
11
G : a b c d S : a1 a2 b1 c1 d1
12
G : a b c d S : a1 a2 b1 c1 d1
13
G : a b c d S : a1 a2 b1 c1 d1
14
G : a b c d S : a1 a2 b1 c1 d1
15
G : a b c d S : a1 a2 b1 c1 d1
a b c d S :
16
G : a a b c d
g1:a G : g2:a g3:b g4:c g5:d a b c d S :
17
g1:a G : g2:a g3:b g4:c g5:d a b c d S : g1:a G’ : g2:a g3:b g4:c g5:d
18
g1:a G : g2:a g3:b g4:c g5:d a b c d S : g1:a G’ : g2:a g3:b g4:c g5:d
19
a b c d S : G : g1: a g2:a g3:b g4: c g5:d
20
21
22
23
24
25
26
Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
27
In the example, four families (a,b,c,d)
a b c d Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
28
a b c d RA Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
29
a b c d RA Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
30
a b c d RA Genome X Genome Y
R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
31
a b c d RA Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
32
a b c d RA Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
33
Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
37
a b c d Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
38
Genome X Genome Y a b c d R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
39
Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2
40
41
Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2 bA
42
Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2 bA bA’
43
Genome X Genome Y R1 a1 b1 c1 d1 a2 b2 c2 d2 R2 bA bA’
G : gene tree for g family
44
45
46
47
48
49
50
51
a1 g1 b1 a2 g2 b2 aA gA bA
52
a1 g1 b1 a2 g2 b2 aA gA bA
53
Number of trees 6241 Paralogy contradiction 22.5 % (1407 trees) Orthology contradiction 10.8 % (677 trees) Region overlap 3.4 % (210 trees) At least one contradiction 31.3 % (1959 trees) Table 1 : Number of Ensembl gene trees with errors
54
Number of trees 6241 Paralogy contradiction 22.5 % (1407 trees) Orthology contradiction 10.8 % (677 trees) Region overlap 3.4 % (210 trees) At least one contradiction 31.3 % (1959 trees) Table 1 : Number of Ensembl gene trees with errors 77% of paralogy contradictions correspond to duplications marked as “dubious” by Ensembl (dubious are Non-Apparent Duplications)
55
56
57
58
59
60
G : a b c d S : a1 b1 a2 c1 d1 c
2
R = {(a1, b1)} P = {(a2, c1)}
61
a1 G : b1 a2 c1 d1 a b c d S : c
2
a2 G’ : b1 a1 c
2
c1 d1 R = {(a1, b1)} P = {(a2, c1)}
62
63
64