Phylogene)c Trees COMPSCI 260 Spring 2016 Phylogene)cs - - PowerPoint PPT Presentation

phylogene c trees
SMART_READER_LITE
LIVE PREVIEW

Phylogene)c Trees COMPSCI 260 Spring 2016 Phylogene)cs - - PowerPoint PPT Presentation

Phylogene)c Trees COMPSCI 260 Spring 2016 Phylogene)cs Phylogene)cs is the study of evolu)onary rela)onships among organisms or genes In general,


slide-1
SLIDE 1

Phylogene)c ¡Trees

¡

COMPSCI ¡260 ¡– ¡Spring ¡2016 ¡

slide-2
SLIDE 2

Phylogene)cs ¡ ¡

  • Phylogene)cs ¡is ¡the ¡study ¡of ¡evolu)onary ¡rela)onships ¡among ¡
  • rganisms ¡or ¡genes ¡
  • In ¡general, ¡we ¡are ¡interested ¡in ¡the ¡phylogeny ¡of ¡organisms ¡or ¡species ¡ ¡
  • But ¡oEen)mes ¡phylogenies ¡are ¡constructed ¡from ¡genes ¡
  • Phylogene)c ¡trees ¡are ¡used ¡to ¡describe ¡phylogenies ¡
  • The ¡purpose ¡of ¡phylogene)c ¡studies: ¡

– reconstruct ¡evolu)onary ¡)es ¡ ¡ between ¡species ¡ – es)mate ¡the ¡)me ¡of ¡divergence ¡ ¡ between ¡species ¡since ¡they ¡ ¡ last ¡shared ¡a ¡common ¡ancestor ¡

slide-3
SLIDE 3

Binomial ¡nomenclature ¡for ¡species ¡

  • Binomial ¡nomenclature ¡is ¡a ¡formal ¡system ¡of ¡naming ¡species ¡by ¡giving ¡

each ¡a ¡name ¡composed ¡of ¡two ¡parts, ¡both ¡of ¡which ¡use ¡La)n ¡gramma)cal ¡ forms, ¡although ¡they ¡can ¡be ¡based ¡on ¡words ¡from ¡other ¡languages ¡

  • The ¡first ¡part ¡of ¡the ¡name ¡iden)fies ¡the ¡genus ¡to ¡which ¡the ¡species ¡

belongs; ¡the ¡second ¡part ¡iden)fies ¡the ¡species ¡within ¡the ¡genus. ¡ ¡

  • Introduced ¡by ¡Carl ¡Linnaeus ¡in ¡1753 ¡
  • Also ¡called ¡‘scien)fic ¡name’ ¡or ¡‘La)n ¡name’ ¡

human chimp mouse rat Homo sapiens Mus musculus Ratus norvegicus Pan troglodytes

slide-4
SLIDE 4

What ¡is ¡a ¡phylogene)c ¡tree? ¡

  • Binary ¡tree ¡(every ¡node ¡has ¡<=3 ¡

neighbors) ¡

  • Rooted ¡or ¡unrooted ¡
  • Nodes ¡

– Leaves: ¡current ¡species ¡ – Internal ¡nodes: ¡(hypothe)cal) ¡ ancestral ¡species ¡

  • Edges ¡

– Amount ¡of ¡change ¡(muta)on ¡ rate) ¡or ¡ – Evolu)onary ¡)me ¡

human chimp mouse rat human chimp mouse rat chicken

slide-5
SLIDE 5

What ¡is ¡a ¡phylogene)c ¡tree ¡

  • Binary ¡tree ¡(every ¡node ¡has ¡<=3 ¡

neighbors) ¡

  • Rooted ¡or ¡unrooted ¡
  • Nodes ¡

– Leaves: ¡current ¡species ¡ – Internal ¡nodes: ¡(hypothe)cal) ¡ ancestral ¡species ¡

  • Edges ¡

– Amount ¡of ¡change ¡(muta)on ¡ rate) ¡or ¡ – Evolu)onary ¡)me ¡

human chimp mouse rat chicken human chimp mouse rat chicken time today

slide-6
SLIDE 6

Data ¡used ¡to ¡build ¡phylogene)c ¡trees ¡

  • Tradi)onally, ¡phylogene)c ¡trees ¡were ¡built ¡from ¡morphological ¡

features ¡(e.g., ¡beak ¡shapes, ¡presence ¡of ¡feathers, ¡number ¡of ¡legs, ¡ etc). ¡ ¡

  • Today, ¡we ¡use ¡mostly ¡molecular ¡data ¡like ¡DNA ¡sequences ¡and ¡

protein ¡sequences ¡

  • Data ¡can ¡be ¡classified ¡into ¡2 ¡categories: ¡ ¡
  • Discrete ¡characters ¡ ¡

– Each ¡character ¡has ¡a ¡finite ¡number ¡of ¡states. ¡For ¡example, ¡discrete ¡ characters ¡include ¡the ¡number ¡of ¡legs ¡of ¡an ¡organism, ¡or ¡a ¡column ¡in ¡ an ¡alignment ¡of ¡DNA ¡sequences. ¡ ¡

  • Compara/ve ¡numerical ¡data ¡ ¡

– These ¡data ¡encode ¡the ¡distances ¡between ¡objects ¡and ¡are ¡usually ¡ derived ¡from ¡sequence ¡data. ¡For ¡example, ¡we ¡could ¡hypothe)cally ¡say ¡ distance(man,mouse) ¡= ¡500 ¡and ¡distance(man,chimp) ¡= ¡100. ¡ ¡

slide-7
SLIDE 7

Phylogene)c ¡trees ¡

  • NOTE: ¡in ¡general, ¡different ¡genes/proteins ¡may ¡give ¡slightly ¡

different ¡phylogene)c ¡trees ¡(because ¡different ¡genes/proteins ¡may ¡ evolve ¡at ¡different ¡rates) ¡

  • Averaging ¡over ¡large ¡sets ¡of ¡genes/proteins ¡does ¡demonstrate ¡a ¡

broad ¡correspondence ¡between ¡lengths ¡of ¡branches ¡and ¡ evolu)onary ¡)me ¡

  • NOTE: ¡Topology ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡vs. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Phylogene)c) ¡Tree ¡

Which nodes are connected? 2 3 4 1 6 5 2 3 4 1 6 5

+ edge lengths

slide-8
SLIDE 8

Specia)on ¡vs. ¡duplica)on ¡events ¡

  • Another ¡thing ¡to ¡keep ¡in ¡mind: ¡in ¡general, ¡we ¡assume ¡that ¡the ¡

sequences ¡in ¡a ¡phylogene)c ¡tree ¡have ¡descended ¡from ¡an ¡ancestral ¡ gene ¡A ¡in ¡an ¡ancestral ¡species ¡

  • In ¡other ¡words, ¡we ¡assume ¡they ¡arose ¡through ¡a ¡specia)on ¡event ¡
  • Another ¡mechanism ¡by ¡which ¡two ¡sequences ¡can ¡diverge ¡from ¡a ¡

common ¡ancestor ¡is ¡through ¡a ¡duplica)on ¡event ¡in ¡the ¡same ¡species ¡

Gene A Species 1 Gene A Species 2 Gene A Species 3 Gene A1 Gene A2 Gene A

Paralogs ¡ Orthologs ¡ We ¡need ¡to ¡make ¡sure ¡we ¡are ¡using ¡orthologs ¡when ¡building ¡ ¡ phylogene)c ¡trees!!! ¡

slide-9
SLIDE 9

Homology ¡example: ¡evolu)on ¡of ¡globins ¡

  • Human ¡α-­‑globin ¡and ¡human ¡β-­‑

globin ¡are ¡paralogs ¡or ¡orthologs? ¡ ¡

  • Paralogs ¡
  • Human ¡α-­‑globin ¡and ¡mouse ¡α-­‑

globin ¡are ¡homologs ¡or ¡orthologs? ¡

  • Both ¡
slide-10
SLIDE 10

Building ¡a ¡phylogene)c ¡tree ¡

  • Distance ¡methods ¡ ¡

– Evolu)onary ¡distances ¡are ¡computed ¡for ¡all ¡leaf ¡nodes, ¡ and ¡these ¡are ¡used ¡to ¡construct ¡trees ¡

  • Maximum ¡parsimony ¡methods ¡ ¡

– The ¡tree ¡is ¡chosen ¡to ¡minimize ¡the ¡number ¡of ¡changes ¡ required ¡to ¡explain ¡the ¡data ¡ ¡

  • Maximum ¡likelihood ¡methods ¡ ¡

– Under ¡a ¡model ¡of ¡sequence ¡evolu)on, ¡we ¡search ¡for ¡the ¡ tree ¡which ¡gives ¡the ¡highest ¡likelihood ¡of ¡the ¡data ¡

  • Bootstrapping ¡ ¡

human chimp mouse rat chicken Gene A

slide-11
SLIDE 11

Building ¡a ¡phylogene)c ¡tree ¡

  • We ¡will ¡discuss ¡two ¡algorithms: ¡UPGMA ¡and ¡NJ ¡
  • Both ¡algorithms ¡require ¡a ¡metric ¡that ¡describes ¡the ¡distance ¡between ¡

any ¡2 ¡leaf ¡nodes ¡(i.e., ¡any ¡2 ¡sequences) ¡

  • How ¡can ¡we ¡obtain ¡such ¡distances? ¡

– Align ¡the ¡2 ¡sequences ¡and ¡take ¡the ¡frac)on ¡of ¡nucleo)des/amino ¡ acids ¡that ¡are ¡different ¡ – Use ¡models ¡of ¡residue/nucleo)de ¡subs)tu)on ¡(for ¡example, ¡the ¡ Jukes-­‑Cantor ¡model ¡for ¡DNA ¡sequences) ¡ Assume ¡we ¡have ¡5 ¡sequences. ¡ ¡ We ¡need ¡to ¡define ¡a ¡metric: ¡ d =

1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 1 ¡ 0 ¡ * ¡ 2 ¡ * ¡ 0 ¡ 3 ¡ 0 ¡ 4 ¡ 0 ¡ 5 ¡ 0 ¡

slide-12
SLIDE 12

Building ¡rooted ¡phylogene)c ¡trees ¡

  • UPGMA ¡= ¡unweighted ¡pair ¡group ¡method ¡using ¡arithme)c ¡

averages ¡[the ¡name ¡is ¡actually ¡more ¡complicated ¡than ¡the ¡method] ¡

  • It ¡is ¡basically ¡a ¡hierarchical ¡clustering ¡algorithm ¡

2 3 1 4 5

???

slide-13
SLIDE 13

Building ¡rooted ¡phylogene)c ¡trees ¡

2 3 1 4 5

UPGMA

6 7 8 9 2 3 1 4 5 6 7 8 9

  • UPGMA ¡= ¡unweighted ¡pair ¡group ¡method ¡using ¡arithme)c ¡

averages ¡[the ¡name ¡is ¡actually ¡more ¡complicated ¡than ¡the ¡method] ¡

  • It ¡is ¡basically ¡a ¡hierarchical ¡clustering ¡algorithm ¡
slide-14
SLIDE 14

UPGMA ¡– ¡distance ¡between ¡clusters? ¡

  • Distance ¡between ¡2 ¡clusters ¡(groups)? ¡

2 3 1 4 5 6 7 8 9

dpq = 1 Cp × Cq dij

i∈ Cp, j∈ Cq

Cp Cq

(average ¡linkage ¡clustering) ¡

slide-15
SLIDE 15

UPGMA ¡algorithm ¡

  • Ini)aliza)on ¡

– For ¡each ¡sequence ¡i, ¡create ¡cluster ¡Ci ¡ – For ¡each ¡sequence ¡i, ¡create ¡a ¡leaf ¡node ¡at ¡height ¡0 ¡

  • Iterate ¡

– Find ¡i,j such ¡that ¡dij is ¡minimal ¡ – Define ¡new ¡cluster ¡Ck = Ci U Cj ¡and ¡compute ¡dkl for ¡all ¡other ¡clusters ¡l – Create ¡node ¡k ¡(parent ¡of ¡i and ¡j) ¡at ¡height ¡dij/2 ¡ – Remove ¡clusters ¡i and ¡j

  • Terminate ¡

– When ¡only ¡2 ¡clusters ¡remain ¡ – Create ¡root ¡at ¡height ¡dij/2 ¡ i j k

slide-16
SLIDE 16

UPGMA ¡algorithm ¡

dkl = 1 Ck × Cl dxy

x∈ Ck ,y∈ Cl

Compu)ng ¡the ¡distance ¡between ¡two ¡clusters: ¡ A ¡more ¡efficient ¡way ¡to ¡compute ¡the ¡distance: ¡ dkl =

dil Ci + d jl C j Ci + C j

Ck = Ci U Cj How ¡many ¡pairs? ¡ Time ¡complexity: ¡ ¡ Naïve ¡implementa)on: ¡n ¡itera)ons, ¡O(n2) ¡)me ¡for ¡each ¡itera)on ¡(to ¡find ¡ ¡ a ¡closest ¡pair) ¡=> ¡O(n3) ¡total. ¡ Op)mal ¡implementa)on: ¡O(n2) ¡ ¡ ¡ ¡

slide-17
SLIDE 17

UPGMA ¡algorithm ¡

2 3 1 4 5 6 7 8 9 2 3 1 4 5 6 7 8 9

d12 2 d45 2 d37 2 d68 2

  • Rooted ¡tree ¡
  • Leaves ¡are ¡at ¡the ¡same ¡level ¡
  • Assumes ¡there ¡exists ¡a ¡“molecular ¡clock” ¡with ¡a ¡constant ¡rate ¡
slide-18
SLIDE 18

UPGMA ¡

  • Rooted ¡tree ¡
  • Leaves ¡are ¡at ¡the ¡same ¡level ¡
  • Assumes ¡there ¡exists ¡a ¡“molecular ¡clock” ¡with ¡a ¡constant ¡rate ¡(assumes ¡

the ¡rates ¡of ¡evolu)on ¡are ¡the ¡same ¡among ¡different ¡lineages) ¡

  • Can ¡we ¡always ¡build ¡such ¡a ¡tree? ¡
  • NO ¡

4 2 3 1 UPGMA 3 1 4 2

  • What ¡is ¡the ¡problem? ¡
  • The ¡closest ¡leaves ¡are ¡not ¡neighbors!!! ¡
slide-19
SLIDE 19

UPGMA ¡returns ¡the ¡correct ¡tree ¡if… ¡

  • The ¡distance ¡d ¡is ¡ultrametric: ¡

∀i, j,k

  • ne ¡can ¡shuffle ¡them ¡to ¡achieve ¡ dij = d jk ≥ dik
  • Is ¡this ¡true ¡for ¡the ¡distance ¡that ¡characterizes ¡this ¡tree? ¡

4 2 3 1

NO

slide-20
SLIDE 20

Another ¡property ¡of ¡UPGMA ¡trees… ¡

  • Another ¡property ¡of ¡UPGMA ¡trees ¡is ¡addi)vity ¡

∀i, j,k,l one ¡can ¡shuffle ¡them ¡to ¡achieve ¡

dij + dkl = dik + d jl ≥ dil + d jk

Pairs ¡of ¡distances ¡

d13 + d24 = d14 + d23 ≥ d12 + d34

YES ¡ Is ¡this ¡tree ¡addi)ve? ¡

4 2 3 1

slide-21
SLIDE 21

The ¡Neighbor ¡Joining ¡(NJ) ¡algorithm ¡

  • If ¡d ¡is ¡addi)ve ¡but ¡not ¡ultrametric, ¡we ¡can ¡use ¡the ¡Neighbor ¡

Joining ¡algorithm ¡(NJ) ¡to ¡build ¡an ¡unrooted ¡phylogene)c ¡tree ¡

  • Idea: ¡

– Find ¡two ¡neighbors ¡i ¡and ¡j – Join ¡them ¡and ¡create ¡a ¡new ¡node ¡k – Recompute ¡distances: ¡ – Remove ¡nodes ¡i ¡and ¡j ¡ – Un)l ¡only ¡two ¡nodes ¡remain ¡

dkm = 1 2 (dim + d jm − dij)

1 2 4 3 i j m k

slide-22
SLIDE 22

The ¡Neighbor ¡Joining ¡(NJ) ¡algorithm ¡

  • How ¡do ¡we ¡find ¡two ¡neighbors? ¡
  • Find ¡the ¡minimum ¡dij? ¡
  • NO ¡

1 3 4 2

  • We ¡need ¡to ¡compensate ¡for ¡long ¡

edges ¡

  • We ¡redefine ¡the ¡distances: ¡

Dij = dij − (r

i + rj)

r

i =

1 L − 2 dik

k∈L

where ¡L ¡= ¡the ¡set ¡of ¡leaves ¡

  • Trick: ¡subtract ¡the ¡average ¡

distance ¡to ¡all ¡other ¡nodes ¡ ¡

  • Now ¡we ¡can ¡choose ¡i,j ¡that ¡minimize ¡Dij ¡
  • Nodes ¡i ¡and ¡j ¡are ¡guaranteed ¡to ¡be ¡neighbors ¡
slide-23
SLIDE 23

Example ¡– ¡finding ¡neighboring ¡nodes ¡

1 2

0.1

3 4

0.4 0.4 0.1 0.1

min

i, j dij

  • Vs. ¡ min

i, j Dij

Dij = dij − (r

i + rj)

r

i =

1 L − 2 dik

k∈L

slide-24
SLIDE 24

NJ ¡algorithm ¡

  • Initialization:

– L= the set of leaf nodes (the set of all sequences)

  • Iteration:

– Choose i,j in L such that Dij is minimal – Define new node k – Recompute distances to all other nodes m: – Add node k to the tree – Add edges to i and j with lengths – Remove i and j from L; add k to L

  • Termination:

– When |L|=2; add edge (i,j) with length dij

dkm = 1 2 (dim + d jm − dij) dik = 1 2 (dij + r

i − rj)

d jk = dij − dik

i j m k

slide-25
SLIDE 25

NJ ¡algorithm ¡

  • If ¡the ¡distance ¡measure ¡is ¡addi)ve, ¡NJ ¡is ¡guaranteed ¡to ¡construct ¡

the ¡correct ¡unrooted ¡tree ¡

1 2 4 3 1 2 4 3 1 2 4 3 1 2 4 3

  • If ¡the ¡distance ¡measure ¡is ¡NOT ¡addi)ve, ¡the ¡NJ ¡may ¡not ¡be ¡correct ¡

∀i, j,k,l one ¡can ¡shuffle ¡them ¡to ¡achieve ¡ dij + dkl = dik + d jl ≥ dil + d jk

slide-26
SLIDE 26

NJ ¡algorithm ¡

  • Time ¡complexity: ¡

– NJ ¡on ¡a ¡set ¡of ¡n ¡sequences ¡requires ¡O(n) ¡itera)ons ¡ – At ¡each ¡step ¡one ¡has ¡to ¡build ¡and ¡search ¡a ¡D ¡matrix ¡ – Ini)ally ¡the ¡D ¡matrix ¡is ¡size ¡n ¡x ¡n, ¡then ¡at ¡the ¡next ¡step ¡it ¡is ¡ (n-­‑1)x(n-­‑1), ¡etc. ¡ ¡ – This ¡leads ¡to ¡an ¡algorithm ¡with ¡a ¡)me ¡complexity ¡of ¡O(n3) ¡

  • What ¡type ¡of ¡algorithm ¡is ¡this? ¡(dynamic ¡programming? ¡EM? ¡etc.) ¡
  • NJ ¡is ¡a ¡greedy ¡algorithm ¡

– At ¡each ¡step, ¡NJ ¡greedily ¡joins ¡that ¡pair ¡of ¡sequences ¡that ¡will ¡ give ¡the ¡greatest ¡decrease ¡in ¡the ¡es)mated ¡tree ¡length ¡

  • The ¡main ¡advantage ¡of ¡NJ: ¡it ¡is ¡fast ¡(it ¡is ¡polynomial-­‑)me) ¡ ¡
  • This ¡makes ¡it ¡prac)cal ¡for ¡analyzing ¡large ¡data ¡sets ¡and ¡for ¡

bootstrapping ¡(compared ¡to ¡maximum ¡parsimony ¡or ¡maximum ¡ likelihood ¡approaches, ¡which ¡may ¡be ¡computa)onally ¡prohibi)ve) ¡

slide-27
SLIDE 27

UPGMA ¡and ¡NJ ¡

UPGMA ¡ algorithm ¡ Neighbor ¡Joining ¡ algorithm ¡

Pairwise ¡distance ¡metric ¡(d) ¡ between ¡sequences ¡must ¡be: ¡ ¡

ultrametric ¡ addi/ve ¡

The ¡tree ¡will ¡be: ¡

rooted ¡ unrooted ¡ If ¡d ¡is ¡ultrametric, ¡why ¡don’t ¡we ¡build ¡a ¡NJ ¡tree? ¡

slide-28
SLIDE 28

NJ ¡when ¡d ¡is ¡ultrametric ¡

  • Assume ¡the ¡correct ¡tree ¡(characterized ¡by ¡an ¡ultrametric ¡

distance ¡d) ¡is: ¡

2 3 4 1 0.2 0.2 0.2 0.1 0.3 0.3 1 ¡ 2 ¡ 3 ¡ 4 ¡ 1 ¡ 0 ¡ 0.4 ¡ 0.8 ¡ 0.8 ¡ 2 ¡ 0 ¡ 0.8 ¡ 0.8 ¡ 3 ¡ 0 ¡ 0.6 ¡ 4 ¡ 0 ¡ d =

  • Let’s ¡apply ¡the ¡NJ ¡algorithm ¡on ¡this ¡tree. ¡

We can root an unrooted tree by finding an outgroup

slide-29
SLIDE 29

NJ ¡algorithm ¡

  • Initialization:

– L= the set of leaf nodes (the set of all sequences)

  • Iteration:

– Choose i,j in L such that Dij is minimal – Define new node k – Recompute distances to all other nodes m: – Add node k to the tree – Add edges to i and j with lengths – Remove i and j from L; add k to L

  • Termination:

– When |L|=2; add edge (i,j) with length dij

dkm = 1 2 (dim + d jm − dij) dik = 1 2 (dij + r

i − rj)

d jk = dij − dik

i j m k

slide-30
SLIDE 30

NJ ¡when ¡d ¡is ¡ultrametric ¡

  • Assume ¡the ¡correct ¡tree ¡(characterized ¡by ¡an ¡ultrametric ¡

distance ¡d) ¡is: ¡

2 3 4 1 0.2 0.2 0.2 0.1 0.3 0.3 1 ¡ 2 ¡ 3 ¡ 4 ¡ 1 ¡ 0 ¡ 0.4 ¡ 0.8 ¡ 0.8 ¡ 2 ¡ 0 ¡ 0.8 ¡ 0.8 ¡ 3 ¡ 0 ¡ 0.6 ¡ 4 ¡ 0 ¡ d =

  • Let’s ¡apply ¡the ¡NJ ¡algorithm ¡on ¡this ¡tree. ¡
  • We ¡will ¡construct ¡a ¡“correct” ¡but ¡unrooted ¡tree ¡
  • Unrooted ¡=> ¡rooted. ¡How ¡many ¡topologies? ¡(for ¡n ¡leaves) ¡
  • Unrooted ¡=> ¡rooted. ¡How ¡many ¡trees? ¡

We can root an unrooted tree by finding an outgroup

slide-31
SLIDE 31

Building ¡phylogene)c ¡trees ¡

  • Distance ¡methods ¡ ¡

– Evolu)onary ¡distances ¡are ¡computed ¡for ¡all ¡leaf ¡nodes, ¡ and ¡these ¡are ¡used ¡to ¡construct ¡trees ¡ – UPGMA, ¡NJ ¡

  • Maximum ¡parsimony ¡methods ¡ ¡

– The ¡tree ¡is ¡chosen ¡to ¡minimize ¡the ¡number ¡of ¡changes ¡ required ¡to ¡explain ¡the ¡data ¡ ¡

  • Maximum ¡likelihood ¡methods ¡ ¡

– Under ¡a ¡model ¡of ¡sequence ¡evolu)on, ¡we ¡search ¡for ¡the ¡ tree ¡which ¡gives ¡the ¡highest ¡likelihood ¡of ¡the ¡data ¡

  • Bootstrapping ¡ ¡
slide-32
SLIDE 32

Bootstrapping: ¡confidence ¡in ¡reconstructed ¡trees ¡ ¡

  • Bootstrapping ¡is ¡a ¡technique ¡commonly ¡used ¡for ¡es)ma)ng ¡

sta)s)cs ¡or ¡parameters ¡when ¡the ¡distribu)on ¡is ¡difficult ¡to ¡ derive ¡analy)cally ¡ ¡

  • Idea: ¡sample ¡columns ¡from ¡the ¡mul)ple ¡aligned ¡group ¡of ¡

sequences, ¡and ¡create ¡many ¡new ¡alignments ¡(with ¡ replacement) ¡

  • Repeat ¡the ¡process ¡many ¡)mes ¡(at ¡least ¡100 ¡)mes) ¡
  • Generate ¡a ¡tree ¡each ¡)me ¡
  • Compute ¡the ¡number ¡of ¡)mes ¡each ¡branching ¡point ¡occurred ¡

(out ¡of ¡all ¡the ¡trees ¡that ¡were ¡built) ¡

  • The ¡higher ¡the ¡number, ¡the ¡more ¡valid ¡the ¡branching ¡point ¡
slide-33
SLIDE 33

Bootstrapping: ¡confidence ¡in ¡reconstructed ¡trees ¡ ¡

Es)mate ¡the ¡confidence ¡of ¡the ¡ two ¡internal ¡branches ¡ Of ¡the ¡100 ¡generated ¡trees, ¡we ¡see: ¡

41 ¡ 100 ¡

slide-34
SLIDE 34

Maximum ¡parsimony ¡methods ¡ ¡

  • Briefly: find the tree that can explain the observed sequences with a

minimal number of substitutions

  • For example, given the following DNA data, which tree is most

parsimonious?

  • Phylip package

AAG AAA GGA AGA AAG AAA GGA AGA AGA AAA AAA 1 1 1 AAG AGA AAA GGA AAA AAA AAA 1 2 1

  • Instead of building a tree, it assigns a cost to a given tree, and it is

necessary to search through all topologies (or use a more efficient strategy) to identify the “best” tree

  • Fitch’s algorithm
slide-35
SLIDE 35

Maximum ¡likelihood ¡methods ¡ ¡

  • Another ¡method ¡commonly ¡used ¡for ¡reconstruc)ng ¡trees: ¡

maximum ¡likelihood ¡(ML) ¡

  • Idea: ¡given ¡a ¡probabilis)c ¡model ¡for ¡nucleo)de ¡subs)tu)on ¡(e.g., ¡

the ¡Jukes ¡and ¡Cantor ¡model ¡for ¡DNA ¡sequences), ¡pick ¡the ¡tree ¡that ¡ has ¡the ¡highest ¡probability ¡of ¡genera)ng ¡the ¡observed ¡data ¡ ¡

  • In ¡other ¡words, ¡given ¡character ¡data ¡D ¡and ¡a ¡model ¡M, ¡we ¡want ¡to ¡

find ¡the ¡tree ¡T ¡that ¡maximizes ¡the ¡likelihood ¡P(D|T,M) ¡ ¡

  • Use ¡dynamic ¡programming ¡and ¡EM ¡
  • ML ¡methods ¡are ¡more ¡)me ¡intensive ¡compared ¡to ¡maximum ¡

parsimony ¡or ¡distance-­‑based ¡methods ¡

  • ML ¡methods ¡are ¡more ¡sensi)ve ¡at ¡large ¡evolu)onary ¡distances, ¡and ¡

are ¡considered ¡to ¡be ¡the ¡best ¡for ¡reconstruc)ng ¡phylogene)c ¡trees ¡

slide-36
SLIDE 36

More ¡informa)on: ¡