Evolution 02-715 Advanced Topics in Computa8onal Genomics - - PowerPoint PPT Presentation

evolution
SMART_READER_LITE
LIVE PREVIEW

Evolution 02-715 Advanced Topics in Computa8onal Genomics - - PowerPoint PPT Presentation

Evolution 02-715 Advanced Topics in Computa8onal Genomics Terminology Synteny: the condi8on of two or more genes being located on the same chromosome


slide-1
SLIDE 1

Evolution

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

Terminology

  • Synteny: ¡the ¡condi8on ¡of ¡two ¡or ¡more ¡genes ¡being ¡located ¡on ¡the ¡same ¡

chromosome ¡across ¡species ¡whether ¡or ¡not ¡there ¡is ¡demonstrable ¡linkage ¡ between ¡them. ¡

  • Orthologous ¡genes: ¡two ¡or ¡more ¡genes ¡that ¡diverged ¡aGer ¡ ¡a ¡specia8on ¡

event ¡

– The ¡history ¡of ¡genes ¡reflect ¡the ¡history ¡of ¡species ¡ – E.g., ¡alpha ¡hemoglobin ¡in ¡man ¡and ¡mouse ¡

  • Paralogous ¡genes: ¡two ¡or ¡more ¡genes ¡that ¡diverged ¡aGer ¡a ¡duplica8on ¡

event ¡

– E.g., ¡alpha ¡and ¡beta ¡hemoglobin ¡

  • Gene ¡family: ¡the ¡set ¡of ¡all ¡genes ¡descended ¡from ¡a ¡single ¡gene ¡in ¡the ¡last ¡

common ¡ancestor ¡of ¡all ¡species. ¡

slide-3
SLIDE 3

Drosophila 12 Species Genomes

  • Conserved ¡homologues: ¡conserved ¡in ¡all ¡species ¡as ¡orthologues ¡or ¡paralogues ¡
  • Patch ¡homologues ¡with ¡melanogaster: ¡conserved ¡in ¡at ¡least ¡two ¡species ¡but ¡not ¡found ¡in ¡all ¡species ¡
  • Patch ¡homologues ¡without ¡D. ¡melanogaster ¡homologue ¡
  • Lineage ¡specific: ¡found ¡only ¡in ¡a ¡single ¡lineage ¡ ¡

Evolu8on ¡of ¡genes ¡and ¡genomes ¡on ¡the ¡Drosophila ¡phylogeny. ¡Nature, ¡2007. ¡

slide-4
SLIDE 4

SPIMAP

(Rasmussen& Kellis,Mol. Biol. Evol. 2011.)

  • Bayesian ¡method ¡for ¡reconstruc8ng ¡gene ¡tress ¡in ¡the ¡

presence ¡of ¡known ¡species ¡trees ¡

  • Es8mates ¡gene ¡duplica8on ¡and ¡loss ¡rates, ¡specia8on ¡8mes, ¡

and ¡subs8tuion ¡rates ¡given ¡genome ¡sequence ¡data ¡for ¡ mul8ple ¡species ¡and ¡species ¡tree ¡

slide-5
SLIDE 5

Phylogenomic Pipeline

slide-6
SLIDE 6

SPIMAP’s Generative Model

  • Assumes ¡the ¡following ¡informa8on ¡is ¡given ¡

– Species ¡tree ¡(S) ¡ – Prior ¡informa8on ¡on ¡ ¡

  • duplica8on ¡and ¡loss ¡rates ¡θt ¡= ¡(λ, ¡μ) ¡
  • Subs8tu8on ¡rate ¡θb=(α,β) ¡
  • Then, ¡SPIMAP ¡specifies ¡genera8ve ¡model ¡for ¡

– Gene ¡tree ¡topology ¡(T) ¡ – Gene ¡tree ¡branch ¡lengths ¡(l) ¡ – Mapping ¡between ¡species ¡tree ¡and ¡gene ¡tree ¡(R) ¡

slide-7
SLIDE 7

SPIMAP’s Generative Model

slide-8
SLIDE 8

SPIMAP’s Generative Model

  • Genera8ng ¡tree ¡topology ¡given ¡duplica8on ¡and ¡loss ¡rates ¡(λ, ¡

μ) ¡

– Set ¡the ¡root ¡node ¡of ¡the ¡gene ¡tree ¡to ¡the ¡root ¡of ¡the ¡species ¡tree ¡ – Recursively ¡visits ¡each ¡node ¡to ¡generate ¡child ¡nodes ¡according ¡to ¡ bifurca8on ¡and ¡duplica8on ¡processes ¡

  • Surviving ¡nodes ¡
  • Ex8nct ¡nodes ¡
  • Doomed ¡nodes ¡
slide-9
SLIDE 9

SPIMAP’s Generative Model

  • Genera8ng ¡Subs8tu8on ¡Rates ¡

– Gene-­‑specific ¡rate ¡gj ¡for ¡each ¡gene ¡i ¡ – Species-­‑specific ¡rate ¡sk ¡for ¡each ¡species ¡k ¡

  • Branch ¡lengths ¡in ¡gene ¡trees ¡as ¡a ¡func8on ¡of ¡subs8tu8on ¡rates ¡and ¡

8me ¡

– l(vk): ¡branch ¡length ¡between ¡node ¡vk ¡and ¡its ¡parent ¡in ¡the ¡tree ¡ – t(vk): ¡elapsed ¡8me ¡to ¡vk ¡since ¡its ¡parent ¡

slide-10
SLIDE 10

SPIMAP’s Generative Model

  • SPIMAP ¡finds ¡a ¡maximum ¡a ¡posteriori ¡(MAP) ¡es8mate ¡of ¡the ¡

the ¡parameters ¡

– Gene ¡tree ¡topology ¡(T) ¡ – Gene ¡tree ¡branch ¡lengths ¡(l) ¡ – Mapping ¡between ¡species ¡tree ¡and ¡gene ¡tree ¡(R) ¡ – Data ¡(D) ¡ – ¡Duplica8on/loss ¡rate ¡and ¡subs8tu8on ¡rate ¡θ ¡

slide-11
SLIDE 11

Reconciliation between Gene and Species Trees

  • Specia8on ¡(round ¡nodes) ¡and ¡duplica8on ¡events ¡(starred ¡

nodes) ¡in ¡the ¡gene ¡tree ¡are ¡mapped ¡to ¡the ¡bifurca8on ¡points ¡ (uk’s) ¡in ¡the ¡species ¡tree ¡

slide-12
SLIDE 12

Model Prior

  • Prior ¡on ¡the ¡branch ¡length ¡as ¡a ¡marginal ¡probability ¡aGer ¡integra8ng ¡out ¡

gene ¡rate ¡g ¡

  • Decomposi8on ¡with ¡respect ¡to ¡each ¡subtree ¡τ ¡with ¡respect ¡to ¡specia8on ¡

node ¡

  • Condi8oning ¡on ¡branch ¡8me ¡t ¡
  • Each ¡term ¡in ¡the ¡above ¡equa8on ¡is ¡defined ¡as ¡
  • The ¡integral ¡is ¡computed ¡as ¡Monte ¡Carlo ¡integra8on ¡ ¡
slide-13
SLIDE 13

Factoring Gene Tree

  • Each ¡branch ¡in ¡the ¡species ¡tree ¡is ¡processed ¡separately. ¡The ¡

8me ¡points ¡for ¡duplica8on ¡events ¡are ¡treated ¡as ¡hidden. ¡

slide-14
SLIDE 14

Implicit Speciation Nodes

slide-15
SLIDE 15

Learning Algorithm

  • Tree ¡search ¡

– Subtree ¡pruning ¡and ¡regraGing ¡to ¡propose ¡new ¡tree ¡topologies ¡T ¡ – For ¡the ¡given ¡tree ¡topology, ¡Newton-­‑Rahpson ¡method ¡is ¡used ¡to ¡ es8mate ¡branch ¡lengths ¡ ¡

  • Es8mate ¡other ¡model ¡parameters ¡using ¡EM ¡algorithm ¡
slide-16
SLIDE 16

Species and Phylogenies in Datasets

  • 16 ¡fungal ¡species ¡
  • 12 ¡Drosophila ¡species ¡
slide-17
SLIDE 17

Estimating Substitution Rates

  • Data ¡for ¡coding ¡sequences ¡are ¡used ¡
  • Op8on ¡1: ¡

– One-­‑to-­‑one ¡orthologous ¡gene ¡trees ¡that ¡are ¡congruent ¡to ¡the ¡species ¡ tree ¡ – Fungi: ¡739 ¡confident ¡one-­‑to-­‑one ¡orthologous ¡families ¡ – Drosophila: ¡5,154 ¡one-­‑to-­‑one ¡families ¡

  • Op8on ¡2: ¡

– Use ¡gene ¡counts ¡for ¡genes ¡that ¡are ¡present ¡within ¡gene ¡family ¡clusters ¡ which ¡contain ¡duplica8on ¡and ¡loss. ¡

slide-18
SLIDE 18

Evaluation Metric I

  • The ¡ ¡ability ¡to ¡infer ¡syntenic ¡orthologs ¡ ¡

– pairs ¡of ¡genes ¡that ¡are ¡highly ¡likely ¡to ¡be ¡orthologous ¡given ¡their ¡ surrounding ¡conserved ¡gene ¡order ¡ – Syntenic ¡gene ¡pairs ¡should ¡appear ¡within ¡the ¡reconstructed ¡gene ¡tree ¡ such ¡that ¡their ¡most ¡recent ¡common ¡ancestor ¡is ¡a ¡specia8on. ¡

slide-19
SLIDE 19

Results from 16 Fungi

slide-20
SLIDE 20

Evaluation Metric II

  • Duplica8on/loss ¡inferred ¡across ¡the ¡clade ¡

– Inferring ¡gene ¡families ¡only ¡from ¡sequences ¡tend ¡to ¡overes8mate ¡ duplica8on/loss ¡rates. ¡(many ¡duplica8ons ¡early ¡on, ¡and ¡many ¡losses ¡ later) ¡

slide-21
SLIDE 21

Evaluation Metric III

  • Duplica8on ¡Consistency ¡Score ¡

– Characterize ¡the ¡plausibility ¡of ¡the ¡inferred ¡duplica8ons ¡ – For ¡each ¡inferred ¡duplica8on, ¡compute ¡

  • A, ¡B: ¡the ¡set ¡of ¡species ¡represented ¡in ¡descendants ¡of ¡the ¡

duplica8on ¡event ¡

slide-22
SLIDE 22

Duplication Consistency Score

Duplica8on ¡ event ¡ Species ¡

slide-23
SLIDE 23

Duplication Consistency Score

slide-24
SLIDE 24

Summary

  • SPIMAP ¡incorporates ¡in ¡a ¡unified ¡framework ¡models ¡for ¡gene ¡

duplica8on ¡and ¡loss, ¡gene-­‑ ¡and ¡species-­‑ ¡specific ¡rate ¡ varia8ons, ¡and ¡sequence ¡subs8tu8on. ¡

– Bayesian ¡model ¡and ¡empirical ¡Bayesian ¡method ¡ – Ignores ¡incomplete ¡lineage ¡sor8ng ¡