evolution
play

Evolution 02-715 Advanced Topics in Computa8onal Genomics - PowerPoint PPT Presentation

Evolution 02-715 Advanced Topics in Computa8onal Genomics Terminology Synteny: the condi8on of two or more genes being located on the same chromosome


  1. Evolution 02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

  2. Terminology Synteny: ¡the ¡condi8on ¡of ¡two ¡or ¡more ¡genes ¡being ¡located ¡on ¡the ¡same ¡ • chromosome ¡across ¡species ¡whether ¡or ¡not ¡there ¡is ¡demonstrable ¡linkage ¡ between ¡them. ¡ Orthologous ¡genes: ¡two ¡or ¡more ¡genes ¡that ¡diverged ¡aGer ¡ ¡a ¡specia8on ¡ • event ¡ – The ¡history ¡of ¡genes ¡reflect ¡the ¡history ¡of ¡species ¡ – E.g., ¡alpha ¡hemoglobin ¡in ¡man ¡and ¡mouse ¡ Paralogous ¡genes: ¡two ¡or ¡more ¡genes ¡that ¡diverged ¡aGer ¡a ¡duplica8on ¡ • event ¡ – E.g., ¡alpha ¡and ¡beta ¡hemoglobin ¡ Gene ¡family: ¡the ¡set ¡of ¡all ¡genes ¡descended ¡from ¡a ¡single ¡gene ¡in ¡the ¡last ¡ • common ¡ancestor ¡of ¡all ¡species. ¡

  3. Drosophila 12 Species Genomes Conserved ¡homologues: ¡conserved ¡in ¡all ¡species ¡as ¡orthologues ¡or ¡paralogues ¡ • Patch ¡homologues ¡with ¡melanogaster: ¡conserved ¡in ¡at ¡least ¡two ¡species ¡but ¡not ¡found ¡in ¡all ¡species ¡ • Patch ¡homologues ¡without ¡D. ¡melanogaster ¡homologue ¡ • Lineage ¡specific: ¡found ¡only ¡in ¡a ¡single ¡lineage ¡ ¡ • Evolu8on ¡of ¡genes ¡and ¡genomes ¡on ¡the ¡Drosophila ¡phylogeny. ¡Nature, ¡2007. ¡

  4. SPIMAP (Rasmussen& Kellis,Mol. Biol. Evol. 2011.) • Bayesian ¡method ¡for ¡reconstruc8ng ¡gene ¡tress ¡in ¡the ¡ presence ¡of ¡known ¡species ¡trees ¡ • Es8mates ¡gene ¡duplica8on ¡and ¡loss ¡rates, ¡specia8on ¡8mes, ¡ and ¡subs8tuion ¡rates ¡given ¡genome ¡sequence ¡data ¡for ¡ mul8ple ¡species ¡and ¡species ¡tree ¡

  5. Phylogenomic Pipeline

  6. SPIMAP’s Generative Model • Assumes ¡the ¡following ¡informa8on ¡is ¡given ¡ – Species ¡tree ¡(S) ¡ – Prior ¡informa8on ¡on ¡ ¡ • duplica8on ¡and ¡loss ¡rates ¡θ t ¡= ¡(λ, ¡μ) ¡ • Subs8tu8on ¡rate ¡θ b =(α,β) ¡ • Then, ¡SPIMAP ¡specifies ¡genera8ve ¡model ¡for ¡ – Gene ¡tree ¡topology ¡(T) ¡ – Gene ¡tree ¡branch ¡lengths ¡(l) ¡ – Mapping ¡between ¡species ¡tree ¡and ¡gene ¡tree ¡(R) ¡

  7. SPIMAP’s Generative Model

  8. SPIMAP’s Generative Model • Genera8ng ¡tree ¡topology ¡given ¡duplica8on ¡and ¡loss ¡rates ¡(λ, ¡ μ) ¡ – Set ¡the ¡root ¡node ¡of ¡the ¡gene ¡tree ¡to ¡the ¡root ¡of ¡the ¡species ¡tree ¡ – Recursively ¡visits ¡each ¡node ¡to ¡generate ¡child ¡nodes ¡according ¡to ¡ bifurca8on ¡and ¡duplica8on ¡processes ¡ • Surviving ¡nodes ¡ • Ex8nct ¡nodes ¡ • Doomed ¡nodes ¡

  9. SPIMAP’s Generative Model • Genera8ng ¡Subs8tu8on ¡Rates ¡ – Gene-­‑specific ¡rate ¡g j ¡for ¡each ¡gene ¡i ¡ – Species-­‑specific ¡rate ¡s k ¡for ¡each ¡species ¡k ¡ • Branch ¡lengths ¡in ¡gene ¡trees ¡as ¡a ¡func8on ¡of ¡subs8tu8on ¡rates ¡and ¡ 8me ¡ – l(v k ): ¡branch ¡length ¡between ¡node ¡v k ¡and ¡its ¡parent ¡in ¡the ¡tree ¡ – t(v k ): ¡elapsed ¡8me ¡to ¡v k ¡since ¡its ¡parent ¡

  10. SPIMAP’s Generative Model • SPIMAP ¡finds ¡a ¡maximum ¡a ¡posteriori ¡(MAP) ¡es8mate ¡of ¡the ¡ the ¡parameters ¡ – Gene ¡tree ¡topology ¡(T) ¡ – Gene ¡tree ¡branch ¡lengths ¡(l) ¡ – Mapping ¡between ¡species ¡tree ¡and ¡gene ¡tree ¡(R) ¡ – Data ¡(D) ¡ – ¡Duplica8on/loss ¡rate ¡and ¡subs8tu8on ¡rate ¡θ ¡

  11. Reconciliation between Gene and Species Trees • Specia8on ¡(round ¡nodes) ¡and ¡duplica8on ¡events ¡(starred ¡ nodes) ¡in ¡the ¡gene ¡tree ¡are ¡mapped ¡to ¡the ¡bifurca8on ¡points ¡ (u k ’s) ¡in ¡the ¡species ¡tree ¡

  12. Model Prior Prior ¡on ¡the ¡branch ¡length ¡as ¡a ¡marginal ¡probability ¡aGer ¡integra8ng ¡out ¡ • gene ¡rate ¡g ¡ Decomposi8on ¡with ¡respect ¡to ¡each ¡subtree ¡τ ¡with ¡respect ¡to ¡specia8on ¡ • node ¡ Condi8oning ¡on ¡branch ¡8me ¡t ¡ • Each ¡term ¡in ¡the ¡above ¡equa8on ¡is ¡defined ¡as ¡ • The ¡integral ¡is ¡computed ¡as ¡Monte ¡Carlo ¡integra8on ¡ ¡ •

  13. Factoring Gene Tree • Each ¡branch ¡in ¡the ¡species ¡tree ¡is ¡processed ¡separately. ¡The ¡ 8me ¡points ¡for ¡duplica8on ¡events ¡are ¡treated ¡as ¡hidden. ¡

  14. Implicit Speciation Nodes

  15. Learning Algorithm • Tree ¡search ¡ – Subtree ¡pruning ¡and ¡regraGing ¡to ¡propose ¡new ¡tree ¡topologies ¡T ¡ – For ¡the ¡given ¡tree ¡topology, ¡Newton-­‑Rahpson ¡method ¡is ¡used ¡to ¡ es8mate ¡branch ¡lengths ¡ ¡ • Es8mate ¡other ¡model ¡parameters ¡using ¡EM ¡algorithm ¡

  16. Species and Phylogenies in Datasets • 16 ¡fungal ¡species ¡ • 12 ¡Drosophila ¡species ¡

  17. Estimating Substitution Rates • Data ¡for ¡coding ¡sequences ¡are ¡used ¡ • Op8on ¡1: ¡ – One-­‑to-­‑one ¡orthologous ¡gene ¡trees ¡that ¡are ¡congruent ¡to ¡the ¡species ¡ tree ¡ – Fungi: ¡739 ¡confident ¡one-­‑to-­‑one ¡orthologous ¡families ¡ – Drosophila: ¡5,154 ¡one-­‑to-­‑one ¡families ¡ • Op8on ¡2: ¡ – Use ¡gene ¡counts ¡for ¡genes ¡that ¡are ¡present ¡within ¡gene ¡family ¡clusters ¡ which ¡contain ¡duplica8on ¡and ¡loss. ¡

  18. Evaluation Metric I • The ¡ ¡ability ¡to ¡infer ¡syntenic ¡orthologs ¡ ¡ – pairs ¡of ¡genes ¡that ¡are ¡highly ¡likely ¡to ¡be ¡orthologous ¡given ¡their ¡ surrounding ¡conserved ¡gene ¡order ¡ – Syntenic ¡gene ¡pairs ¡should ¡appear ¡within ¡the ¡reconstructed ¡gene ¡tree ¡ such ¡that ¡their ¡most ¡recent ¡common ¡ancestor ¡is ¡a ¡specia8on. ¡

  19. Results from 16 Fungi

  20. Evaluation Metric II • Duplica8on/loss ¡inferred ¡across ¡the ¡clade ¡ – Inferring ¡gene ¡families ¡only ¡from ¡sequences ¡tend ¡to ¡overes8mate ¡ duplica8on/loss ¡rates. ¡(many ¡duplica8ons ¡early ¡on, ¡and ¡many ¡losses ¡ later) ¡

  21. Evaluation Metric III • Duplica8on ¡Consistency ¡Score ¡ – Characterize ¡the ¡plausibility ¡of ¡the ¡inferred ¡duplica8ons ¡ – For ¡each ¡inferred ¡duplica8on, ¡compute ¡ • A, ¡B: ¡the ¡set ¡of ¡species ¡represented ¡in ¡descendants ¡of ¡the ¡ duplica8on ¡event ¡

  22. Duplication Consistency Score Duplica8on ¡ event ¡ Species ¡

  23. Duplication Consistency Score

  24. Summary • SPIMAP ¡incorporates ¡in ¡a ¡unified ¡framework ¡models ¡for ¡gene ¡ duplica8on ¡and ¡loss, ¡gene-­‑ ¡and ¡species-­‑ ¡specific ¡rate ¡ varia8ons, ¡and ¡sequence ¡subs8tu8on. ¡ – Bayesian ¡model ¡and ¡empirical ¡Bayesian ¡method ¡ – Ignores ¡incomplete ¡lineage ¡sor8ng ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend