Evolution 02-715 Advanced Topics in Computa8onal Genomics - - PowerPoint PPT Presentation

evolution
SMART_READER_LITE
LIVE PREVIEW

Evolution 02-715 Advanced Topics in Computa8onal Genomics - - PowerPoint PPT Presentation

Evolution 02-715 Advanced Topics in Computa8onal Genomics Ascertainment Bias SNP discovery phase Assume SNPs have been ascertained in an alignment of


slide-1
SLIDE 1

Evolution

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

Ascertainment Bias

  • SNP ¡discovery ¡phase ¡

– Assume ¡SNPs ¡have ¡been ¡ascertained ¡in ¡an ¡alignment ¡of ¡different ¡ sequences ¡of ¡fixed ¡depth ¡d ¡ – The ¡final ¡sample ¡size ¡n ¡ – Ascertainment ¡condi8on: ¡the ¡locus ¡was ¡variable ¡in ¡the ¡ascertainment ¡ sample ¡

slide-3
SLIDE 3

Correcting for Ascertainment Bias

  • Likelihood ¡for ¡allele ¡frequencies ¡aMer ¡condi8oning ¡on ¡

ascertainment ¡(i.e., ¡unobserved ¡true ¡allele ¡frequencies) ¡

slide-4
SLIDE 4

Various Extensions

  • Varia8on ¡in ¡d ¡

– Informa8on ¡about ¡d ¡is ¡not ¡known, ¡but ¡we ¡know ¡the ¡distribu8on ¡of ¡d ¡ among ¡loci ¡

  • Allele ¡frequencies ¡in ¡the ¡ascertainment ¡sample ¡is ¡unknown ¡

– The ¡ascertainment ¡sample ¡may ¡not ¡have ¡been ¡included ¡in ¡the ¡final ¡ typed ¡sample. ¡ – Ascertainment ¡condi8on: ¡the ¡variability ¡in ¡the ¡ascertainment ¡sample ¡ and ¡variability ¡in ¡the ¡typed ¡sample. ¡

slide-5
SLIDE 5

Correcting for Ascertainment Bias

(Nielson et al., 2004)

  • Illustra8on ¡through ¡simula8on ¡study ¡(20 ¡genes, ¡10,000 ¡SNPs, ¡

5 ¡genes ¡for ¡ascertainment) ¡

slide-6
SLIDE 6

Ascertainment Bias from HapMap Analysis

slide-7
SLIDE 7

Cross-species Sequence Analysis

  • Func8onal ¡regions ¡of ¡genomes ¡are ¡conserved ¡across ¡species ¡
  • Cross-­‑species ¡sequence ¡conserva8on ¡is ¡believed ¡to ¡occur ¡

because ¡of ¡nega8ve ¡(purifying) ¡selec8on ¡

  • About ¡5% ¡or ¡more ¡of ¡bases ¡in ¡mammalian ¡genomes ¡are ¡under ¡

purifying ¡selec8on ¡

  • Protein ¡coding ¡genes ¡account ¡for ¡1.5% ¡of ¡the ¡regions ¡under ¡

purifying ¡selec8on ¡

slide-8
SLIDE 8

Phylo-HMM

  • Parse ¡aligned ¡sequences ¡into ¡two ¡classes ¡

– Conserved ¡vs. ¡nonconserved ¡

  • Maximum ¡likelihood ¡es8ma8on ¡of ¡parameters ¡of ¡Phylo-­‑HMM ¡
slide-9
SLIDE 9

Phylo-HMM

  • μ, ¡ν: ¡transi8on ¡

probabili8es ¡

  • States ¡

– c: ¡conserved ¡region ¡ – n: ¡non-­‑conserved ¡region ¡

  • ψn, ¡ψc: ¡emission ¡

probabili8es ¡as ¡a ¡tree ¡ ¡ ¡

slide-10
SLIDE 10

Phylo-HMM

  • ψn, ¡ψc: ¡emission ¡

probabili8es ¡as ¡a ¡ phylogene8c ¡model ¡

– Iden8cal ¡phylogene8c ¡ model ¡structure ¡for ¡two ¡ states ¡ – ¡ρ: ¡scaling ¡factor ¡for ¡ branch ¡length ¡0≤ρ≤1 ¡

  • Average ¡subs8tu8on ¡rate ¡
slide-11
SLIDE 11

Datasets

  • Vertebrate ¡species ¡

– Human, ¡mouse, ¡rat, ¡chicken, ¡fugu ¡rubripes ¡ – Alignment ¡with ¡human ¡as ¡reference ¡sequence ¡

  • Insect ¡species ¡

– Three ¡species ¡of ¡Drosophila ¡and ¡Anopheles ¡gambiae ¡ – Alignment ¡with ¡D. ¡melanogaster ¡as ¡reference ¡sequence ¡

  • Two ¡species ¡of ¡Caenorhabdi8s ¡ ¡

– Alignment ¡with ¡C. ¡elegans ¡as ¡reference ¡sequence ¡

  • Seven ¡species ¡of ¡saccharomyces ¡

– Alignment ¡with ¡S. ¡cerevisiae ¡as ¡reference ¡sequence ¡

slide-12
SLIDE 12

Phylogenetic Models: Assumed Topologies and Estimated Branch Lengths

slide-13
SLIDE 13

Estimated Conserved Elements

  • More ¡complex ¡organisms ¡have ¡more ¡conserved ¡regions ¡
  • utside ¡of ¡coding ¡regions ¡

Vertebrate ¡ Insect ¡ Worm ¡ Yeast ¡

slide-14
SLIDE 14

Conservation Around GRIA2 in Human

slide-15
SLIDE 15

Extreme Conservation

  • Extreme ¡conserva8on ¡at ¡the ¡3’ ¡end ¡of ¡the ¡ELAVL4 ¡gene ¡
slide-16
SLIDE 16

Key Observations

  • Conserved ¡regions ¡

– 3%-­‑8% ¡of ¡the ¡human ¡genome ¡conserved ¡in ¡vertebrates ¡and ¡other ¡ mammals ¡ – 37-­‑53% ¡in ¡D. ¡melanogaster ¡ – 18-­‑37% ¡in ¡C. ¡elegans ¡ – 47-­‑68% ¡in ¡S. ¡cerevisiae ¡

  • Highly ¡conserved ¡regions ¡(HCE) ¡

– 42% ¡of ¡HCEs ¡overlap ¡with ¡exons ¡in ¡vertebrate ¡genomes ¡ – >93% ¡for ¡insects, ¡worms, ¡yeasts ¡

  • Extreme ¡conserva8ons ¡in ¡3’ ¡UTRs ¡

– Post-­‑transrip8onal ¡regula8on? ¡

  • HCEs ¡in ¡intron ¡regions ¡

– Enriched ¡for ¡RNA ¡secondary ¡structure: ¡encoding ¡func8onal ¡RNAs? ¡

slide-17
SLIDE 17

Phylogenetics vs. Population Genetics

  • Phylogene8cs ¡

– Assumes ¡a ¡single ¡correct ¡species ¡phylogeny ¡that ¡holds ¡across ¡genomes ¡ – Ignores ¡varia8ons ¡among ¡individuals ¡of ¡the ¡same ¡species ¡or ¡assumes ¡a ¡ negligible ¡variability ¡within ¡species ¡ – Reduces ¡the ¡en8re ¡popula8on ¡of ¡a ¡species ¡into ¡a ¡single ¡individual ¡

  • Popula8on ¡gene8cs ¡

– Usually ¡concerned ¡with ¡within-­‑species ¡varia8on ¡in ¡genomes ¡ – Individuals ¡within ¡a ¡species ¡are ¡related ¡by ¡genealogies ¡

Siepel, ¡A. ¡Genome ¡Res. ¡19(11):1929-­‑41. ¡2009. ¡ Phylogenomics ¡of ¡primates ¡and ¡their ¡ancestral ¡popula8ons. ¡

slide-18
SLIDE 18

Population-aware Phylogenetics

  • Primate ¡species ¡

– Divergence ¡8me ¡is ¡short ¡rela8ve ¡to ¡ancestral ¡popula8on ¡sizes ¡ – Phylogene8cs ¡assump8ons ¡do ¡not ¡hold ¡ – Non-­‑negligible ¡popula8on ¡gene8c ¡effects ¡

  • Interspecies ¡comparison, ¡taking ¡into ¡account ¡selec8ve ¡forces ¡

within ¡species, ¡ancestral ¡popula8ons, ¡modes ¡of ¡specia8on ¡

slide-19
SLIDE 19

Phylogeny of Primates

Siepel, ¡A. ¡Genome ¡Res. ¡19(11):1929-­‑41. ¡2009. ¡ Phylogenomics ¡of ¡primates ¡and ¡their ¡ancestral ¡popula8ons. ¡

slide-20
SLIDE 20

Darwin’s Phylogeny

slide-21
SLIDE 21

Genealogies in Wright-Fisher Model

slide-22
SLIDE 22

Population Genetic Interpretation of Speciation

  • T: ¡coalescent ¡8me ¡
  • τ: ¡specia8on ¡8me ¡ ¡
slide-23
SLIDE 23

Population Genetic Interpretation of Speciation

  • τ>>Ne: ¡ ¡

– Divergence ¡between ¡ individual ¡chromosomes ¡ as ¡an ¡es8mate ¡of ¡ specia8on ¡8me ¡ – the ¡phylogene8cs ¡ assump8on ¡holds ¡

slide-24
SLIDE 24

Population Genetic Interpretation of Speciation

  • τ<<Ne: ¡ ¡

– Coalescent ¡8me ¡ dominates ¡ – Equivalent ¡to ¡the ¡ coalescent ¡in ¡popula8on ¡ gene8cs ¡

slide-25
SLIDE 25

Population Genetic Interpretation of Speciation

  • τ~Ne: ¡ ¡

– Both ¡ancestral ¡ popula8on ¡dynamics ¡and ¡ interspecies ¡divergence ¡ must ¡be ¡considered ¡ – Popula8on-­‑aware ¡ phylogene8cs ¡

slide-26
SLIDE 26

Three-Species Phylogeny

  • Three ¡species ¡X, ¡Y, ¡and ¡Z ¡with ¡

specia8on ¡8me ¡and ¡coalescent ¡8me ¡

– X: ¡human ¡ – Y: ¡chimpanzee ¡ – Z: ¡gorilla ¡

  • Black ¡phylogeny: ¡discordance ¡with ¡

the ¡phylogeny ¡among ¡the ¡three ¡ species ¡

  • Gray ¡phylogeny: ¡concordant ¡with ¡the ¡

phylogeny ¡among ¡the ¡three ¡species ¡

  • ILS: ¡incomplete ¡lineage ¡sor8ng ¡with ¡

deep ¡coalescent ¡

slide-27
SLIDE 27

Three-Species Phylogeny

  • When ¡Nxy, ¡Nxyz ¡are ¡

small, ¡τxy ¡and ¡τxyz ¡ approximate ¡the ¡ divergence ¡8me ¡well ¡

  • Otherwise, ¡the ¡

coalescent ¡8me ¡Txy, ¡Txyz ¡ need ¡to ¡be ¡taken ¡into ¡ account ¡

slide-28
SLIDE 28

Ancestral Recombination Graph for Three Individuals

Ancestral ¡Recombina8on ¡ Graph ¡ Phylogene8c ¡ Ancestral ¡Recombina8on ¡ Graph ¡

slide-29
SLIDE 29

Coal-HMM (Hobolth et al., 2009)

  • Four ¡states ¡

corresponding ¡to ¡ different ¡ phylogenies ¡with ¡ ILS ¡

  • Transi8ons ¡to ¡
  • ther ¡states ¡

correspond ¡to ¡ recombina8ons ¡

slide-30
SLIDE 30

Coal-HMM

  • HC1 ¡state ¡(with ¡no ¡ILS) ¡explains ¡only ¡~50% ¡of ¡sites ¡
  • Remaining ¡states ¡explain ¡the ¡other ¡50% ¡propor8oned ¡roughly ¡

equally ¡

slide-31
SLIDE 31

What if We Ignore Incomplete Lineage Sorting

  • Aligned ¡human ¡(Hom), ¡chimpanzee ¡(Pan), ¡gorilla ¡(Gor), ¡
  • rangutan ¡(Pon) ¡sequences ¡
  • Two ¡different ¡es8mated ¡lineages ¡
  • Without ¡considera8on ¡of ¡ILS, ¡subs8tu8on ¡rates ¡are ¡
  • veres8mated ¡