Metagenomics 02-715 Advanced Topics in Computa8onal Genomics - - PowerPoint PPT Presentation

metagenomics
SMART_READER_LITE
LIVE PREVIEW

Metagenomics 02-715 Advanced Topics in Computa8onal Genomics - - PowerPoint PPT Presentation

Metagenomics 02-715 Advanced Topics in Computa8onal Genomics Metagenomics Popula8on sequencing Goal: recover the genomic sequences of the species in


slide-1
SLIDE 1

Metagenomics

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

Metagenomics

  • Popula8on ¡sequencing ¡
  • Goal: ¡recover ¡the ¡genomic ¡sequences ¡of ¡the ¡species ¡in ¡ ¡

gene8cally ¡diverse ¡environmental ¡samples ¡

– Human ¡gut, ¡honey ¡bees, ¡corals, ¡ecosystems ¡ – Cancer ¡tumor ¡cells, ¡pathogen ¡popula8ons ¡such ¡as ¡HIV ¡viral ¡strains ¡ – Poten8al ¡discovery ¡of ¡new ¡species ¡

slide-3
SLIDE 3

Metagenomics

  • Challenges ¡

– Assembly ¡of ¡a ¡large ¡number ¡of ¡rela8vely ¡short ¡and ¡noisy ¡reads ¡of ¡the ¡ DNA ¡in ¡a ¡sample ¡from ¡next ¡genera8on ¡sequencers ¡ – Uncertainty ¡of ¡the ¡popula8on’s ¡size ¡and ¡composi8on ¡ – Uneven ¡coverage ¡across ¡species: ¡coverage ¡is ¡affected ¡by ¡the ¡species’ ¡ frequency ¡in ¡the ¡sample ¡ – Reconstruc8ng ¡sequences ¡even ¡for ¡the ¡low-­‑coverage ¡species ¡

slide-4
SLIDE 4

Single Genome Sequencing

  • The ¡sequence ¡assembly ¡algorithm ¡for ¡single ¡genome ¡sequencing ¡

does ¡not ¡work ¡well ¡for ¡metagenome ¡assembly, ¡in ¡the ¡presence ¡of ¡ sequencing ¡errors ¡

slide-5
SLIDE 5

Genovo

  • De ¡novo ¡sequence ¡assembler ¡ ¡
  • Model-­‑based ¡approach ¡

– a ¡genera8ve ¡probabilis8c ¡model ¡of ¡read ¡genera8on ¡from ¡ environmental ¡samples ¡is ¡specified ¡ – Captures ¡the ¡uncertainty ¡of ¡the ¡popula8on ¡structure ¡and ¡noise ¡model ¡

  • f ¡the ¡sequencing ¡technology ¡

– Chinese ¡restaurant ¡process ¡for ¡the ¡unknown ¡number ¡of ¡genomes ¡in ¡ the ¡sample ¡

slide-6
SLIDE 6

Generative Model for Metagenome Assembly

  • Genera8ve ¡models ¡for ¡

– Con$gs ¡{bso} ¡for ¡leVers ¡at ¡posi8ons ¡o ¡of ¡con8g ¡s – Reads ¡xi’s ¡within ¡con8g ¡number ¡si ¡and ¡star8ng ¡loca8on ¡oi ¡within ¡the ¡ con8g ¡ – Alignment ¡yi ¡(orienta8on, ¡inser8ons, ¡dele8ons) ¡for ¡matching ¡xi ¡to ¡the ¡ con8g ¡

  • Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡in ¡prior, ¡but ¡in ¡the ¡

posterior ¡only ¡a ¡finite ¡number ¡of ¡con8gs ¡are ¡supported ¡by ¡ reads ¡

Con8g ¡ Read ¡

slide-7
SLIDE 7

Generative Model for Metagenome Assembly I

  • Con8gs: ¡Infinitely ¡many ¡leVers ¡in ¡infinitely ¡many ¡con8gs ¡are ¡

sampled ¡uniformly ¡

– Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡with ¡infinite ¡number ¡of ¡ nucleo8des ¡in ¡each ¡con8g ¡

slide-8
SLIDE 8

Generative Model for Metagenome Assembly II

  • Assignment ¡of ¡reads ¡to ¡con8gs: ¡N ¡empty ¡reads ¡are ¡par88oned ¡

between ¡the ¡con8gs ¡

– Assignment ¡of ¡reads ¡to ¡con8gs ¡using ¡Chinese ¡restaurant ¡process ¡ (preferen8al ¡aVachment) ¡

  • N-i,s: ¡the ¡number ¡of ¡reads ¡in ¡con8g ¡(cluster) ¡s, ¡excluding ¡read ¡i
  • The ¡probability ¡of ¡assigning ¡the ¡given ¡read ¡to ¡a ¡new ¡con8g ¡is ¡

propor8onal ¡to ¡α ¡ ¡

slide-9
SLIDE 9

Generative Model for Metagenome Assembly III

  • Read ¡posi8on/alignment ¡within ¡the ¡con8g ¡si

– Reads ¡are ¡assigned ¡a ¡star8ng ¡point ¡oi ¡within ¡each ¡con8g ¡

  • The ¡loca8ons ¡oi ¡are ¡centered ¡at ¡0 ¡and ¡can ¡be ¡both ¡nega8ve ¡and ¡

posi8ve ¡from ¡the ¡symmetric ¡geometric ¡distribu8on ¡ ¡

slide-10
SLIDE 10

Generative Model for Metagenome Assembly IV

– Each ¡read ¡is ¡assigned ¡a ¡length ¡li

  • ¡L is ¡an ¡arbitrary ¡distribu8on ¡

– the ¡alignment ¡yi ¡and ¡read ¡leVers ¡xi for ¡each ¡read ¡is ¡generated ¡from ¡

  • A ¡is ¡the ¡noise ¡model ¡known ¡for ¡the ¡sequencing ¡technology ¡(454, ¡

Illumina, ¡etc.): ¡noise ¡can ¡be ¡introduced ¡through ¡inser8ons, ¡ dele8ons, ¡mismatches ¡

  • Log ¡likelihood ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡given ¡as ¡
slide-11
SLIDE 11

Learning Algorithm

  • Iterated ¡condi8onal ¡modes ¡(ICM) ¡algorithm ¡

– Maximize ¡local ¡condi8onal ¡probabili8es ¡sequen8ally: ¡hill-­‑climbing ¡ method ¡ – Find ¡MAP ¡solu8on ¡ – Iterate ¡un8l ¡convergence ¡(200-­‑300 ¡itera8ons) ¡ ¡ – Ini8aliza8on: ¡each ¡read ¡is ¡in ¡its ¡own ¡con8g ¡

  • Consensus ¡sequence ¡

– Given ¡aligned ¡reads ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡where ¡aso

b ¡is ¡the ¡

number ¡of ¡reads ¡that ¡align ¡to ¡the ¡loca8on ¡

slide-12
SLIDE 12

Learning Algorithm

  • Read ¡mapping ¡(si, oi, yi) ¡for ¡(con8g, ¡coordinate, ¡alignment) ¡

– Sample ¡from ¡the ¡joint ¡posterior ¡

  • Alignment ¡yi: ¡for ¡each ¡loca8on ¡and ¡con8g, ¡use ¡Smith-­‑Waterman ¡

algori8hm ¡

  • Given ¡the ¡best ¡alignment ¡yso* ¡at ¡each ¡loca8on ¡and ¡con8g, ¡

determine ¡the ¡read ¡mapping ¡by ¡sampling ¡from ¡

– Ns: ¡the ¡number ¡of ¡reads ¡in ¡each ¡con8g ¡

  • Filtering ¡some ¡of ¡the ¡mappings ¡(si, oi, yi) ¡by ¡10-­‑mer ¡matching ¡
slide-13
SLIDE 13

Learning Algorithm

  • Global ¡moves ¡to ¡improve ¡convergence ¡

– Merge: ¡merge ¡two ¡con8gs ¡whose ¡ends ¡overlaps, ¡if ¡it ¡improves ¡the ¡ likelihood ¡ – Center: ¡change ¡the ¡coordinate ¡system ¡of ¡each ¡sequence ¡to ¡maximize ¡ the ¡p(o) ¡component ¡of ¡the ¡likelihood ¡

slide-14
SLIDE 14

Learning Algorithm

slide-15
SLIDE 15

Evaluation Metric

  • BLAST ¡profile ¡

– Es8ma8on ¡of ¡the ¡number ¡of ¡genome ¡bases ¡that ¡the ¡con8g ¡spans ¡ – BLAST ¡the ¡con8gs ¡and ¡score ¡each ¡nucleo8des ¡in ¡the ¡con8gs ¡based ¡on ¡ the ¡BLAST ¡scores ¡

  • PFAM ¡profile ¡

– The ¡total ¡number ¡of ¡decoded ¡amino ¡acids ¡matched ¡by ¡PFAM ¡profiles ¡ ader ¡decoding ¡the ¡con8gs ¡into ¡protein ¡sequences ¡and ¡annota8ng ¡ them ¡with ¡PFAM ¡profile ¡detec8on ¡tools ¡ – Examine ¡the ¡func8onal ¡annota8on ¡of ¡the ¡con8gs ¡

slide-16
SLIDE 16

Evaluation Metric

  • Likelihood-­‑based ¡scores ¡
  • L: ¡the ¡total ¡length ¡of ¡all ¡con8gs ¡
  • S: ¡the ¡number ¡of ¡con8gs ¡

– First ¡term: ¡penaliza8on ¡for ¡read ¡errors ¡ – Second ¡term: ¡penaliza8on ¡for ¡con8g ¡length ¡for ¡the ¡trade-­‑off ¡between ¡ con8g ¡length ¡and ¡accuracy ¡for ¡a ¡good ¡assembly ¡ – Third ¡term: ¡ensuring ¡a ¡minimal ¡overlap ¡of ¡V0 ¡bases ¡between ¡two ¡ consecu8ve ¡reads ¡ ¡ ¡

slide-17
SLIDE 17

Experiments

  • Synthe8c ¡datasets ¡

– 454-­‑250bp ¡reads ¡ – The ¡dataset ¡was ¡composed ¡of ¡the ¡following ¡sequences ¡(in ¡parenthesis, ¡number ¡of ¡ reads) ¡

  • Acidianus ¡filamentous ¡virus ¡1 ¡(14505) ¡
  • Akabane ¡virus ¡segment ¡L ¡(4247) ¡
  • Akabane ¡virus ¡segment ¡M ¡(2636) ¡
  • Black ¡queen ¡cell ¡virus ¡(5309) ¡
  • Cactus ¡virus ¡X ¡(3523) ¡
  • Chinese ¡wheat ¡mosaic ¡virus ¡RNA1 ¡(3300) ¡
  • Chinese ¡wheat ¡mosaic ¡virus ¡RNA2 ¡(1649) ¡
  • Cucurbit ¡aphid-­‑borne ¡yellows ¡virus ¡(2183) ¡
  • Equine ¡arteri8s ¡virus ¡(4832) ¡
  • Goose ¡paramyxovirus ¡SF02 ¡(4714) ¡ ¡
  • Human ¡papillomavirus ¡-­‑ ¡1 ¡(1846) ¡
  • Okra ¡mosaic ¡virus ¡(1016) ¡
  • ¡Pariacoto ¡virus ¡RNA1 ¡(240) ¡
slide-18
SLIDE 18

Experiments

  • Datasets ¡
slide-19
SLIDE 19

Results

  • Evalua8on ¡based ¡on ¡BLAST ¡profiles ¡
slide-20
SLIDE 20

Results

  • Evalua8on ¡of ¡methods ¡based ¡on ¡PFAM ¡
slide-21
SLIDE 21

Results

  • Evalua8on ¡based ¡on ¡reads’ ¡consistency ¡in ¡assembly ¡
slide-22
SLIDE 22

Human Gut Microbiome Studies

(Qin et al., Nature, 2010)

  • MetaHIT ¡(Metagenomics ¡of ¡the ¡human ¡intes8nal ¡tract) ¡project ¡

– Characterize ¡the ¡content, ¡diversity, ¡and ¡func8on ¡of ¡the ¡gut ¡microbiome ¡ among ¡different ¡individuals ¡ – The ¡gut ¡microbiomes ¡contribute ¡to ¡energy ¡harvest ¡from ¡food ¡ – Changes ¡of ¡gut ¡microbiome ¡may ¡be ¡associated ¡with ¡bowel ¡diseases ¡or ¡

  • besity ¡
slide-23
SLIDE 23

Data Generation

  • Faecal ¡specimens ¡from ¡124 ¡healthy, ¡over-­‑weight ¡and ¡obese ¡

human ¡adults, ¡and ¡inflammatory ¡bowel ¡disease ¡(IBD) ¡pa8ents ¡

  • Average ¡4.5Gb ¡of ¡sequence ¡for ¡each ¡sample ¡
  • 42.7% ¡of ¡the ¡Illumina ¡GA ¡reads ¡was ¡assembled ¡into ¡6.58 ¡

million ¡con8gs ¡of ¡length ¡> ¡500bp ¡

  • Common ¡sequence ¡cores ¡for ¡different ¡individuals: ¡35% ¡of ¡

reads ¡from ¡any ¡one ¡sample ¡could ¡be ¡mapped ¡to ¡con8gs ¡from ¡

  • ther ¡samples ¡
slide-24
SLIDE 24

Analysis of Assembled Microbiomes

  • Gene ¡catalogue ¡of ¡the ¡human ¡gut ¡microbiome ¡

– The ¡assembled ¡con8gs ¡contain ¡14 ¡million ¡ORFs ¡occupying ¡86.7% ¡of ¡the ¡ con8gs ¡ – 2.4 ¡million ¡ORFs ¡were ¡present ¡in ¡less ¡than ¡20% ¡of ¡samples ¡and ¡0.3 ¡ million ¡were ¡found ¡in ¡at ¡least ¡50% ¡of ¡individuals ¡

  • Common ¡set ¡of ¡bacterial ¡species ¡across ¡samples ¡

– Comparison ¡of ¡assembled ¡con8gs ¡with ¡650 ¡sequenced ¡bacterial ¡and ¡ archael ¡genomes ¡by ¡aligning ¡the ¡reads ¡to ¡these ¡genomes ¡ – 18 ¡species ¡in ¡all ¡individuals, ¡57 ¡species ¡in ¡>90% ¡and ¡75 ¡in ¡>50% ¡of ¡ individuals ¡ ¡

slide-25
SLIDE 25

Related Species in Microbiome

  • Clusters ¡of ¡species ¡in ¡the ¡network ¡based ¡on ¡correla8on ¡

coefficients ¡of ¡155 ¡species ¡

  • Similar ¡constella8ons ¡of ¡bacteria ¡in ¡different ¡individuals ¡
slide-26
SLIDE 26

Bacterial Functions

  • Minimal ¡gut ¡genome ¡

– the ¡parts ¡of ¡genomes ¡for ¡func8ons ¡necessary ¡for ¡a ¡bacterium ¡to ¡thrive ¡ in ¡a ¡gut ¡context ¡ – Present ¡in ¡almost ¡all ¡gut ¡bacterial ¡species ¡ – Genes ¡specific ¡for ¡the ¡gut ¡vs. ¡housekeeping ¡genes ¡for ¡all ¡bacteria ¡

  • Minimal ¡gut ¡metagenome ¡

– The ¡parts ¡of ¡genomes ¡involved ¡in ¡the ¡homeostasis ¡of ¡the ¡whole ¡ ecosystem ¡ – Present ¡in ¡most ¡individuals’ ¡gut ¡samples ¡