metagenomics
play

Metagenomics 02-715 Advanced Topics in Computa8onal Genomics - PowerPoint PPT Presentation

Metagenomics 02-715 Advanced Topics in Computa8onal Genomics Metagenomics Popula8on sequencing Goal: recover the genomic sequences of the species in


  1. Metagenomics 02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

  2. Metagenomics • Popula8on ¡sequencing ¡ • Goal: ¡recover ¡the ¡genomic ¡sequences ¡of ¡the ¡species ¡in ¡ ¡ gene8cally ¡diverse ¡environmental ¡samples ¡ – Human ¡gut, ¡honey ¡bees, ¡corals, ¡ecosystems ¡ – Cancer ¡tumor ¡cells, ¡pathogen ¡popula8ons ¡such ¡as ¡HIV ¡viral ¡strains ¡ – Poten8al ¡discovery ¡of ¡new ¡species ¡

  3. Metagenomics • Challenges ¡ – Assembly ¡of ¡a ¡large ¡number ¡of ¡rela8vely ¡short ¡and ¡noisy ¡reads ¡of ¡the ¡ DNA ¡in ¡a ¡sample ¡from ¡next ¡genera8on ¡sequencers ¡ – Uncertainty ¡of ¡the ¡popula8on’s ¡size ¡and ¡composi8on ¡ – Uneven ¡coverage ¡across ¡species: ¡coverage ¡is ¡affected ¡by ¡the ¡species’ ¡ frequency ¡in ¡the ¡sample ¡ – Reconstruc8ng ¡sequences ¡even ¡for ¡the ¡low-­‑coverage ¡species ¡

  4. Single Genome Sequencing • The ¡sequence ¡assembly ¡algorithm ¡for ¡single ¡genome ¡sequencing ¡ does ¡not ¡work ¡well ¡for ¡metagenome ¡assembly, ¡in ¡the ¡presence ¡of ¡ sequencing ¡errors ¡

  5. Genovo • De ¡novo ¡sequence ¡assembler ¡ ¡ • Model-­‑based ¡approach ¡ – a ¡genera8ve ¡probabilis8c ¡model ¡of ¡read ¡genera8on ¡from ¡ environmental ¡samples ¡is ¡specified ¡ – Captures ¡the ¡uncertainty ¡of ¡the ¡popula8on ¡structure ¡and ¡noise ¡model ¡ of ¡the ¡sequencing ¡technology ¡ – Chinese ¡restaurant ¡process ¡for ¡the ¡unknown ¡number ¡of ¡genomes ¡in ¡ the ¡sample ¡

  6. Generative Model for Metagenome Assembly • Genera8ve ¡models ¡for ¡ – Con$gs ¡{ b so } ¡for ¡leVers ¡at ¡posi8ons ¡ o ¡of ¡con8g ¡ s – Reads ¡ x i ’s ¡within ¡con8g ¡number ¡ s i ¡and ¡star8ng ¡loca8on ¡ o i ¡within ¡the ¡ con8g ¡ – Alignment ¡ y i ¡(orienta8on, ¡inser8ons, ¡dele8ons) ¡for ¡matching ¡ x i ¡to ¡the ¡ con8g ¡ • Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡in ¡prior, ¡but ¡in ¡the ¡ posterior ¡only ¡a ¡finite ¡number ¡of ¡con8gs ¡are ¡supported ¡by ¡ reads ¡ Con8g ¡ Read ¡

  7. Generative Model for Metagenome Assembly I • Con8gs: ¡Infinitely ¡many ¡leVers ¡in ¡infinitely ¡many ¡con8gs ¡are ¡ sampled ¡uniformly ¡ – Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡with ¡infinite ¡number ¡of ¡ nucleo8des ¡in ¡each ¡con8g ¡

  8. Generative Model for Metagenome Assembly II • Assignment ¡of ¡reads ¡to ¡con8gs: ¡ N ¡empty ¡reads ¡are ¡par88oned ¡ between ¡the ¡con8gs ¡ – Assignment ¡of ¡reads ¡to ¡con8gs ¡using ¡Chinese ¡restaurant ¡process ¡ (preferen8al ¡aVachment) ¡ • N -i,s : ¡the ¡number ¡of ¡reads ¡in ¡con8g ¡(cluster) ¡ s , ¡excluding ¡read ¡ i • The ¡probability ¡of ¡assigning ¡the ¡given ¡read ¡to ¡a ¡new ¡con8g ¡is ¡ propor8onal ¡to ¡ α ¡ ¡

  9. Generative Model for Metagenome Assembly III • Read ¡posi8on/alignment ¡within ¡the ¡con8g ¡ s i – Reads ¡are ¡assigned ¡a ¡star8ng ¡point ¡ o i ¡within ¡each ¡con8g ¡ • The ¡loca8ons ¡ o i ¡are ¡centered ¡at ¡0 ¡and ¡can ¡be ¡both ¡nega8ve ¡and ¡ posi8ve ¡from ¡the ¡symmetric ¡geometric ¡distribu8on ¡ ¡

  10. Generative Model for Metagenome Assembly IV – Each ¡read ¡is ¡assigned ¡a ¡length ¡ l i • ¡ L is ¡an ¡arbitrary ¡distribu8on ¡ – the ¡alignment ¡ y i ¡and ¡read ¡leVers ¡ x i for ¡each ¡read ¡is ¡generated ¡from ¡ • A ¡is ¡the ¡noise ¡model ¡known ¡for ¡the ¡sequencing ¡technology ¡(454, ¡ Illumina, ¡etc.): ¡noise ¡can ¡be ¡introduced ¡through ¡inser8ons, ¡ dele8ons, ¡mismatches ¡ • Log ¡likelihood ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡given ¡as ¡

  11. Learning Algorithm • Iterated ¡condi8onal ¡modes ¡(ICM) ¡algorithm ¡ – Maximize ¡local ¡condi8onal ¡probabili8es ¡sequen8ally: ¡hill-­‑climbing ¡ method ¡ – Find ¡MAP ¡solu8on ¡ – Iterate ¡un8l ¡convergence ¡(200-­‑300 ¡itera8ons) ¡ ¡ – Ini8aliza8on: ¡each ¡read ¡is ¡in ¡its ¡own ¡con8g ¡ • Consensus ¡sequence ¡ – Given ¡aligned ¡reads ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡where ¡ a so b ¡is ¡the ¡ number ¡of ¡reads ¡that ¡align ¡to ¡the ¡loca8on ¡

  12. Learning Algorithm • Read ¡mapping ¡( s i , o i , y i ) ¡for ¡(con8g, ¡coordinate, ¡alignment) ¡ – Sample ¡from ¡the ¡joint ¡posterior ¡ • Alignment ¡ y i : ¡for ¡each ¡loca8on ¡and ¡con8g, ¡use ¡Smith-­‑Waterman ¡ algori8hm ¡ • Given ¡the ¡best ¡alignment ¡ y so * ¡at ¡each ¡loca8on ¡and ¡con8g, ¡ determine ¡the ¡read ¡mapping ¡by ¡sampling ¡from ¡ – N s : ¡the ¡number ¡of ¡reads ¡in ¡each ¡con8g ¡ • Filtering ¡some ¡of ¡the ¡mappings ¡( s i , o i , y i ) ¡by ¡10-­‑mer ¡matching ¡

  13. Learning Algorithm • Global ¡moves ¡to ¡improve ¡convergence ¡ – Merge: ¡merge ¡two ¡con8gs ¡whose ¡ends ¡overlaps, ¡if ¡it ¡improves ¡the ¡ likelihood ¡ – Center: ¡change ¡the ¡coordinate ¡system ¡of ¡each ¡sequence ¡to ¡maximize ¡ the ¡ p ( o ) ¡component ¡of ¡the ¡likelihood ¡

  14. Learning Algorithm

  15. Evaluation Metric • BLAST ¡profile ¡ – Es8ma8on ¡of ¡the ¡number ¡of ¡genome ¡bases ¡that ¡the ¡con8g ¡spans ¡ – BLAST ¡the ¡con8gs ¡and ¡score ¡each ¡nucleo8des ¡in ¡the ¡con8gs ¡based ¡on ¡ the ¡BLAST ¡scores ¡ • PFAM ¡profile ¡ – The ¡total ¡number ¡of ¡decoded ¡amino ¡acids ¡matched ¡by ¡PFAM ¡profiles ¡ ader ¡decoding ¡the ¡con8gs ¡into ¡protein ¡sequences ¡and ¡annota8ng ¡ them ¡with ¡PFAM ¡profile ¡detec8on ¡tools ¡ – Examine ¡the ¡func8onal ¡annota8on ¡of ¡the ¡con8gs ¡

  16. Evaluation Metric • Likelihood-­‑based ¡scores ¡ • L: ¡the ¡total ¡length ¡of ¡all ¡con8gs ¡ • S: ¡the ¡number ¡of ¡con8gs ¡ – First ¡term: ¡penaliza8on ¡for ¡read ¡errors ¡ – Second ¡term: ¡penaliza8on ¡for ¡con8g ¡length ¡for ¡the ¡trade-­‑off ¡between ¡ con8g ¡length ¡and ¡accuracy ¡for ¡a ¡good ¡assembly ¡ – Third ¡term: ¡ensuring ¡a ¡minimal ¡overlap ¡of ¡ V 0 ¡bases ¡between ¡two ¡ consecu8ve ¡reads ¡ ¡ ¡

  17. Experiments Synthe8c ¡datasets ¡ • – 454-­‑250bp ¡reads ¡ – The ¡dataset ¡was ¡composed ¡of ¡the ¡following ¡sequences ¡(in ¡parenthesis, ¡number ¡of ¡ reads) ¡ • Acidianus ¡filamentous ¡virus ¡1 ¡(14505) ¡ • Akabane ¡virus ¡segment ¡L ¡(4247) ¡ • Akabane ¡virus ¡segment ¡M ¡(2636) ¡ • Black ¡queen ¡cell ¡virus ¡(5309) ¡ • Cactus ¡virus ¡X ¡(3523) ¡ • Chinese ¡wheat ¡mosaic ¡virus ¡RNA1 ¡(3300) ¡ • Chinese ¡wheat ¡mosaic ¡virus ¡RNA2 ¡(1649) ¡ • Cucurbit ¡aphid-­‑borne ¡yellows ¡virus ¡(2183) ¡ • Equine ¡arteri8s ¡virus ¡(4832) ¡ • Goose ¡paramyxovirus ¡SF02 ¡(4714) ¡ ¡ • Human ¡papillomavirus ¡-­‑ ¡1 ¡(1846) ¡ • Okra ¡mosaic ¡virus ¡(1016) ¡ • ¡Pariacoto ¡virus ¡RNA1 ¡(240) ¡

  18. Experiments • Datasets ¡

  19. Results • Evalua8on ¡based ¡on ¡BLAST ¡profiles ¡

  20. Results • Evalua8on ¡of ¡methods ¡based ¡on ¡PFAM ¡

  21. Results • Evalua8on ¡based ¡on ¡reads’ ¡consistency ¡in ¡assembly ¡

  22. Human Gut Microbiome Studies (Qin et al., Nature, 2010) • MetaHIT ¡(Metagenomics ¡of ¡the ¡human ¡intes8nal ¡tract) ¡project ¡ – Characterize ¡the ¡content, ¡diversity, ¡and ¡func8on ¡of ¡the ¡gut ¡microbiome ¡ among ¡different ¡individuals ¡ – The ¡gut ¡microbiomes ¡contribute ¡to ¡energy ¡harvest ¡from ¡food ¡ – Changes ¡of ¡gut ¡microbiome ¡may ¡be ¡associated ¡with ¡bowel ¡diseases ¡or ¡ obesity ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend