sequence based
play

Sequence Based 100,071 genomes 96,985 pass quality checks - PDF document

TOPMed Sequencing as of December 2017* http://nhlbi.sph.umich.edu/ Sequence Based 100,071 genomes 96,985 pass quality checks (96.9%) 1,689 flagged for low coverage


  1. TOPMed ¡Sequencing ¡as ¡of ¡December ¡2017…* ¡ http://nhlbi.sph.umich.edu/ Sequence ¡Based ¡ • 100,071 ¡genomes • 96,985 ¡pass ¡quality ¡checks (96.9%) • 1,689 ¡flagged ¡for ¡low ¡coverage ( ¡ ¡1.7%) Association ¡Studies • 1,397 ¡fail ¡quality ¡checks ( ¡ ¡1.4%) • Mean ¡depth: 38.0x • Genome ¡covered: 98.3% Gonçalo ¡Abecasis • Contamination: 0.25% Center ¡for ¡Statistical ¡Genetics University ¡of ¡Michigan ¡School ¡of ¡Public ¡Health • 1.3 ¡x ¡10 16 sequenced ¡bases • Most ¡frequent ¡outside ¡request ¡is ¡for ¡sequence ¡data 1.3 ¡x ¡10 16 sequenced ¡bases 1.3 ¡x ¡10 16 ¡ sequenced ¡bases On ¡the ¡same ¡scale ¡as ¡the ¡number ¡of ¡grains ¡of ¡sand ¡in ¡small ¡beach Number ¡of ¡snowflakes ¡covering ¡~13 ¡square ¡miles ¡in ¡a ¡10-­‑inch ¡deep ¡snowstorm. 100x ¡bigger ¡than ¡1,000 ¡Genomes ¡Project 100x ¡more ¡data ¡than ¡the ¡1000 ¡Genomes ¡Project. Image: ¡Wikimedia ¡Commons 1.3 ¡x ¡10 16 sequenced ¡bases US ¡corn ¡production ¡in ¡2014: ¡1.3 ¡x ¡10 15 kernels Image: ¡Patrick ¡Porter ¡@ ¡Smug ¡Mug Photo: ¡Andrew ¡Butko / ¡Wikimedia

  2. Imagine, ¡two ¡cooks ¡and ¡one ¡corn ¡bread ¡recipe… Images: ¡Wikimedia ¡Commons Comparison ¡of ¡Raw ¡Calls Michigan ¡IRC Sequencing ¡ Sequencing ¡ • 5 ¡samples ¡processed ¡in ¡duplicate ¡across ¡centers Center Center Sequence ¡QC ¡/ ¡Joint ¡Calling ¡/ ¡Harmonization • Raw ¡discrepancy ¡in ¡variant ¡calls NIH ¡NCBI • 0.69% ¡-­‑ 2.93% ¡per ¡non-­‑reference ¡genotype dbGAP // ¡Exchange ¡Area ¡// ¡SRA • Raw ¡discrepancy ¡after ¡harmonization Long-­‑term ¡data ¡repository • 0.29% ¡– 0.48% ¡per ¡non-­‑reference ¡genotype Study ¡1 Study ¡4 University ¡of ¡Washington ¡DCC Study ¡2 Study ¡5 • Lower ¡if ¡we ¡filter ¡individual ¡calls ¡on ¡genotype ¡quality ¡or ¡depth Coordination ¡/ ¡Phenotype ¡Harmonization ¡/ ¡Analysis Study ¡3 Study ¡6 471 ¡million ¡ 471 ¡ ¡variants, ¡ ¡217 ¡ 217 ¡million ¡ ¡singletons TOPMed ¡Freeze ¡5: ¡Executive ¡Summary % dbSNP Known/Novel Variant ¡Type Category # ¡PASS # ¡FAIL (PASS) Ts/Tv (PASS) SNP All 438M 85M 22.9% 1.93 / ¡1.69 • 64,960 ¡samples ¡and ¡470M ¡SNPs ¡and ¡indels • First ¡freeze ¡where ¡bulk ¡of ¡computation ¡was ¡carried ¡out ¡on ¡commercial ¡clouds Singleton 202M 24M 8.5% 1.23 ¡/ ¡1.54 • First ¡freeze ¡based ¡on ¡harmonized ¡data ¡processing ¡pipeline ¡developed ¡in ¡collaboration ¡with ¡CCDG Doubleton 69M 8.8M 12.6% 1.61 ¡/ ¡1.74 Tripleton ~ ¡0.1% 142M 24M 34.9% 2.23 ¡/ ¡1.99 • The ¡Freeze ¡is ¡available ¡to ¡TOPMed ¡investigators ¡at: 0.1% ¡~ ¡1% 13M 4.5M 98.2% 2.17 ¡/ ¡1.79 • dbGap Exchange ¡Area ¡for ¡download ¡of ¡genotype ¡data 1 ~ ¡10% 6.5M 2.9M 99.6% 1.82 ¡/ ¡1.75 • https://encore.sph.umich.edu for ¡simple ¡association ¡analyses • https://imputationserver.sph.umich.edu/ for ¡imputation ¡analyses ¡ >10% 5.3M 2.0M 99.8% 2.11 ¡/ ¡1.88 Indels All 33.4M 26.2M 20.1% • The ¡Freeze ¡is ¡available ¡to ¡everyone ¡at: • https://bravo.sph.umich.edu for ¡browsing ¡variant ¡lists ¡only Singleton 15.7M 4.7M 10.1% Doubleton 5.3M 1.8M 12.6% • The ¡Freeze ¡is ¡the ¡largest ¡human ¡genome ¡variation ¡callset ¡known ¡to ¡us. Tripleton ~ ¡0.1% 10.7M 8.0M 26.7% • The ¡Freeze ¡is ¡our ¡first ¡hg38 ¡callset. ¡ 0.1% ¡~ ¡1% 2.8M 968K 88.9% • The ¡Freeze ¡can ¡surely ¡be ¡improved. ¡ If ¡you ¡see ¡something, ¡say ¡something. 1 ~ ¡10% 432K 2.3M 98.5% >10% 298K 1.4M 99.6%

  3. Va Variant ¡ ¡Count Sing Si ngleton ¡ n ¡Co Count Reassuringly, ¡SNP ¡and ¡indel ¡ Reassuringly, ¡SNP ¡and ¡indel ¡singleton ¡ Per ¡ Pe ¡Individual counts ¡are ¡strongly ¡correlated Per ¡ Pe ¡Individual counts ¡are ¡also ¡strongly ¡correlated Type SNPs Indels Type SNPs Indels Average 3.48M 192K Average 3,019 235 STDEV 301K 20.2K STDEV 2,077 160 Max 4.07M 233K Max 41,110 3,141 Min 3.01M 163K Min 0 0 25%-­‑ile 3.27M 177K 25%-­‑ile 1,591 124 Median 3.29M 179K Median 2,995 231 75%-­‑ile 3.88M 218K 75%-­‑ile 3,948 311 Ra Raw ¡ ¡“De ¡ ¡No Novo” ¡ ¡/ ¡ ¡Error ¡ ¡Ra Rate Browse ¡All ¡Variations ¡Online (Freeze ¡4) http://bravo.sph.umich.edu ~5,700 ¡singleton ¡SNPs ¡per ¡sample Peter ¡VandeHaar KMT2D PCSK9 1.3% ¡of ¡these ¡are ¡Mendelian ¡inconsistent ~300 ¡singleton ¡indels ¡per ¡sample 1.7% ¡of ¡these ¡are ¡Mendelian ¡inconsistent 496 ¡missense, ¡26 ¡inframe indels, ¡0 ¡stop ¡or ¡frameshifts 91 ¡missense, ¡4 ¡inframe indels, ¡7 ¡stop ¡or ¡frameshifts How ¡to ¡help ¡TOPMed advance ¡discoveries? How ¡ENCORE ¡works ¡… Matthew Jonathon Flickinger LeFaive • Genomewide ¡analyses ¡at ¡scale ¡ are ¡challenging • Even ¡simple ¡analysis ¡can ¡require ¡ 1,000s ¡of ¡CPU ¡days ¡to ¡complete snp,pvalue • Need ¡to ¡engage ¡diverse ¡teams ¡in ¡ rs1234,0.05 analysis ¡and ¡interpretation rs4343,0.0002 rs51101,0.61 rs981,0.000018 rs2223,0.72

  4. LDL ¡Genomewide ¡Analysis ¡in ¡ENCORE Browsing ¡Variant ¡Lists ¡ Through ¡BRAVO Peter ¡VandeHaar, ¡Daniel ¡Taliun TOPMed ¡Variant ¡Browser ExAc Variant ¡Browser ¡(Daniel ¡MacArthur ¡et ¡al.) • TOPMed ¡Variants ¡Available ¡for ¡Browsing ¡at • https://bravo.sph.umich.edu • This ¡includes ¡a ¡subset ¡of ¡the ¡TOPMed ¡variants ¡from: • Studies ¡and ¡individuals ¡from ¡whom ¡we ¡received ¡explicit ¡permission ¡to ¡ share ¡variant ¡list ¡in ¡BRAVO ¡and ¡submit ¡variants ¡to ¡dbSNP (rs#) • The ¡VCF ¡file ¡corresponding ¡to ¡our ¡dbSNP submission ¡is ¡available ¡from ¡BRAVO ¡now ¡and ¡will ¡be ¡ available ¡from ¡dbSNP later ¡(as ¡customary). • Accessing ¡BRAVO ¡requires ¡users ¡to ¡click-­‑through ¡terms ¡developed ¡in ¡collaboration ¡with ¡ELSI ¡ committee. • Currently, ¡supporting ¡>1,000 ¡users ¡who ¡agreed ¡to ¡click-­‑through ¡terms ¡ • >100 ¡downloaded ¡dbSNP submission Current ¡State ¡of ¡Genetic ¡Association ¡Studies Goals ¡for ¡Sequence-­‑based ¡Studies • Surveying ¡common ¡variation ¡across ¡10,000s ¡-­‑ 100,000s ¡of ¡individuals ¡ COMPLETE ¡GENETIC ¡ARCHITECTURE ¡OF ¡EACH ¡TRAIT is ¡now ¡routine All ¡associated ¡risk ¡variants, ¡common, ¡rare, ¡SNPs, ¡indels ¡& ¡beyond • Many ¡common ¡alleles ¡have ¡been ¡associated ¡with ¡a ¡variety ¡of ¡human ¡ complex ¡traits UNDERSTAND ¡FUNCTION ¡ LINKING ¡EACH ¡LOCUS ¡TO ¡DISEASE • The ¡functional ¡consequences ¡of ¡these ¡alleles ¡are ¡often ¡subtle, ¡and ¡ translating ¡the ¡results ¡into ¡mechanistic ¡insights ¡remains ¡challenging What ¡happens ¡in ¡gene ¡knockouts? Use ¡sequencing ¡to ¡find ¡rare ¡human ¡“knockout” ¡alleles Why? ¡Results ¡of ¡animal ¡studies ¡and ¡ in ¡vitro studies ¡often ¡murky

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend