Visualising ¡genome ¡data
Scott Beatson
Australian Infectious Diseases Research Centre School of Chemistry and Molecular Biosciences University of Queensland
Visualising genome data Scott Beatson Australian Infectious - - PowerPoint PPT Presentation
Visualising genome data Scott Beatson Australian Infectious Diseases Research Centre School of Chemistry and Molecular Biosciences University of Queensland Acknowledgements: Beatson group Bryan Nouri Mitchell
Australian Infectious Diseases Research Centre School of Chemistry and Molecular Biosciences University of Queensland
Mitchell ¡SC ¡ Mitchell ¡S ¡ Nabil ¡ Nouri ¡ Nathan ¡ Bryan ¡ Kirs>n ¡
Puerperal ¡sepsis ¡(Streptococcus ¡pyogenes) ¡outbreak ¡ inves>ga>on ¡with ¡Illumina ¡sequencing ¡ Ben ¡Zakour ¡et ¡al., ¡J ¡Clin ¡Microbiol. ¡2012 ¡Jul;50(7):2224-‑8 ¡ BRIG: ¡Circular ¡viewer ¡for ¡BLAST ¡comparisons, ¡bacterial ¡ genome ¡assembly ¡and ¡read-‑mapping ¡visualisa>on. ¡ Alikhan ¡et ¡al., ¡BMC ¡Genomics. ¡2011 ¡Aug ¡8;12:402. ¡ ¡ Easyfig: ¡easy ¡prepara>on ¡of ¡scaled ¡gene>c ¡loci ¡images ¡ for ¡bacterial ¡genome ¡comparisons. ¡ Sullivan ¡et ¡al., ¡Bioinforma>cs. ¡2011 ¡Apr ¡1;27(7):1009-‑10. ¡ ¡ ¡ First ¡genome ¡sequence ¡for ¡the ¡globally ¡disseminated ¡E. ¡ coli ¡ST131 ¡clone ¡(454). ¡ ¡ Totsika ¡et ¡al., ¡PLoS ¡One. ¡2011;6(10):e26578 ¡
NGS ¡analysis ¡ database ¡ Query ¡ func>on ¡ Web ¡App ¡ Framework ¡ + ¡CSS ¡
Web ¡browser ¡
Web ¡App ¡ Framework ¡ + ¡CSS ¡
h:p://d3js.org/ ¡
D3: ¡Data-‑Driven ¡Documents ¡ Michael ¡Bostock, ¡Vadim ¡Ogievetsky, ¡Jeffrey ¡Heer ¡ IEEE ¡Trans. ¡Visualiza>on ¡& ¡Comp. ¡Graphics ¡(Proc. ¡InfoVis), ¡2011 ¡
(Bad) ¡Bioinforma>cian: ¡Here ¡are ¡your ¡VCF ¡files. ¡It ¡contains ¡informa>on ¡on ¡the ¡variants ¡ we ¡detected ¡from ¡you ¡NGS ¡data: ¡
¡
¡ (Excited) ¡Biologist: ¡Thanks. ¡I ¡will ¡load ¡it ¡into ¡Excel ¡
( ¡a ¡few ¡weeks ¡later) ¡
(Depressed, ¡Good) ¡Biologist: ¡Can ¡you ¡give ¡me ¡the ¡SNPs ¡that ¡sa>sfy ¡this ¡<xyz> ¡criteria ¡
( ¡a ¡few ¡hours ¡later) ¡
Biologist: ¡… ¡and ¡this ¡this ¡<xyz> ¡criteria ¡
¡
¡ ¡
##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 21 1234567 microsat1 GTCT G,GTACT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3 …
Shiny ¡| ¡Easy ¡web ¡applicaEons ¡in ¡R ¡|h:p://www.rstudio.com/shiny/ ¡ ¡ ¡ ¡ ¡ Matplotlib ¡WebAgg ¡
¡ Render ¡matplotlib ¡plots ¡directly ¡to ¡the ¡ ¡ web ¡browser. ¡ ¡ In ¡current ¡development ¡branch ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Bokeh ¡
¡ Python ¡interac>ve ¡visualiza>on ¡library ¡for ¡ large ¡datasets ¡that ¡na>vely ¡uses ¡the ¡latest ¡ web ¡technologies ¡ ¡ hOp://github.com/Con>nuumIO/Bokeh ¡
¡ ¡
Artemis ¡and ¡Bamview ¡ ACT ¡
– Since ¡2008 ¡simultaneous ¡spread ¡and ¡high ¡prevalence ¡in ¡mul>ple ¡countries ¡on ¡ several ¡con>nents ¡(Europe, ¡Asia, ¡Africa, ¡North ¡America ¡and ¡recently ¡Australia) ¡
(Nicolas-‑Chanoine ¡et ¡al ¡2008; ¡Coque ¡et ¡al ¡2008; ¡Clermont ¡et ¡al ¡2008; ¡Lau ¡et ¡al ¡2008) ¡ ¡
Rogers ¡et ¡al ¡2011 ¡
BRIG (Blast Ring Image Generator) Alikhan, Petty, Ben Zakour, Beatson BMC Genomics. 2011 12:402
Totsika et al 2011 PLoS ONE
Reference ¡sequence ¡appears ¡in ¡the ¡centre ¡of ¡ ring, ¡FASTA ¡or ¡Genbank/EMBL ¡ Pool ¡of ¡sequences ¡to ¡use ¡as ¡queries ¡ BLAST ¡op>ons ¡e.g ¡number ¡of ¡cores, ¡filter ¡on/off ¡
Legend ¡text ¡ Image ¡>tle ¡ Sequence ¡pool ¡ Sequences ¡shown ¡on ¡ this ¡ring ¡ Other ¡serngs ¡ Add ¡custom ¡annota>ons ¡ BLAST ¡type ¡
Submit ¡image ¡to ¡render ¡ ¡
Coverage ¡ Con>g ¡boundaries ¡ (alterna>ng ¡ ¡red/blue) ¡ GC ¡Content ¡ GC ¡Skew ¡ Custom ¡annota>ons ¡ Legend ¡showing ¡colour ¡ gradient ¡for ¡% ¡similarity ¡
Comparison ¡of ¡five ¡M28 ¡isolates ¡Illumina ¡raw ¡reads ¡mapped ¡onto ¡MGAS ¡6180 ¡
(BRIG, ¡Alikhan ¡et ¡al. ¡BMC ¡Microbiology ¡2011) ¡
R28 ¡protein ¡ encoded ¡by ¡RD2 ¡
SNPs-‑based ¡phylogene>c ¡analysis ¡of ¡five ¡M28 ¡isolates ¡and ¡the ¡reference ¡MGAS ¡6180 ¡
Phage ¡6180.2 ¡ Phage ¡pPS_008 ¡+ ¡ICEpPS_008 ¡
2 ¡extra ¡SNPs ¡in ¡PS ¡001: ¡
Prince ¡of ¡Wales, ¡ Randwick ¡ Royal ¡Hospital ¡for ¡ Women, ¡Randwick ¡ St ¡George’s, ¡ Kogarah ¡ 26/06/10 ¡ 27/06/10 ¡ 26/06/10 ¡ 21/09/10 ¡ 11/11/10 ¡
Ben ¡Zakour ¡et ¡al., ¡J ¡Clin ¡Microbiol. ¡2012 ¡Jul;50(7):2224-‑8 ¡
>iden>fier, ¡gene ¡id, ¡annota>on, ¡organism ¡[class] ¡ SEQUENCE ¡ >APECO1_O1CoBM73, ¡tsh, ¡Tsh, ¡Escherichia ¡coli ¡O1:K1:H7 ¡(APEC) ¡[Autotransporters] ¡ ATGAACAGAATTTATTCTCTTCGCTACAGCGCTGTGG… ¡
¡
– Defined ¡as: ¡hsp.iden>>es/record.query_length ¡>= ¡cutoff ¡
¡
– With ¡this ¡op>on, ¡no ¡clustering ¡is ¡performed ¡ Usage: ¡SeqFindR ¡[-‑h] ¡[-‑v] ¡[-‑o ¡OUTPUT] ¡[-‑d ¡SeqDB] ¡[-‑a ¡ASS] ¡[-‑t ¡TOL] ¡[-‑m ¡CONS] ¡[-‑i ¡INDEX] ¡[-‑l] ¡[-‑c ¡COLOR] ¡ ¡
(Stanton-‑Cook, ¡Beatson ¡unpublished) ¡
Match ¡consensus ¡and ¡mapping ¡≥ ¡95% ¡ No ¡match ¡or ¡match ¡< ¡95% ¡ Match ¡assembly ¡only ¡≥ ¡95% ¡ Match ¡mapping ¡only ¡≥ ¡95% ¡
0.95 ¡
0.85 ¡ User ¡adjustable ¡hit ¡thresholds ¡
Autotransporters C & M CU fimbriae Fe Other T UPEC specific genes
Plot ¡many ¡categories ¡simultaneously ¡
Cluster ¡rows ¡by ¡similarity ¡or ¡order ¡according ¡to ¡phylogene>c ¡analysis ¡
– compara>ve ¡circular ¡images ¡showing ¡conserva>on ¡compared ¡to ¡a ¡reference ¡ genome ¡ – plaqorm ¡independent ¡ – whole ¡genomes ¡or ¡groups ¡of ¡genes/genomes ¡can ¡be ¡used ¡as ¡reference ¡ – raw ¡reads, ¡assembled ¡genomes ¡can ¡be ¡queried ¡with ¡BLAST ¡ – custom ¡graphs ¡can ¡be ¡ploOed, ¡including ¡coverage ¡from ¡BAM ¡file ¡
Nabil ¡Alikhan ¡
NF ¡Alikhan, ¡NK ¡PeOy, ¡NL ¡Ben ¡Zakour, ¡SA ¡Beatson ¡(2011) ¡ BLAST ¡Ring ¡Image ¡Generator ¡(BRIG): ¡simple ¡prokaryote ¡genome ¡ comparisons, ¡BMC ¡Genomics, ¡12:402. ¡PMID: ¡21824423 ¡
hOp://sourceforge.net/projects/brig/ ¡
– compara>ve ¡grid ¡images ¡showing ¡conserva>on ¡compared ¡to ¡reference ¡genes ¡ – currently ¡command-‑line ¡only ¡(web-‑version ¡in ¡d3.js ¡coming ¡soon) ¡ – more ¡scalable ¡than ¡BRIG; ¡produces ¡generic ¡matrix ¡suitable ¡for ¡other ¡image ¡ rendering ¡sopware ¡ – “traffic ¡light” ¡format ¡suitable ¡for ¡alleles ¡differeing ¡by ¡one ¡SNV ¡
hOps://github.com/mscook ¡
See ¡also ¡Banzai: ¡high-‑throughput ¡QC, ¡ assembly, ¡mapping, ¡repor>ng ¡and ¡ phylogenomics ¡for ¡large ¡groups ¡of ¡ bacterial ¡genomes ¡ ¡ SeqFindR ¡manuscript ¡in ¡prepara>on. ¡
– linear ¡gene>c ¡loci ¡images ¡ ¡
– BLAST ¡comparisons ¡similar ¡to ¡Artemis ¡ Comparison ¡Images ¡ – custom ¡graphs ¡can ¡be ¡ploOed; ¡i.e. ¡suitable ¡ for ¡RNASeq ¡mapping ¡figures ¡ Minh-‑Duh ¡Phan ¡ScoO ¡Beatson, ¡Mark ¡Shembri ¡et ¡al., ¡submiOed. ¡
¡ Mitchell ¡Sullivan ¡ ¡ hOp://sourceforge.net/projects/easyfig/ ¡ ¡
– database/sopware ¡development ¡ tailored ¡to ¡large-‑scale ¡bacterial ¡ genome ¡sequencing ¡efforts ¡ – “Clinic ¡ready” ¡reports ¡from ¡raw ¡ sequencing ¡data ¡from ¡infec>ous ¡ disease ¡bacteria ¡
Epidemiology: ¡Outsmar>ng ¡Outbreaks ¡ (2012) ¡
– Data ¡driven ¡documents ¡interac>ng ¡ with ¡sequence ¡data ¡in ¡cloud ¡
computed ¡genome ¡analyses ¡via ¡a ¡ variety ¡of ¡graphical ¡interfaces. ¡
Pa>ent ¡trace ¡data: ¡
Report: ¡Pa>ent ¡C, ¡isolate ¡1 ¡
C ¡
index ¡
B ¡ D ¡ F ¡ E ¡
Phylogenomic ¡comparison ¡with ¡recent ¡K. ¡pneumoniae ¡isolates: ¡
Gene ¡profile: ¡
index ¡ B ¡ C ¡ D ¡ E ¡ F ¡ Outbreak ¡status: ¡
confirmed ¡
Predicted ¡transmission ¡route: ¡ ¡
C ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡B ¡ ¡ ¡ ¡ ¡ ¡ ¡index ¡
index ¡ B ¡ C ¡ D ¡ E ¡ F ¡ Iden>fica>on: ¡ ¡ Klebsiella ¡pneumoniae ¡ An>bio>c ¡ ¡ resistance ¡ Virulence ¡ Ward ¡1 ¡ Ward ¡2 ¡ Ward ¡3 ¡
1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡
An>bio>c ¡profile: ¡ ¡
AmpR ¡CefR ¡MerR ¡GenS ¡TigR ¡ (carbapenemase ¡posiEve) ¡
¡Virulence ¡profile: ¡
PosiEve: ¡tox1; ¡tox3; ¡tox4 ¡ NegaEve: ¡tox2, ¡tox5 ¡ ¡ ¡
¡Comments: ¡
Tigecycline ¡resistance ¡detected. ¡
Organism-specific antibiotic resistance and virulence gene profiles
a ¡ b ¡ c ¡ d ¡ e ¡
Identification, genotyping and comparison to local and international isolates
1 ¡SNP ¡
Beatson ¡group ¡ Nouri ¡Ben ¡Zakour ¡ Mitchell ¡Stanton-‑Cook ¡ Brian ¡Forde ¡ Nathan ¡Bachmann ¡ Kirs>n ¡Hanks ¡ Nabil ¡Alikhan ¡ Mitchell ¡Sullivan ¡ Bryan ¡Wee ¡ Nicola ¡Pe:y ¡(now ¡UTS) ¡ Elizabeth ¡Skippington ¡ ¡ ¡ ¡ ¡ ¡ Schembri ¡group ¡(UQ) ¡ Mark ¡Schembri ¡ Minh-‑Duy ¡Phan ¡ Kate ¡Peters ¡ Sohinee ¡Sarkar ¡ Luke ¡Allsopp ¡ Maud ¡Achard ¡ Danilo ¡Moriel ¡ Makrina ¡Totsika ¡ SCMB, ¡UQ ¡ Mark ¡Walker ¡
Funding: ¡ ¡ AID ¡microbial ¡genomics ¡ ¡ Australian ¡Research ¡Council ¡ ¡ Australian ¡Na>onal ¡Health ¡& ¡ Medical ¡Research ¡Council ¡ University ¡of ¡Manchester ¡ Mathew ¡Upton ¡