Using GVF for Clinical Annota3on of Personal Genomes . - - PowerPoint PPT Presentation

using gvf for clinical annota3on of personal genomes
SMART_READER_LITE
LIVE PREVIEW

Using GVF for Clinical Annota3on of Personal Genomes . - - PowerPoint PPT Presentation

Using GVF for Clinical Annota3on of Personal Genomes . Barry Moore, Shawn Rynearson, Fiona Cunningham, Graham Ritchie, Karen Eilbeck Ensembl and


slide-1
SLIDE 1

Using ¡GVF ¡for ¡Clinical ¡Annota3on ¡of ¡ Personal ¡Genomes ¡ . ¡ ¡

Barry ¡Moore, ¡Shawn ¡Rynearson, ¡ Fiona ¡Cunningham, ¡Graham ¡Ritchie, ¡ Karen ¡Eilbeck ¡ Ensembl ¡and ¡University ¡of ¡Utah ¡ ¡

slide-2
SLIDE 2

Challenges ¡of ¡translaConal ¡genomics ¡

  • The ¡size, ¡scope ¡and ¡complexity ¡of ¡genomic ¡

data ¡provides ¡many ¡challenges ¡to ¡efficient ¡use ¡ in ¡medicine. ¡

  • How ¡do ¡we ¡describe ¡a ¡personal ¡genome? ¡
  • What ¡is ¡needed ¡for ¡inclusion ¡of ¡genomic ¡data ¡

into ¡the ¡EHR. ¡

  • What ¡level ¡of ¡complexity ¡is ¡needed ¡for ¡each ¡

kind ¡of ¡user? ¡

slide-3
SLIDE 3

Today’s ¡talk ¡

  • MoCvaCon: ¡The ¡genomic ¡variant ¡informaCon ¡

boNle ¡neck ¡

  • Sequence ¡AnnotaCon ¡– ¡the ¡Sequence ¡

Ontology ¡

  • EHR ¡standards ¡
  • GVFClin ¡is ¡a ¡variant ¡file ¡with ¡standards ¡
slide-4
SLIDE 4

Technical ¡desiderata ¡for ¡the ¡integra3on ¡of ¡genomic ¡data ¡into ¡the ¡ medical ¡record ¡(Masys ¡et ¡al ¡2011) ¡ 1 ¡ Maintain ¡separaCon ¡of ¡primary ¡molecular ¡observaCons ¡from ¡the ¡ clinical ¡interpretaCons ¡of ¡those ¡data ¡ 2 ¡ Support ¡lossless ¡compression ¡from ¡primary ¡molecular ¡observaCons ¡ to ¡clinically ¡manageable ¡subsets ¡ 3 ¡ Maintain ¡linkage ¡of ¡molecular ¡observaCons ¡to ¡the ¡laboratory ¡ methods ¡used ¡to ¡generate ¡them ¡ 4 ¡ Support ¡compact ¡representaCon ¡of ¡clinically ¡acConable ¡subsets ¡for ¡

  • pCmal ¡performance ¡

5 ¡ Simultaneously ¡support ¡human ¡viewable ¡formats ¡and ¡machine ¡ readable ¡formats ¡in ¡order ¡to ¡facilitate ¡implementaCon ¡of ¡decision ¡ support ¡rules ¡ 6 ¡ AnCcipate ¡fundamental ¡changes ¡in ¡the ¡understanding ¡of ¡human ¡ molecular ¡variaCon ¡ 7 ¡ Support ¡both ¡individual ¡clinical ¡ ¡care ¡and ¡discovery ¡science ¡

slide-5
SLIDE 5

Kinds ¡of ¡genomic ¡test ¡

  • Known ¡disease ¡variants ¡

– Single ¡gene ¡sequenced ¡ – Panel ¡of ¡genes ¡sequenced ¡

  • Unknown ¡variant ¡sought ¡

– Exome ¡sequenced ¡ – Genome ¡sequence ¡ – Trio ¡family ¡genome/exome ¡sequenced ¡

slide-6
SLIDE 6

NG ¡sequencing ¡bioinformaCcs ¡

  • Base ¡calling ¡– ¡done ¡by ¡sequencing ¡machine ¡trace ¡

files ¡and ¡fastq ¡files ¡

  • Read ¡mapping ¡(mappers ¡and ¡aligners) ¡BWA, ¡Bfast ¡

and ¡BowCe ¡produce ¡SAM/BAM ¡files ¡

  • Alignment ¡polishing ¡– ¡remove ¡duplicate ¡reads ¡

and ¡re-­‑align ¡around ¡indels ¡

  • SNP ¡calling ¡uses ¡BAM ¡files, ¡produces ¡variant ¡files ¡
  • Structural ¡variant ¡detecCon ¡– ¡large ¡deleCons ¡etc ¡
  • Variant ¡prioriCzaCon ¡– ¡which ¡of ¡these ¡3 ¡million ¡

variants ¡caused ¡the ¡disorder? ¡

slide-7
SLIDE 7

Clinician Orders NGS Exome

  • r Genome

NGS Exome/Genome Sequencing Reads Aligned to Reference Assembly Variant Calling Pipeline Diagnostic Report Clinician Counsels and Treats Patient

HL7 Message FASTQ BAM/SAM VCF/GVF HL7 Message EHR

Genomics ¡ Medicine ¡ InformaCon ¡ boNleneck ¡

GVFclin

Annotate, ¡prioriCze, ¡analyze ¡

slide-8
SLIDE 8

Current ¡state ¡of ¡the ¡art ¡

  • Paper/PDF ¡geneCc ¡reports ¡
  • The ¡tesCng ¡laboratory ¡faxes ¡or ¡emails ¡a ¡text ¡

write ¡up ¡of ¡the ¡result ¡and ¡interpretaCon ¡to ¡ the ¡clinic. ¡

  • The ¡genomic ¡data ¡does ¡not ¡oden ¡enter ¡the ¡
  • EHR. ¡
  • The ¡HL7 ¡working ¡group ¡is ¡creaCng ¡a ¡drad ¡

geneCc ¡test ¡report. ¡

slide-9
SLIDE 9

Inside ¡the ¡EHR ¡

Patient data archive Clinician Counsels and Treats Patient CDS system monitors genomic information: provides alerts Interpretation Diagnostic Report Variants in EHR Discovery Science

The ¡variants ¡need ¡to ¡be ¡computaConally ¡amenable ¡to ¡both ¡scienCfic ¡ discovery ¡such ¡as ¡cohort ¡collecCon, ¡and ¡to ¡Clinical ¡Decision ¡Support ¡ Systems ¡

slide-10
SLIDE 10

Sequence ¡Ontology ¡provides ¡a ¡ community ¡developed ¡and ¡approved ¡ vocabulary ¡for ¡annotaCon ¡

  • GVF ¡heavily ¡relies ¡on ¡the ¡terminology ¡

provided ¡by ¡SO ¡

  • www.sequenceontology.org ¡
  • SO ¡is ¡used ¡for ¡reference ¡sequence ¡annotaCon ¡ ¡
slide-11
SLIDE 11

Sequence ¡Ontology ¡

  • Funded ¡by ¡the ¡NHGRI ¡since ¡2003 ¡
  • Grew ¡out ¡of ¡the ¡Gene ¡Ontology ¡project ¡
  • Describes ¡genomic ¡features ¡such ¡as ¡the ¡parts ¡
  • f ¡gene ¡models, ¡transposons, ¡assembly ¡

components, ¡ ¡experimental ¡results ¡relaCng ¡to ¡ genome ¡sequence ¡such ¡as ¡alignments ¡

  • Describes ¡the ¡kinds ¡of ¡variants, ¡the ¡effect ¡of ¡

variants, ¡and ¡the ¡locaCon ¡of ¡variants ¡within ¡ exisCng ¡features. ¡

slide-12
SLIDE 12

3 ¡aspects ¡for ¡variant ¡annotaCon ¡

  • The ¡sequence ¡alteraCon ¡
  • The ¡affected ¡feature ¡ ¡
  • The ¡consequence ¡of ¡the ¡alteraCon ¡on ¡the ¡

feature ¡

slide-13
SLIDE 13

Kinds ¡of ¡alteraCon ¡

slide-14
SLIDE 14

structural_variant ¡ feature_variant ¡ feature_ablaCon ¡ feature_amplificaCon ¡ feature_fusion ¡ feature_elongaCon ¡ feature_truncaCon ¡ internal_elongaCon ¡ terminal_elongaCon ¡ transcript_translocaCon ¡ transcript_amplificaCon ¡ transcript_fusion ¡ regulatory_region_amplificaCon ¡ regulatory_region_fusion ¡ regulatory_region_ablaCon ¡ TFBS_ablaCon ¡ TFBS_amplificaCon ¡ feature_translocaCon ¡ transcript_ablaCon ¡ regulatory_region_translocaCon ¡ TFBS_translocaCon ¡ TFBS_fusion ¡ gene_variant ¡ regulatory_region_variant ¡ sequence_variant ¡ funcConal_variant ¡

slide-15
SLIDE 15

feature_variant ¡ gene_variant ¡ regulatory_region_variant ¡ TFBS_variant ¡ transcript_variant ¡ exon_variant ¡ coding_sequence_variant ¡ frameshiG_variant ¡ inframe_variant ¡ synonymous_variant ¡ inframe_indel ¡ inframe_inser3on ¡ inframe_dele3on ¡ terminator_codon_variant ¡ stop_gained ¡ missense_variant ¡ stop_lost ¡ incomplete_terminal_codon_variant ¡ protein_altering_variant ¡ ini3ator_codon_variant ¡ stop_retained_variant ¡ frameshid_ ¡ elongaCon ¡ frameshid_ ¡ truncaCon ¡ splice_site_variant ¡ splice_acceptor_variant ¡ splice_donor_variant ¡ intron_variant ¡ nc_transcript_variant ¡ mature_miRNA_variant ¡ non_coding_exon_variant ¡ UTR_variant ¡ 5_prime_UTR_variant ¡ 3_prime_UTR_variant ¡ splicing_variant ¡ splice_region_variant ¡ 5KB_upstream_variant ¡ 5KB_downstream_variant ¡ NMD_transcript_variant ¡ upstream_gene_variant ¡ 2KB_upstream_variant ¡ downstream_gene_variant ¡ 500B_downstream_variant ¡ complex_change_in_transcript ¡

slide-16
SLIDE 16

ExisCng ¡standards ¡in ¡the ¡EHR ¡

  • Especially ¡important ¡now ¡because ¡of ¡the ¡

HITEC ¡act. ¡Providers ¡must ¡reach ¡a ¡set ¡of ¡goals ¡ to ¡get ¡subsidy. ¡

  • One ¡of ¡the ¡goals ¡is ¡to ¡use ¡standards ¡such ¡as: ¡

– LOINC ¡-­‑ ¡to ¡idenCfy ¡tests ¡ – SNOMED-­‑CT ¡-­‑ ¡name ¡diseases ¡etc. ¡ – RxNorm ¡-­‑ ¡name ¡drugs ¡

  • Goes ¡by ¡the ¡name ¡of ¡‘meaningful ¡use’ ¡
slide-17
SLIDE 17

TranslaCon ¡to ¡health ¡record ¡

  • Integrate ¡research ¡type ¡data ¡with ¡established ¡

EHR ¡ ¡

  • Not ¡so ¡easy ¡as ¡EHR ¡uses ¡established ¡non ¡

genomic ¡standards ¡and ¡research ¡is ¡a ¡moving ¡

  • target. ¡
  • Following ¡HL7 ¡clinical ¡genomics ¡

recommendaCons ¡for ¡incorporaCng ¡genomic ¡ data ¡into ¡EHR. ¡

slide-18
SLIDE 18

GVFClin ¡is ¡an ¡annotated ¡variant ¡file ¡

  • Variant ¡files ¡condense ¡the ¡whole ¡genome ¡into ¡list ¡
  • f ¡annotated ¡variants ¡(3 ¡billion ¡bases ¡to ¡3 ¡million ¡

changes) ¡

  • VCF ¡

hNp://www.1000genomes.org/wiki/Analysis/ Variant%20Call%20Format/vcf-­‑variant-­‑call-­‑ format-­‑version-­‑41 ¡

  • GVF ¡

hNp://www.sequenceontology.org/resources/ gvf.html ¡ ¡

slide-19
SLIDE 19
  • Currency ¡for ¡individual ¡variant ¡data ¡
  • Each ¡genome ¡has ¡3 ¡billion ¡bases ¡
  • Each ¡genome ¡has ¡3 ¡million ¡differences ¡

compared ¡to ¡the ¡reference ¡

Variant ¡Files ¡

Not ¡exactly ¡EHR-­‑ready ¡

¡# ¡Soap ¡SNP ¡

chr1 ¡SoapSNP ¡SNP ¡4793 ¡4793 ¡25 ¡+ ¡. ¡ID=YHSNP0128643; ¡status=novel; ¡ref=A; ¡allele=A/G; ¡support1=48; ¡support2=26; ¡ chr1 ¡SoapSNP ¡SNP ¡6434 ¡6434 ¡48 ¡+ ¡. ¡ID=YHSNP0128644; ¡status=novel; ¡ref=G; ¡allele=A/G; ¡support1=10; ¡support2=11; ¡ chr1 ¡SoapSNP ¡SNP ¡93896 ¡93896 ¡51 ¡+ ¡. ¡ID=rs4287120; ¡status=dbSNP; ¡ref=T; ¡allele=C/T; ¡support1=5; ¡support2=4; ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡locaCon=MSTB1:LTR/MaLR; ¡ ¡# ¡Venter ¡Genome ¡SNP ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡1103675000013 ¡ ¡ ¡heterozygous_SNP ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡556001 ¡ ¡556002 ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡ ¡ ¡ ¡ ¡ ¡ ¡A/C;RMR=0;TR=0 ¡ ¡Method1 ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡1103675000017 ¡ ¡ ¡homozygous_SNP ¡ ¡652719 ¡ ¡652720 ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡ ¡ ¡ ¡ ¡ ¡ ¡G/A;RMR=0;TR=1 ¡ ¡Method1 ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡1103675000019 ¡ ¡ ¡homozygous_SNP ¡ ¡694229 ¡ ¡694230 ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡ ¡ ¡ ¡ ¡ ¡ ¡T/C;RMR=1;TR=0 ¡ ¡Method1 ¡ ¡# ¡Watson ¡Genome ¡SNP ¡ ¡BJW-­‑1117373 ¡chr1 ¡41921 ¡G ¡C ¡. ¡novel ¡. ¡2 ¡0 ¡4 ¡het ¡ ¡BJW-­‑1117523 ¡chr1 ¡42101 ¡T ¡G ¡Y ¡rs2691277.1 ¡. ¡1 ¡0 ¡1 ¡? ¡ BJW-­‑1119675 ¡chr1 ¡45408 ¡C ¡T ¡Y ¡rs28396308 ¡. ¡3 ¡0 ¡3 ¡. ¡ ¡

¡# ¡Korean ¡Genome ¡SNP ¡ ¡chr10 ¡ ¡56397 ¡C ¡CT ¡rs12262442 ¡28 ¡C/T ¡17 ¡11 ¡ ¡chr10 ¡ ¡61776 ¡T ¡CT ¡rs61838967 ¡15 ¡T/C ¡7 ¡8 ¡ ¡chr10 ¡ ¡65803 ¡T ¡CT ¡KOREFSNP1 ¡27 ¡T/C ¡19 ¡8 ¡ ¡# ¡Complete ¡Genomics ¡SNP ¡ ¡6,chr1,31843,31844,snp,snp,A,G,G,235 ¡ ¡21,chr1,36532,36533,snp,snp,A,G,G,36 ¡ ¡23,chr1,36970,36971,snp,snp,G,C,C,109 ¡

slide-20
SLIDE 20

Standardizing ¡the ¡semanCcs ¡of ¡variant ¡ annotaCon ¡

  • GVF ¡uses ¡ontologies ¡to ¡capture ¡the: ¡

– AlteraCon ¡(SO) ¡ – Feature ¡intersected ¡(SO) ¡ – Effect ¡of ¡alteraCon ¡(SO) ¡ – Phenotype ¡of ¡alteraCon ¡and ¡individual ¡ hNp://sequenceontology.org/wiki/index.php/ Using_Phenotype_Ontologies_in_GVF ¡ ¡ ¡

  • GVFClin ¡also ¡uses ¡biomedical ¡informaCcs ¡

standards ¡for ¡EHR ¡compaCbility ¡

slide-21
SLIDE 21

Kinds ¡of ¡locaCon ¡of ¡an ¡alteraCon ¡

  • A ¡variant ¡can ¡fall ¡in ¡any ¡annotated ¡feature. ¡

The ¡most ¡useful ¡features ¡in ¡annotaCon ¡are ¡ genic ¡(coding ¡region, ¡ncRNA, ¡intron, ¡splice ¡ site) ¡and ¡intergenic. ¡

  • In ¡GVFClin, ¡if ¡there ¡is ¡an ¡intersected ¡feature ¡

with ¡a ¡RefSeq ¡ID, ¡or ¡LRG ¡we ¡aNach ¡that ¡

  • informaCon. ¡ ¡This ¡usually ¡means ¡that ¡each ¡

genic ¡variant ¡that ¡we ¡annotate ¡has ¡a ¡mRNA ¡ file ¡that ¡can ¡be ¡downloaded ¡from ¡the ¡NCBI ¡

slide-22
SLIDE 22

##gvf-version 1.06 ##genome-build UCSC hg19 ##individual-id HG00096; ##genetic-analysis-panel ID=A1B;Disease_assesed=Cystic fibrosis;Disease_interept=Positive; ##genetic-analysis_panel ID=C34;Medication_assesed=warfarin;Drug_metabolism_interpret=Intermediate metabolizer; ##genetic-analysis_panel ID=7LR;Medication_assesed=mercaptopurine;Drug_efficacy_interpret=Benign; Chr10 GATK SNV 96702047 96702047 69 + . ID=SNV_0123;Variant_seq=C,A;Reference_seq=C;Clin_gene=CYP2C9;Clin_transcript=NM_000771.3; Clin_variant_id=rs1799853;Clin_HGVS_DNA=NC_000010.10:g.96702047C>A;Clin_HGVS_protein= NP_000762.2:p.Arg144Cys;Clin_variant_type=Substitution;Clin_aa_change_type=Missense; Clin_allelic_state=Heterozygous;Clin_drug_metabolism_interpret=warfarin:Intermediate Metabolizer; Clin_drug_efficacy_interpret=warfarin:Resistant;Variant_effect=missense_codon 1 mRNA NM_000771.3; Clin_genomic_reference=NC_000010.10 Chr6 GATK SNV 18143955 18143955 47 + . ID=SNV_0456;Variant_seq=A;Reference_seq=C;Clin_gene=TPMT;Clin_transcript=NM_000367.2; Clin_variant_id=rs1800462;Clin_variant_type=Wild Type;Clin_aa_change_type=Wild Type; Clin_allelic_state=Homozygous;Clin_drug_efficacy_interpret=mercaptopurine:Benign; Clin_genomic_reference=NC_000006.11 Chr7 GATK deletion 117267766 117267766 39 + . ID=SNV_0789;Variant_seq=-;Reference_seq=C;Clin_gene=CFTR;Clin_transcript=NM_000492.3; Clin_variant_id=rs121908811;Clin_HGVS_DNA=NC_000007.13:g.117267766delC;Clin_HGVS_protein= NP_000483.3:p.Thr1220Lysfs;Clin_variant_type=Deletion;Clin_aa_change_type=Frameshift; Clin_allelic_state=Heterozygous;Clin_disease_interpret=Cystic fibrosis:Positive; Clin_genomic_reference=NC_000007.13 ¡

HGNC ¡ REFSEQ ¡ SNOMED ¡CT ¡ HGVS ¡ LOINC ¡ DBSNP ¡

slide-23
SLIDE 23

ComputaConally ¡accessible ¡variants ¡

  • Different ¡levels ¡of ¡data ¡captured ¡in ¡a ¡single ¡
  • file. ¡
  • Scoped ¡to ¡different ¡users ¡needs ¡
slide-24
SLIDE 24

GVF ¡in ¡the ¡community ¡

  • Ensembl ¡variants ¡are ¡named ¡using ¡SO ¡terms ¡

and ¡GVF ¡files ¡are ¡provided ¡ hNp://www.ensembl.info/blog/2012/08/06/ variaCon-­‑consequences/ ¡ ¡

  • NCBI ¡(dbVar ¡annotates ¡with ¡SO ¡terms ¡and ¡

releases ¡GVF, ¡ClinVar ¡annotates ¡with ¡SO ¡ terms) ¡

  • VAAST ¡probabilisCc ¡disease ¡gene ¡finder ¡
  • Omicia ¡personal ¡genome ¡analysis ¡company ¡
slide-25
SLIDE 25

Thanks ¡to ¡

  • My ¡Lab: ¡Barry ¡Moore, ¡Sean ¡Rynearson, ¡Shale ¡

Dames, ¡Begum ¡Durgahee, ¡Nicole ¡Ruiz, ¡Keith ¡ Simmon, ¡MeiYee ¡Law ¡

  • My ¡chair: ¡Joyce ¡Mitchell ¡
  • Omicia: ¡MarCn ¡Reese ¡
  • Ensembl: ¡Fiona ¡Cunningham, ¡Graham ¡Ritchie ¡

and ¡MaNhew ¡Hurles. ¡

  • Yandell ¡Lab ¡
slide-26
SLIDE 26

Variant ¡File ¡Survey: ¡

  • Please ¡take ¡our ¡variant ¡file ¡survey ¡
  • hNps://www.surveymonkey.com/s/SQZJYTD ¡