Course Overview 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation

course overview
SMART_READER_LITE
LIVE PREVIEW

Course Overview 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation

Course Overview 02-715 Advanced Topics in Computa8onal Genomics Course Overview Instructor: Seyoung Kim (Lane Center for Computa8onal Biology, CMU)


slide-1
SLIDE 1

Course ¡Overview ¡

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

Course ¡Overview ¡

  • Instructor: ¡Seyoung ¡Kim ¡(Lane ¡Center ¡for ¡Computa8onal ¡

Biology, ¡CMU) ¡

  • Course ¡Website: ¡www.cs.cmu.edu/~sssykim/teaching/s13/

s13.html ¡

  • Loca8on: ¡DH ¡2105 ¡
  • Time: ¡Monday, ¡Wednesday, ¡& ¡Friday: ¡3:30-­‑4:20pm ¡
  • Office ¡hours: ¡Friday ¡4:30-­‑5:30pm ¡
slide-3
SLIDE 3

Grading ¡

  • Write-­‑ups ¡for ¡required ¡reading ¡(30%) ¡

– Star8ng ¡the ¡2nd ¡week ¡ – Summary ¡of ¡contribu8ons, ¡cri8que ¡(strengths ¡and ¡weaknesses). ¡ – Under ¡300 ¡words ¡for ¡each ¡paper. ¡ – Submit ¡to ¡blackboard ¡by ¡midnight ¡the ¡day ¡before ¡the ¡class. ¡

  • Late ¡submission ¡policy: ¡70% ¡before ¡the ¡class, ¡0% ¡a\erwards. ¡
  • Class ¡par8cipa8on ¡(20%) ¡
  • Paper ¡presenta8on ¡(30%) ¡
  • Final ¡project ¡(20%) ¡

– One-­‑page ¡project ¡proposal: ¡due ¡March ¡18 ¡in ¡class. ¡ – Project ¡presenta8on: ¡the ¡last ¡week ¡of ¡the ¡course. ¡ – Final ¡project ¡report: ¡due ¡May ¡10th. ¡

slide-4
SLIDE 4

Overview ¡

  • Next-­‑genera8on ¡sequencing ¡technology ¡
  • Gene8c ¡polymorphisms ¡
  • Popula8on ¡gene8cs ¡review ¡

– Haplotype ¡inference, ¡recombina8on ¡rate ¡es8ma8on, ¡linkage ¡ disequilibrium, ¡tag ¡SNPs ¡

  • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡

to ¡1000 ¡Genome ¡Project ¡ ¡

slide-5
SLIDE 5

Decline ¡in ¡Sequencing ¡Costs ¡

5 ¡

Science 331:666-668, 2011

slide-6
SLIDE 6

DNA ¡sequencing ¡– ¡vectors ¡

+ =

DNA Shake DNA fragments Vector Circular genome (bacterium, plasmid) Known location (restriction site)

Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

slide-7
SLIDE 7

Method ¡to ¡sequence ¡longer ¡regions ¡

cut many times at random (Shotgun) genomic segment

Get two reads from 
 each segment

̃500 bp ̃500 bp

Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

slide-8
SLIDE 8

Reconstruc8ng ¡the ¡Sequence ¡ ¡ (Fragment ¡Assembly) ¡

Cover region with ̃7-fold redundancy (7X) Overlap reads and extend to reconstruct the original genomic region

reads

Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

slide-9
SLIDE 9

Defini=on ¡of ¡Coverage ¡

Length ¡of ¡genomic ¡segment: ¡ L ¡ Number ¡of ¡reads: ¡ ¡ ¡ n ¡ Length ¡of ¡each ¡read: ¡ ¡ l ¡ Defini=on: ¡ ¡ Coverage ¡ ¡ C ¡= ¡n ¡l ¡/ ¡L ¡ How ¡much ¡coverage ¡is ¡enough? ¡ ¡ Lander-­‑Waterman ¡model: ¡ ¡ Assuming ¡uniform ¡distribu8on ¡of ¡reads, ¡C=10 ¡results ¡in ¡1 ¡gapped ¡ region ¡/1,000,000 ¡nucleo8des ¡ C

Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

slide-10
SLIDE 10

Depth ¡of ¡Coverage ¡and ¡Physical ¡Coverage ¡

  • Single-­‑end ¡sequencing ¡
  • Paired-­‑end ¡sequencing ¡
  • Paired-­‑end ¡sequencing ¡
slide-11
SLIDE 11
slide-12
SLIDE 12

Next ¡Genera=on ¡Sequencing ¡(NGS) ¡based ¡ methods ¡

  • RNA-­‑Seq: ¡methods ¡for ¡determining ¡mRNA ¡abundance ¡and ¡

sequence ¡content ¡

– Rare ¡transcripts ¡discovery ¡ – Alterna8ve ¡splicing ¡event ¡detec8on ¡ – Transcript ¡sequence ¡varia8on ¡detec8on ¡

slide-13
SLIDE 13

Next ¡Genera=on ¡Sequencing ¡(NGS) ¡based ¡ methods ¡

  • ChIP-­‑Seq: ¡methods ¡for ¡measuring ¡genome-­‑wide ¡profiles ¡of ¡

immunoprecipitated ¡DNA-­‑protein ¡complexes ¡

slide-14
SLIDE 14

Overview ¡

  • Next-­‑genera8on ¡sequencing ¡technology ¡
  • Gene8c ¡polymorphisms ¡
  • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡

to ¡1000 ¡Genome ¡Project ¡ ¡

slide-15
SLIDE 15

Why ¡Gene=c ¡Varia=ons? ¡

  • Gene8c ¡varia8ons ¡can ¡be ¡

– Used ¡to ¡find ¡signatures ¡of ¡evolu8on, ¡posi8ve ¡selec8on. ¡ – Giving ¡insights ¡on ¡popula8on ¡structure. ¡ – Causal ¡varia8ons ¡that ¡influence ¡phenotypes ¡such ¡as ¡disease ¡ suscep8bility, ¡drug ¡response: ¡finding ¡them ¡can ¡be ¡the ¡first ¡key ¡steps ¡to ¡ cures ¡in ¡medicine. ¡

slide-16
SLIDE 16

Gene=c ¡Varia=ons ¡

  • Types ¡of ¡gene8c ¡varia8ons ¡

– Single ¡nucleo8de ¡polymorphisms ¡(SNPs) ¡

  • Widely ¡used ¡as ¡gene8c ¡markers ¡
  • Highly ¡abundant ¡in ¡genomes ¡

– Structural ¡variants: ¡inser8ons/dele8ons, ¡duplica8ons, ¡copy ¡number ¡ varia8ons ¡

slide-17
SLIDE 17

Other ¡Gene=c ¡Varia=ons ¡

  • Copy ¡Number ¡Varia8on ¡

– DNA ¡segment ¡whose ¡numbers ¡ differ ¡in ¡different ¡genomes ¡

  • Kilobases ¡to ¡megabases ¡in ¡size ¡

– Usually ¡two ¡copies ¡of ¡all ¡ ¡ autosomal ¡regions, ¡one ¡per ¡ chromosome ¡ – Varia8on ¡due ¡to ¡dele8on ¡or ¡ duplica8on ¡

slide-18
SLIDE 18

Variant ¡Frequencies ¡from ¡1000 ¡Genome ¡Pilot ¡ Project ¡

slide-19
SLIDE 19

Terminology ¡

  • Allele: ¡different ¡forms ¡of ¡gene8c ¡varia8ons ¡at ¡a ¡given ¡gene ¡or ¡

gene8c ¡locus ¡

  • Genotype: ¡specific ¡allelic ¡make-­‑up ¡of ¡an ¡individual’s ¡genome ¡
  • Heterozygous/Homozygous ¡
slide-20
SLIDE 20

2 1 3 6 1 9 1 5 1 7 4 1 9 6 2 9 1 7 2 1 2 1 2 7 1 4 6 7 1 1 81 8 1 4 1 01

Genotypes Haplotypes

1 3 1 1 5 4 9 2 1 7 1 2 7 6 1 1 8 4 1 2 6 9 1 7 1 6 9 2 1 2 1 4 7 1 8 1 1 Haplotype Re-construction Chromosome phase is known Chromosome phase is unknown

Terminology ¡

  • Haplotype: ¡A ¡collec8on ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡

chromosome ¡

slide-21
SLIDE 21

Working ¡with ¡SNP ¡Data ¡in ¡Prac=ce ¡

  • At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡

– A/T/C/G ¡lebers ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡

  • 0 ¡: ¡minor ¡allele ¡homozygous ¡
  • 1: ¡heterozygous ¡
  • 2: ¡major ¡allele ¡homozygous ¡
  • Given ¡genotype ¡data ¡for ¡N ¡individuals ¡
  • (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡individuals ¡with ¡minor ¡

alleles)/(total ¡number ¡of ¡individuals) ¡

slide-22
SLIDE 22

Detec=ng ¡Genome ¡Altera=ons ¡with ¡SNP ¡Arrays ¡ (Affymetrix ¡GeneChip ¡Probe ¡Array) ¡

slide-23
SLIDE 23

Detec=ng ¡Genome ¡Altera=ons ¡with ¡Next ¡ Genera=on ¡Sequencing ¡Technology ¡

slide-24
SLIDE 24

Sequencing ¡vs. ¡SNP ¡Genotyping ¡

  • Sequencing ¡a ¡whole ¡genome ¡is ¡much ¡more ¡costly ¡than ¡

genotyping ¡a ¡small ¡number ¡of ¡gene8c ¡loci ¡for ¡SNPs ¡

slide-25
SLIDE 25

Linkage ¡Disequilibrium ¡in ¡HapMap ¡Data ¡

  • r2 ¡in ¡HapMap ¡Data ¡

genome ¡ genome ¡

slide-26
SLIDE 26

Using ¡Reference ¡Datasets ¡for ¡Genotype ¡ Imputa=on ¡

  • Reference ¡data: ¡dense ¡SNP ¡

data ¡from ¡HapMap ¡III ¡

  • New ¡data: ¡SNP ¡data ¡for ¡

individuals ¡in ¡a ¡given ¡study ¡

  • Data ¡a\er ¡imputa8on ¡
slide-27
SLIDE 27

Using ¡Reference ¡Datasets ¡for ¡Genotype ¡ Imputa=on ¡

  • Reference ¡data: ¡sequence ¡

data ¡from ¡1000 ¡genome ¡ project ¡

  • New ¡data: ¡SNP ¡data ¡for ¡

individuals ¡in ¡a ¡given ¡study ¡

  • Data ¡a\er ¡imputa8on ¡
slide-28
SLIDE 28

Genotype ¡Imputa=on ¡

PHASE ¡can ¡be ¡used ¡for ¡imputa8on! ¡

slide-29
SLIDE 29

Overview ¡

  • Next-­‑genera8on ¡sequencing ¡technology ¡
  • Gene8c ¡polymorphisms ¡
  • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡

to ¡1000 ¡Genome ¡Project ¡ ¡

slide-30
SLIDE 30

A ¡Li[le ¡Bit ¡of ¡History ¡

  • 2001: ¡A ¡dra\ ¡of ¡human ¡genome ¡sequence ¡become ¡available ¡
  • 2001: ¡The ¡Interna8onal ¡SNP ¡Map ¡Working ¡Group ¡publishes ¡a ¡SNP ¡

Map ¡of ¡1.42 ¡million ¡SNPs ¡that ¡contained ¡all ¡SNPs ¡iden8fied ¡so ¡far ¡

  • 2005: ¡HapMap ¡Phase ¡I ¡

– Genotype ¡at ¡least ¡one ¡common ¡SNP ¡(MAF>5%) ¡every ¡5kb ¡across ¡270 ¡ individuals ¡ – Geographic ¡diversity ¡

  • 30 ¡trios ¡from ¡Yoruba ¡in ¡Ibadan, ¡Nigeria ¡(YRI) ¡
  • 30 ¡trios ¡of ¡European ¡ancestry ¡living ¡in ¡Utah ¡(CEPH) ¡
  • 45 ¡unrelated ¡Han ¡Chinese ¡in ¡Beijing ¡(CHB) ¡
  • 45 ¡nrelated ¡Japanese ¡(JPT) ¡

– 1.3 ¡million ¡SNPs ¡

slide-31
SLIDE 31

A ¡Li[le ¡Bit ¡of ¡History ¡

  • 2007: ¡HapMap ¡Phase ¡II ¡

– Genotype ¡addi8onal ¡2.1 ¡million ¡SNPs ¡for ¡the ¡same ¡individuals ¡ – SNP ¡density ¡about ¡1 ¡per ¡kb ¡ – Es8mated ¡to ¡contain ¡25-­‑35% ¡of ¡all ¡9-­‑10 ¡million ¡common ¡SNPs ¡in ¡ assembled ¡human ¡genome. ¡

  • 2010: ¡HapMap ¡Phase ¡III ¡

– 1184 ¡individuals ¡from ¡11 ¡popula8ons, ¡including ¡HapMap ¡Phase ¡I, ¡II ¡ samples ¡ – Rare ¡variants ¡(MAF=0.05-­‑0.5%), ¡low ¡frequency ¡variants ¡(MAF=0.5%-­‑5%) ¡ – Copy ¡number ¡varia8ons, ¡resequencing ¡of ¡selected ¡regions ¡

  • 2010 ¡: ¡1000 ¡Genome ¡Pilot ¡Project ¡

– A ¡more ¡complete ¡characteriza8on ¡of ¡human ¡gene8c ¡varia8ons ¡ ¡

slide-32
SLIDE 32

Common ¡Variants ¡vs. ¡Rare ¡Variants ¡

  • First-­‑genera8on ¡genome-­‑wide ¡associa8on ¡study ¡(GWAS): ¡

common ¡variant ¡common ¡disease ¡hypothesis ¡

  • Common ¡variants ¡with ¡minor ¡allele ¡frequency ¡(MAF)>5% ¡

– dbGap: ¡~11 ¡million ¡SNPs ¡ – HapMap: ¡3.5 ¡million ¡SNPs ¡ – A ¡successful ¡GWAS ¡requires ¡a ¡more ¡complete ¡catalogue ¡of ¡gene8c ¡ varia8ons ¡

  • Rare ¡variants ¡(MAF<0.5%), ¡low-­‑frequency ¡variants ¡(MAF:0.5%~5%) ¡

– Captured ¡by ¡sequencing ¡with ¡next-­‑genera8on ¡sequencing ¡technology ¡ – Possibly ¡significant ¡contributors ¡to ¡the ¡gene8c ¡architecture ¡of ¡disease ¡

  • Causal ¡variants ¡are ¡subject ¡to ¡nega8ve ¡selec8on ¡
slide-33
SLIDE 33

1000 ¡Genome ¡Project ¡ ¡

(The ¡1000 ¡Genome ¡Project ¡Consor=um, ¡Nature ¡2010) ¡

¡ ¡The ¡goal ¡is ¡to ¡characterize ¡over ¡95% ¡of ¡variants ¡that ¡are ¡in ¡genomic ¡regions ¡accessible ¡to ¡

current ¡high-­‑throughput ¡sequencing ¡technologies ¡and ¡that ¡have ¡allele ¡frequency ¡of ¡1% ¡

  • r ¡higher ¡(the ¡classical ¡defini8on ¡of ¡polymorphism) ¡in ¡each ¡of ¡five ¡major ¡popula=on ¡

groups ¡(popula8ons ¡in ¡or ¡with ¡ancestry ¡from ¡Europe, ¡East ¡Asia, ¡South ¡Asia, ¡West ¡Africa ¡ and ¡the ¡Americas) ¡ ¡ Pilot ¡project: ¡ ¡ ¡ ¡

  • ­‑ ¡ ¡179 ¡individuals ¡from ¡four ¡popula8ons ¡

¡ ¡ ¡ ¡ (low ¡coverage: ¡2-­‑6x) ¡ ¡ ¡ ¡

  • ­‑ ¡ ¡6 ¡individuals ¡in ¡two ¡trios ¡ ¡

¡ ¡ ¡ ¡ (deep ¡sequencing: ¡average ¡42x) ¡ ¡ ¡ ¡

  • ­‑ ¡ ¡697 ¡individuals ¡from ¡seven ¡popula8ons ¡

¡ ¡ ¡ ¡ (exon ¡sequencing ¡of ¡8,140 ¡exons: ¡average ¡50x) ¡ ¡ Main ¡project: ¡sequence ¡2500 ¡genomes ¡at ¡4x ¡coverage ¡ ¡

slide-34
SLIDE 34

Catalogue ¡of ¡Gene=c ¡Variants ¡from ¡1000 ¡ Genome ¡Pilot ¡Project ¡

  • 15 ¡million ¡SNPs ¡
  • 1 ¡million ¡short ¡inser8ons/dele8ons ¡
  • 20,000 ¡structural ¡variants ¡
slide-35
SLIDE 35

1000 ¡Genome ¡Projects: ¡ ¡ Known ¡vs. ¡Novel ¡Variants ¡

slide-36
SLIDE 36

Summary ¡

  • Next ¡genera8on ¡sequencing ¡technology ¡
  • Gene8cs ¡study ¡designs ¡evolve ¡as ¡the ¡technology ¡evolves ¡
  • Gene8c ¡polymorphisms: ¡SNPs, ¡structural ¡variants ¡