Outline Background on Proteins and Shotgun Proteomics - - PowerPoint PPT Presentation

outline
SMART_READER_LITE
LIVE PREVIEW

Outline Background on Proteins and Shotgun Proteomics - - PowerPoint PPT Presentation

E fficient Processing of Models for Large-scale Shotgun Proteomics Data Himanshu Grover, Ph.D. Vanathi Gopalakrishnan, Ph.D. University of Pi;sburgh


slide-1
SLIDE 1

Efficient ¡Processing ¡of ¡Models ¡for ¡ ¡

Large-­‑scale ¡Shotgun ¡Proteomics ¡Data ¡

Himanshu ¡Grover, ¡Ph.D. ¡ Vanathi ¡Gopalakrishnan, ¡Ph.D. ¡ University ¡of ¡Pi;sburgh ¡ ¡ C-­‑Big ¡2012, ¡Pi;sburgh, ¡USA ¡ 14th ¡October, ¡2012 ¡

slide-2
SLIDE 2
  • Background ¡on ¡Proteins ¡and ¡Shotgun ¡Proteomics ¡
  • ComputaJonal ¡ ¡modeling ¡framework: ¡

– Context-­‑sensiJve ¡PepJde ¡IdenJficaJon ¡(CSPI) ¡

  • Problem ¡Statement ¡
  • Methods ¡for ¡efficient ¡handling ¡
  • Challenges ¡and ¡Future ¡Work ¡

Outline ¡

slide-3
SLIDE 3

Proteomics ¡

Expression ¡

PTMs ¡ Interac?ons ¡

slide-4
SLIDE 4

Proteomics ¡

slide-5
SLIDE 5

Analytical tool to identify unknown compounds

IonizaJon ¡ Mass ¡Analyzer ¡ Sample ¡ Detector ¡

5 ¡

Mass ¡Spectrometry ¡

Complex ¡

Collabora?ve ¡

slide-6
SLIDE 6

Amino ¡Acids ¡

Amino ¡Acids ¡and ¡Proteins ¡

slide-7
SLIDE 7

Pep?de ¡Spectrum ¡

¡ ¡ Shotgun ¡Proteomics: ¡Protein/PepJde ¡ IdenJficaJon ¡ ¡

¡

EnzymaJc ¡ ¡Digest ¡ ¡

Protein ¡ sample ¡ Fragmenta?on ¡Spectrum ¡

Shotgun ¡Sequencing ¡

MS/MS ¡ (CID) ¡

  • Rel. Int

m/z

slide-8
SLIDE 8

Database ¡Searching ¡

Predominant methodology for peptide ID from MS/MS

8 ¡

slide-9
SLIDE 9

Fact ¡!! ¡

< ¡30% ¡of ¡spectra ¡are ¡confidently ¡assigned ¡with ¡ pepJdes ¡

Ø Noise ¡ ¡ Ø Variability ¡

Ø Inadequate ¡scoring ¡systems

¡

9 ¡

slide-10
SLIDE 10

Computa?onal ¡BoKlenecks ¡

¡

Ø High ¡volume ¡and ¡rate ¡of ¡data ¡genera?on ¡ § 24*7 ¡ § 200 ¡– ¡400 ¡^ ¡3 ¡spectra ¡per ¡day ¡from ¡moderate ¡sized ¡ labs ¡ ¡ Ø Large ¡protein ¡databases: ¡~90 ¡K ¡protein ¡sequences ¡for ¡ Humans ¡ § Constrained ¡searches: ¡

  • ~5-­‑10 ¡^ ¡6 ¡unique ¡pepJdes ¡in ¡database ¡
  • ~10-­‑20 ¡^ ¡3 ¡pepJdes ¡per ¡spectrum ¡

§ Unconstrained ¡searches ¡

  • Over ¡billion ¡pepJdes ¡
slide-11
SLIDE 11

Context-­‑SensiJve ¡PepJde ¡IdenJficaJon ¡ (CSPI) ¡Framework ¡DemysJfied ¡

Grover ¡et. ¡al. ¡(2012), ¡OMICS ¡(submi;ed ¡for ¡publica@on) ¡

¡ Ø Novel ¡probabilisJc ¡framework ¡

§ Scalable ¡and ¡flexible ¡

¡ Ø Specific ¡Goal: ¡Model ¡influence ¡of ¡pepJde ¡ physicochemical ¡context ¡on ¡the ¡observed ¡ peak ¡heights ¡(intensiJes) ¡in ¡fragmentaJon ¡ spectra ¡

11 ¡

slide-12
SLIDE 12

Input-­‑Output ¡Hidden ¡Markov ¡Models ¡(IO-­‑HMM) ¡

Input-­‑output ¡Hidden ¡Markov ¡Model ¡

qt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡ yt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡

.... ¡ .... ¡

Hidden ¡Layer ¡ P(qt|qt-­‑1;Ө) ¡ (Transi?on ¡Probability) ¡ Output ¡Layer ¡ P(yt|qt;Ө) ¡ (Emission ¡Probability) ¡

yt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡ qt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡ xt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡

.... ¡ .... ¡

Hidden ¡Layer ¡ P(qt|qt-­‑1,xt;Ө) ¡ (Transi?on ¡Probability) ¡ Output ¡Layer ¡ P(yt|qt,xt;Ө) ¡ (Emission ¡Probability) ¡

Classical ¡Hidden ¡Markov ¡Model ¡ ¡ ¡

Input ¡ ¡ Layer ¡

slide-13
SLIDE 13

CSPI ¡Model ¡Structure ¡

13 ¡

xt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡ ¡ qt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡

….. ¡ ….. ¡

yt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡

Input ¡Layer ¡ Hidden ¡Layer ¡ Output ¡Layer ¡

P ¡(qt|qt-­‑1, ¡xt; ¡Θ) ¡ P ¡(yt|qt; ¡Θ) ¡

slide-14
SLIDE 14

Input ¡Layer: ¡PepJde ¡Physicochemical ¡Context ¡

S ― G ― F ― L ― E ― E ― D ― E ― L ― K

100 250 500 750 1000 Relative Intensity y6 y7 y2 y3 y4 y5 y8 y9 b3 b5 b6 b7 b8 b9 b4 m/z Experimental Spectrum

Local Global

14 ¡

slide-15
SLIDE 15

‘Context’ ¡in ¡the ¡context ¡of ¡CSPI ¡

xt ¡= ¡{xt,0, ¡xt,1, ¡xt,2, ¡…., ¡xt,47} ¡

S − G − F − L − E − E − D − E − L − K

xt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡ ¡ qt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡

…. . ¡ …. . ¡

yt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡

Input ¡Layer ¡ Hidden ¡Layer ¡ Output ¡Layer ¡

slide-16
SLIDE 16

100 250 500 750 1000 Relative Intensity Experimental Spectrum

Matching ¡A ¡PepJde ¡with ¡Experimental ¡Spectra ¡

9 1020 8 907 7 778 6 663 5 534 4 405 3 292 2 145

1

88

b ions

147 1 260 2 389 3 504 4 633 5 762 6 875 7 1022 8 1080 9

y ions S ― G ― F ― L ― E ― E ― D ― E ― L ― K 100 250 500 750 1000 Relative Intensity y6 y7 y2 y3 y4 y5 y8 y9 b3 b5 b6 b7 b8 b9 b4 m/z Experimental Spectrum

16 ¡

slide-17
SLIDE 17

Normalized ¡IntensiJes ¡in ¡context ¡of ¡CSPI ¡

9 1020 8 907 7 778 6 663 5 534 4 405 3 292 2 145

1

88

b ions

147 1 260 2 389 3 504 4 633 5 762 6 875 7 1022 8 1080 9

y ions S ― G ― F ― L ― E ― E ― D ― E ― L ― K

xt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡ ¡ qt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡

…. . ¡ …. . ¡

yt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡

Input ¡Layer ¡ Hidden ¡Layer ¡ Output ¡Layer ¡

slide-18
SLIDE 18

S ― G ― F ― L ― E ― E ― D ― E ― L ― K

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t+1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡T ¡

PSM ¡

Summary ¡

xt-­‑1,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1,0… ¡47 ¡ ¡ ¡ qt-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡

…. ¡ …. ¡

yt-­‑1 ¡= ¡Ib/y, ¡t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡= ¡Ib/y, ¡t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡= ¡Ib/y, ¡t-­‑1 ¡ ¡

slide-19
SLIDE 19

ParameterizaJon: ¡TransiJon/Emission ¡ FuncJons ¡

¡

P(qt | qt−1 = j,xt;Θqt ) = 1 1+ exp(w k

Tx t ) k=1 S

if yt ="NA" exp((w i

Tx t ))

1+ exp(w k

Tx t ) k=1 S

;i = 1,2,...,s−1 if yt!="NA" ⎧ ⎨ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ where w i

T are the Logistic Regression weight vectors

19 ¡

Logis?c ¡Func?on ¡

qt ¡ Xt ¡ Yt ¡ qt-­‑1 ¡

…. ¡ …. ¡

yt | qt ~ 1.0 if yt = 0 P(Θ) if yt > 0 ⎧ ⎨ ⎩ where P = Exp(λ), Be(α,β), N(µ ,σ 2 )

{ }

Emission ¡Distrns ¡

slide-20
SLIDE 20

Parameter ¡EsJmaJon ¡

Ø Parameters ¡to ¡esJmate ¡per ¡CSPI ¡model ¡(4 ¡ hidden ¡states): ¡

Ø Over ¡700 ¡(LogisJc ¡funcJon ¡weights, ¡Emission ¡ distribuJon ¡parameters) ¡

Ø Maximum ¡Likelihood ¡ ¡

Ø Generalized ¡ExpectaJon ¡MaximizaJon ¡ ¡algorithm ¡ (GEM) ¡

20 ¡

slide-21
SLIDE 21

Inference: ¡Log-­‑likelihood ¡RaJo ¡

Ø Score: ¡Log ¡Likelihood ¡RaJo ¡ ¡ Ø Computed ¡using ¡Forward ¡Procedure ¡

21 ¡

CSPI _ Score = log P(Spectrum intensities | PeptideSeq; ΘTrue) P(Spectrum intensities | PeptideSeq; ΘNull) # $ % & ' (

slide-22
SLIDE 22

ComputaJonal ¡bo;leneck ¡

Ø Database ¡searching ¡

Ø Extract ¡candidate ¡pepJdes ¡(sub-­‑strings) ¡for ¡each ¡ spectrum ¡

¡ Ø Candidate ¡Pep?des’ ¡scoring ¡

Ø 200-­‑400 ¡^ ¡3 ¡spectra ¡* ¡~10-­‑20 ¡^ ¡3 ¡pep?des ¡ Ø CSPI: ¡ Ø Increases ¡performance ¡but… ¡ Ø takes ¡~5-­‑8 ¡seconds ¡per ¡spectrum ¡to ¡evaluate ¡ candidates ¡(under ¡constrained ¡searches) ¡

slide-23
SLIDE 23

Database ¡Searching ¡

Ø Mass-­‑range ¡query ¡

Ø Amino ¡acids ¡(characters) ¡have ¡masses ¡

Ø Goal: ¡

Ø Search ¡for ¡sub-­‑strings ¡with ¡a ¡(roughly) ¡specific ¡ mass ¡

Ø Naïve ¡Approach: ¡

Ø Scan ¡the ¡protein ¡database ¡for ¡each ¡query ¡

slide-24
SLIDE 24

Indexed ¡Database ¡Searching ¡

Ø Berkeley ¡DB: ¡key-­‑value ¡store ¡

Ø Pre-­‑compute ¡ Ø Key: ¡Mass ¡of ¡pepJde ¡ Ø Value: ¡LocaJon ¡and ¡length ¡of ¡pepJde ¡

¡ Ø MulJple ¡index ¡files ¡ Ø Time ¡(per ¡query): ¡< ¡1 ¡sec ¡

slide-25
SLIDE 25

Challenge ¡

Ø Works ¡well ¡for ¡constrained ¡database ¡ searches: ¡

Ø Time ¡to ¡generate ¡ Ø Size ¡

Ø Issues ¡with ¡unconstrained ¡searches ¡

¡

Ø PotenJal ¡soluJon: ¡

Ø Parallel ¡generaJon ¡and ¡query ¡ Ø Simple ¡synchronizaJon ¡primiJves ¡and ¡mulJple ¡ index ¡files ¡facilitates ¡

slide-26
SLIDE 26

Candidate ¡PepJde ¡Scoring ¡

Ø Embarrassingly ¡parallel ¡

§ For ¡each ¡spectrum, ¡searching ¡and ¡scoring/ ranking ¡is ¡independent ¡of ¡others ¡

¡ Ø UJlize ¡mulJprocessing ¡ ¡

slide-27
SLIDE 27

Parallel ¡ImplementaJon ¡

  • 1. ith spectrum
  • 2. Candidates

Scored results for ith spectrum

Main (Parent) Process

  • 1. Read and preprocess spectra
  • 2. Query Protein Database

FIFO Task (Input) Queue Child Process ‘N’ Score and Rank

Put spectrum/candidates

  • n shared queue

FIFO Results (Output) Queue

Extract obj from queue

Output (Child) Process Write results to file

Extract obj from Queue Put obj on queue Put obj on queue Put obj on queue Extract obj from queue Extract obj from queue

Child Process 2 Score and Rank Child Process 1 Score and Rank Protein Database (Index) Spectra

slide-28
SLIDE 28

Parallel ¡ImplementaJon ¡

  • 1. ith spectrum
  • 2. Candidates
Scored results for ith spectrum

Main (Parent) Process

  • 1. Read and preprocess spectra
  • 2. Query Protein Database

FIFO Task (Input) Queue Child Process ‘N’ Score and Rank

Put spectrum/candidates
  • n shared queue

FIFO Results (Output) Queue

Extract obj from queue

Output (Child) Process Write results to file

Extract obj from Queue Put obj on queue Put obj on queue Put obj on queue Extract obj from queue Extract obj from queue

Child Process 2 Score and Rank Child Process 1 Score and Rank Protein Database (Index) Spectra

slide-29
SLIDE 29

Challenges ¡and ¡PotenJal ¡SoluJons ¡

Ø Spectrum-­‑level ¡parallelizaJon ¡

¡

Ø Candidate-­‑level ¡opJmizaJon ¡can ¡provide ¡ further ¡gains: ¡

§ Non-­‑trivial: ¡

  • Careful ¡profiling ¡of ¡individual ¡steps ¡
  • IPC ¡overhead ¡vs. ¡performance ¡gain ¡

― Protein ¡Database ¡Size ¡ ― Search ¡Constraints ¡

slide-30
SLIDE 30

Conclusions ¡and ¡Future ¡Work ¡

Ø Complex ¡and ¡computaJonally ¡intensive ¡algorithms ¡ ¡ Ø CollaboraJve ¡efforts ¡are ¡required ¡for ¡robust ¡analyses ¡ (evidence ¡combinaJon) ¡ Ø requires ¡efficient ¡processing ¡ Ø be;er ¡parameter ¡esJmates ¡ ¡ Ø Further ¡efficiency ¡improvements ¡ ¡

Ø Other ¡applicaJons: ¡ Ø Time-­‑series ¡

  • Gene-­‑Expression ¡+ ¡Protein-­‑expression ¡
  • MicroRNA ¡expression ¡+ ¡Gene ¡Expression ¡
  • SJmulus/Response ¡
slide-31
SLIDE 31

Acknowledgements ¡

Ø Funding ¡Agencies: ¡

§ This ¡work ¡was ¡supported ¡in ¡part ¡by ¡the ¡following ¡ grants: ¡NIGMS ¡Award ¡Number ¡K25GM071951, ¡ NIH ¡Award ¡Number ¡P41RR006009 ¡and ¡NLM ¡ Award ¡Number ¡R01LM010950 ¡to ¡Dr. ¡Vanathi ¡

  • Gopalakrishnan. ¡

31 ¡

slide-32
SLIDE 32

Thanks ¡

Ques?ons? ¡