Efficient ¡Processing ¡of ¡Models ¡for ¡ ¡
Large-‑scale ¡Shotgun ¡Proteomics ¡Data ¡
Himanshu ¡Grover, ¡Ph.D. ¡ Vanathi ¡Gopalakrishnan, ¡Ph.D. ¡ University ¡of ¡Pi;sburgh ¡ ¡ C-‑Big ¡2012, ¡Pi;sburgh, ¡USA ¡ 14th ¡October, ¡2012 ¡
Outline Background on Proteins and Shotgun Proteomics - - PowerPoint PPT Presentation
E fficient Processing of Models for Large-scale Shotgun Proteomics Data Himanshu Grover, Ph.D. Vanathi Gopalakrishnan, Ph.D. University of Pi;sburgh
Himanshu ¡Grover, ¡Ph.D. ¡ Vanathi ¡Gopalakrishnan, ¡Ph.D. ¡ University ¡of ¡Pi;sburgh ¡ ¡ C-‑Big ¡2012, ¡Pi;sburgh, ¡USA ¡ 14th ¡October, ¡2012 ¡
– Context-‑sensiJve ¡PepJde ¡IdenJficaJon ¡(CSPI) ¡
Expression ¡
PTMs ¡ Interac?ons ¡
Analytical tool to identify unknown compounds
IonizaJon ¡ Mass ¡Analyzer ¡ Sample ¡ Detector ¡
5 ¡
Complex ¡
Collabora?ve ¡
Amino ¡Acids ¡
Pep?de ¡Spectrum ¡
¡
EnzymaJc ¡ ¡Digest ¡ ¡
Protein ¡ sample ¡ Fragmenta?on ¡Spectrum ¡
Shotgun ¡Sequencing ¡
MS/MS ¡ (CID) ¡
m/z
Predominant methodology for peptide ID from MS/MS
8 ¡
< ¡30% ¡of ¡spectra ¡are ¡confidently ¡assigned ¡with ¡ pepJdes ¡
Ø Noise ¡ ¡ Ø Variability ¡
Ø Inadequate ¡scoring ¡systems
¡
9 ¡
¡
Ø High ¡volume ¡and ¡rate ¡of ¡data ¡genera?on ¡ § 24*7 ¡ § 200 ¡– ¡400 ¡^ ¡3 ¡spectra ¡per ¡day ¡from ¡moderate ¡sized ¡ labs ¡ ¡ Ø Large ¡protein ¡databases: ¡~90 ¡K ¡protein ¡sequences ¡for ¡ Humans ¡ § Constrained ¡searches: ¡
§ Unconstrained ¡searches ¡
Grover ¡et. ¡al. ¡(2012), ¡OMICS ¡(submi;ed ¡for ¡publica@on) ¡
¡ Ø Novel ¡probabilisJc ¡framework ¡
§ Scalable ¡and ¡flexible ¡
¡ Ø Specific ¡Goal: ¡Model ¡influence ¡of ¡pepJde ¡ physicochemical ¡context ¡on ¡the ¡observed ¡ peak ¡heights ¡(intensiJes) ¡in ¡fragmentaJon ¡ spectra ¡
11 ¡
Input-‑output ¡Hidden ¡Markov ¡Model ¡
qt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡ yt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡
.... ¡ .... ¡
Hidden ¡Layer ¡ P(qt|qt-‑1;Ө) ¡ (Transi?on ¡Probability) ¡ Output ¡Layer ¡ P(yt|qt;Ө) ¡ (Emission ¡Probability) ¡
yt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡ qt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡ xt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡
.... ¡ .... ¡
Hidden ¡Layer ¡ P(qt|qt-‑1,xt;Ө) ¡ (Transi?on ¡Probability) ¡ Output ¡Layer ¡ P(yt|qt,xt;Ө) ¡ (Emission ¡Probability) ¡
Classical ¡Hidden ¡Markov ¡Model ¡ ¡ ¡
Input ¡ ¡ Layer ¡
13 ¡
xt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡ ¡ qt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡
….. ¡ ….. ¡
yt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡
Input ¡Layer ¡ Hidden ¡Layer ¡ Output ¡Layer ¡
P ¡(qt|qt-‑1, ¡xt; ¡Θ) ¡ P ¡(yt|qt; ¡Θ) ¡
S ― G ― F ― L ― E ― E ― D ― E ― L ― K
100 250 500 750 1000 Relative Intensity y6 y7 y2 y3 y4 y5 y8 y9 b3 b5 b6 b7 b8 b9 b4 m/z Experimental Spectrum
14 ¡
xt ¡= ¡{xt,0, ¡xt,1, ¡xt,2, ¡…., ¡xt,47} ¡
S − G − F − L − E − E − D − E − L − K
xt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡ ¡ qt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡
…. . ¡ …. . ¡
yt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡
Input ¡Layer ¡ Hidden ¡Layer ¡ Output ¡Layer ¡
100 250 500 750 1000 Relative Intensity Experimental Spectrum
9 1020 8 907 7 778 6 663 5 534 4 405 3 292 2 145
1
88
b ions
147 1 260 2 389 3 504 4 633 5 762 6 875 7 1022 8 1080 9
y ions S ― G ― F ― L ― E ― E ― D ― E ― L ― K 100 250 500 750 1000 Relative Intensity y6 y7 y2 y3 y4 y5 y8 y9 b3 b5 b6 b7 b8 b9 b4 m/z Experimental Spectrum
16 ¡
9 1020 8 907 7 778 6 663 5 534 4 405 3 292 2 145
1
88
b ions
147 1 260 2 389 3 504 4 633 5 762 6 875 7 1022 8 1080 9
y ions S ― G ― F ― L ― E ― E ― D ― E ― L ― K
xt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1 ¡ ¡ ¡ qt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡
…. . ¡ …. . ¡
yt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡ ¡
Input ¡Layer ¡ Hidden ¡Layer ¡ Output ¡Layer ¡
S ― G ― F ― L ― E ― E ― D ― E ― L ― K
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t+1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡T ¡
PSM ¡
xt-‑1,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡xt+1,0… ¡47 ¡ ¡ ¡ qt-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡qt+1 ¡ ¡
…. ¡ …. ¡
yt-‑1 ¡= ¡Ib/y, ¡t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡yt ¡= ¡Ib/y, ¡t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡yt+1 ¡= ¡Ib/y, ¡t-‑1 ¡ ¡
¡
P(qt | qt−1 = j,xt;Θqt ) = 1 1+ exp(w k
Tx t ) k=1 S
∑
if yt ="NA" exp((w i
Tx t ))
1+ exp(w k
Tx t ) k=1 S
∑
;i = 1,2,...,s−1 if yt!="NA" ⎧ ⎨ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ where w i
T are the Logistic Regression weight vectors
19 ¡
Logis?c ¡Func?on ¡
qt ¡ Xt ¡ Yt ¡ qt-‑1 ¡
…. ¡ …. ¡
yt | qt ~ 1.0 if yt = 0 P(Θ) if yt > 0 ⎧ ⎨ ⎩ where P = Exp(λ), Be(α,β), N(µ ,σ 2 )
{ }
Emission ¡Distrns ¡
Ø Parameters ¡to ¡esJmate ¡per ¡CSPI ¡model ¡(4 ¡ hidden ¡states): ¡
Ø Over ¡700 ¡(LogisJc ¡funcJon ¡weights, ¡Emission ¡ distribuJon ¡parameters) ¡
Ø Maximum ¡Likelihood ¡ ¡
Ø Generalized ¡ExpectaJon ¡MaximizaJon ¡ ¡algorithm ¡ (GEM) ¡
20 ¡
Ø Score: ¡Log ¡Likelihood ¡RaJo ¡ ¡ Ø Computed ¡using ¡Forward ¡Procedure ¡
21 ¡
CSPI _ Score = log P(Spectrum intensities | PeptideSeq; ΘTrue) P(Spectrum intensities | PeptideSeq; ΘNull) # $ % & ' (
Ø Database ¡searching ¡
Ø Extract ¡candidate ¡pepJdes ¡(sub-‑strings) ¡for ¡each ¡ spectrum ¡
¡ Ø Candidate ¡Pep?des’ ¡scoring ¡
Ø 200-‑400 ¡^ ¡3 ¡spectra ¡* ¡~10-‑20 ¡^ ¡3 ¡pep?des ¡ Ø CSPI: ¡ Ø Increases ¡performance ¡but… ¡ Ø takes ¡~5-‑8 ¡seconds ¡per ¡spectrum ¡to ¡evaluate ¡ candidates ¡(under ¡constrained ¡searches) ¡
Ø Mass-‑range ¡query ¡
Ø Amino ¡acids ¡(characters) ¡have ¡masses ¡
Ø Goal: ¡
Ø Search ¡for ¡sub-‑strings ¡with ¡a ¡(roughly) ¡specific ¡ mass ¡
Ø Naïve ¡Approach: ¡
Ø Scan ¡the ¡protein ¡database ¡for ¡each ¡query ¡
Ø Berkeley ¡DB: ¡key-‑value ¡store ¡
Ø Pre-‑compute ¡ Ø Key: ¡Mass ¡of ¡pepJde ¡ Ø Value: ¡LocaJon ¡and ¡length ¡of ¡pepJde ¡
¡ Ø MulJple ¡index ¡files ¡ Ø Time ¡(per ¡query): ¡< ¡1 ¡sec ¡
Ø Works ¡well ¡for ¡constrained ¡database ¡ searches: ¡
Ø Time ¡to ¡generate ¡ Ø Size ¡
Ø Issues ¡with ¡unconstrained ¡searches ¡
¡
Ø PotenJal ¡soluJon: ¡
Ø Parallel ¡generaJon ¡and ¡query ¡ Ø Simple ¡synchronizaJon ¡primiJves ¡and ¡mulJple ¡ index ¡files ¡facilitates ¡
Ø Embarrassingly ¡parallel ¡
§ For ¡each ¡spectrum, ¡searching ¡and ¡scoring/ ranking ¡is ¡independent ¡of ¡others ¡
¡ Ø UJlize ¡mulJprocessing ¡ ¡
Scored results for ith spectrum
Main (Parent) Process
FIFO Task (Input) Queue Child Process ‘N’ Score and Rank
Put spectrum/candidates
FIFO Results (Output) Queue
Extract obj from queue
Output (Child) Process Write results to file
Extract obj from Queue Put obj on queue Put obj on queue Put obj on queue Extract obj from queue Extract obj from queue
Child Process 2 Score and Rank Child Process 1 Score and Rank Protein Database (Index) Spectra
Main (Parent) Process
FIFO Task (Input) Queue Child Process ‘N’ Score and Rank
Put spectrum/candidatesFIFO Results (Output) Queue
Extract obj from queueOutput (Child) Process Write results to file
Extract obj from Queue Put obj on queue Put obj on queue Put obj on queue Extract obj from queue Extract obj from queueChild Process 2 Score and Rank Child Process 1 Score and Rank Protein Database (Index) Spectra
Ø Spectrum-‑level ¡parallelizaJon ¡
¡
Ø Candidate-‑level ¡opJmizaJon ¡can ¡provide ¡ further ¡gains: ¡
§ Non-‑trivial: ¡
― Protein ¡Database ¡Size ¡ ― Search ¡Constraints ¡
Ø Complex ¡and ¡computaJonally ¡intensive ¡algorithms ¡ ¡ Ø CollaboraJve ¡efforts ¡are ¡required ¡for ¡robust ¡analyses ¡ (evidence ¡combinaJon) ¡ Ø requires ¡efficient ¡processing ¡ Ø be;er ¡parameter ¡esJmates ¡ ¡ Ø Further ¡efficiency ¡improvements ¡ ¡
Ø Other ¡applicaJons: ¡ Ø Time-‑series ¡
Acknowledgements ¡
§ This ¡work ¡was ¡supported ¡in ¡part ¡by ¡the ¡following ¡ grants: ¡NIGMS ¡Award ¡Number ¡K25GM071951, ¡ NIH ¡Award ¡Number ¡P41RR006009 ¡and ¡NLM ¡ Award ¡Number ¡R01LM010950 ¡to ¡Dr. ¡Vanathi ¡
31 ¡