transcription factor dna interaction
play

Transcription Factor/DNA Interaction 02-715 Advanced Topics in - PowerPoint PPT Presentation

Transcription Factor/DNA Interaction 02-715 Advanced Topics in Computa8onal Genomics Protein Binding Microarray (PBM) High-throughput characteriza8on of DNA binding sites of


  1. Transcription Factor/DNA Interaction 02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

  2. Protein Binding Microarray (PBM) • High-­‑throughput ¡characteriza8on ¡of ¡DNA ¡binding ¡sites ¡of ¡ transcrip8on ¡factor ¡(TF) ¡ – DNA ¡probe ¡sets ¡ • Each ¡probe ¡is ¡36-­‑mer ¡ • Designed ¡to ¡contain ¡all ¡possible ¡con8nuous ¡10-­‑mers ¡and ¡many ¡of ¡the ¡ gapped ¡10-­‑mers ¡as ¡subsequences ¡ • 1,048,576 ¡10-­‑mers ¡in ¡approximately ¡44,000 ¡spots ¡ – Incubate ¡the ¡probes ¡with ¡TF ¡proteins ¡ – Stained ¡with ¡fluorophore-­‑conjugated ¡an8-­‑GST ¡an8body ¡ – Measure ¡the ¡array ¡signal ¡intensi8es ¡

  3. Protein Binding Microarray (PBM) • High-­‑throughput ¡ characteriza8on ¡of ¡DNA ¡ binding ¡sites ¡of ¡transcrip8on ¡ factor ¡(TF) ¡ • In ¡vitro ¡binding ¡in ¡nucleosome ¡ free ¡environment ¡ • Direct ¡binding ¡ • Comprehensively ¡determine ¡ TF ¡binding ¡specifici8es ¡ – All ¡possible ¡binding ¡sequences ¡

  4. Analysis of PBM Data • Enrichment ¡score ¡(E-­‑score) ¡ – The ¡rela8ve ¡sequence ¡preference ¡for ¡each ¡of ¡more ¡than ¡2.3 ¡million ¡ gapped ¡and ¡ungapped ¡8-­‑mers ¡spanning ¡the ¡full ¡affinity ¡range ¡from ¡the ¡ highest ¡affinity ¡to ¡nonspecific ¡sequence ¡ – Ranges ¡between ¡-­‑0.5 ¡and ¡0.5 ¡ – A ¡large ¡number ¡of ¡high-­‑scored ¡candidate ¡k-­‑mers ¡ • In ¡mouse ¡data ¡with ¡114 ¡TFs, ¡the ¡average ¡number ¡of ¡k-­‑mers ¡with ¡E-­‑ scores ¡above ¡0.35 ¡is ¡13,000 ¡

  5. Enrichment of k-mers in PBM Data • Hierarchical ¡clustering ¡of ¡PBM ¡data ¡over ¡ungapped ¡8-­‑mer ¡E-­‑ scores ¡for ¡89 ¡yeast ¡TFs ¡

  6. Analysis of PBM Data • Construc8ng ¡posi8on-­‑specific ¡scoring ¡matrix ¡(PSSM) ¡with ¡ Seed-­‑and-­‑Wobble ¡algorithm ¡ – Iden8fies ¡the ¡single ¡8-­‑mer ¡(ungapped ¡or ¡gapped) ¡with ¡the ¡greatest ¡ PBM ¡enrichment ¡score ¡(E ¡score) ¡ – Test ¡the ¡rela8ve ¡preference ¡of ¡each ¡nucleo8de ¡variant ¡at ¡each ¡ posi8on, ¡both ¡within ¡and ¡outside ¡the ¡seed ¡ – Convert ¡it ¡to ¡logo ¡representa8on ¡

  7. Analysis of PBM Data • Construc8ng ¡PSSM ¡ (Berger ¡et ¡al., ¡Nature ¡Biotechnology, ¡2006) ¡

  8. ChIP-Seq • Measure ¡genome-­‑wide ¡profiles ¡of ¡immunoprecipitated ¡DNA-­‑ protein ¡complexes ¡ • TF ¡binding ¡sites ¡of ¡DNA ¡in ¡vivo ¡ • Direct ¡and ¡indirect ¡binding ¡

  9. PBM vs. ChIP-Seq • Two ¡methods ¡are ¡complementary ¡ • PBM ¡and ¡ChIP-­‑Seq ¡for ¡40 ¡TFs ¡ (Zhu ¡et ¡al., ¡Genome ¡Research, ¡2009) ¡

  10. PBM vs. ChIP-Seq • Yeast ¡TF ¡binding ¡affini8es ¡

  11. Modeling Transcription Factor-DNA Affinities • PSSM ¡approach ¡ – Construct ¡PSSM ¡from ¡training ¡data ¡and ¡score ¡the ¡test ¡DNA ¡sequence ¡ with ¡the ¡PSSM ¡ • E-­‑score ¡approach ¡ – Compute ¡E-­‑scores ¡of ¡a ¡test ¡sequence ¡for ¡all ¡possible ¡8-­‑mers ¡ – Highest ¡scoring ¡8-­‑mers ¡cons8tute ¡the ¡binding ¡profile ¡of ¡the ¡sequence ¡ – Uses ¡richer ¡informa8on ¡than ¡PSSM ¡but ¡can ¡involve ¡thousands ¡of ¡high-­‑ scoring ¡8-­‑mers ¡ • Support ¡vector ¡regression ¡approach ¡ (Agius ¡et ¡al., ¡PLoS ¡Comp ¡Bio, ¡2010) ¡ – Directly ¡construct ¡a ¡discrimina8ve ¡model ¡from ¡data ¡

  12. SVR Approach

  13. SVR Model • Predictors: ¡k-­‑mers ¡in ¡PBM ¡ • Response: ¡binding ¡affini8es ¡measured ¡in ¡PBM ¡experiments ¡ • Di-­‑mismatch ¡string ¡kernel ¡in ¡SVR ¡for ¡a ¡similarity-­‑measure ¡ between ¡two ¡sequences ¡ – (k,m) ¡mismatch ¡kernel: ¡allowing ¡up ¡to ¡m ¡mismatches ¡in ¡each ¡k-­‑mer ¡ match ¡(m<<k) ¡

  14. Di-mismatch String Kernels • { ϕ i } i=1…n : a set of unique k-mers that occur in the PBM probe sequences • { s j = s ( j,j+k-1 )} j=1…N-k+1 : For a training sequence s of length N , the subset of substrings of length k in s • ( ρ ¡( s, ϕ 1 ),…, ¡ ρ ( s, ϕ n )): ¡feature ¡vector ¡for ¡sequence ¡ s ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡where ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡di-­‑mismatch ¡score ¡between ¡two ¡k-­‑mers, ¡set ¡ to ¡zero ¡if ¡the ¡count ¡is ¡below ¡ k-­‑m-­‑1 ¡

  15. Di-mismatch String Kernels • The ¡di-­‑mismatch ¡score ¡favors ¡consecu8ve ¡mismatches ¡ – 6 ¡mismatches ¡ – 5 ¡mismatches ¡

  16. Di-mismatch String Kernels • Selec8ng ¡ k, ¡m ¡ in ¡( k,m ) ¡mismatch ¡kernel ¡ – Cross ¡valida8on ¡for ¡ • k =8,…, ¡13 ¡ ¡ • m =1,…,6 ¡ – Use ¡( k,m ) ¡= ¡(13,5) ¡in ¡all ¡of ¡the ¡experiments ¡

  17. Selecting Samples for Training Data • Out ¡of ¡44k ¡probes, ¡only ¡a ¡few ¡hundred ¡probes ¡indicate ¡TF ¡ binding ¡ – Using ¡all ¡of ¡the ¡probes ¡will ¡lead ¡to ¡a ¡model ¡that ¡predicts ¡the ¡prevalent ¡ low-­‑level ¡binding ¡probes ¡ • Posi8ve ¡probes: ¡ ¡ – Top ¡500 ¡probes ¡ – Probes ¡with ¡normalized ¡binding ¡affini8es ¡(Z-­‑score) ¡> ¡3.5 ¡ • Nega8ve ¡probes: ¡ – Selected ¡from ¡the ¡low ¡end ¡of ¡the ¡distribu8on ¡of ¡binding ¡affini8es ¡

  18. Selecting Features for Training Data • Select feature set { ϕ i } i=1…n – k-mers overrepresented in either positive or negative probe class – Evaluate each k-mer with median di-mismatch scores in each of the positive and negative class – Top 4000 k-mers were selected ¡

  19. Experiments • PBM ¡for ¡ in ¡vitro ¡ and ¡ChIP-­‑Seq ¡for ¡ in ¡vivo ¡ binding ¡ • Study ¡designs ¡ – Train ¡on ¡PBM ¡data ¡and ¡test ¡on ¡PBM ¡data ¡ – Train ¡on ¡PBM ¡data ¡and ¡test ¡on ¡ChIP-­‑Seq ¡data ¡ – Train ¡on ¡ChIP-­‑Seq ¡data ¡and ¡test ¡on ¡ChIP-­‑Seq ¡data ¡

  20. Training with PBM Data and Predicting PBM Data • For ¡each ¡TF, ¡count ¡how ¡many ¡of ¡the ¡top ¡100 ¡predicted ¡probes ¡ are ¡in ¡the ¡top ¡100 ¡highest ¡intensity ¡probes ¡in ¡the ¡test ¡data ¡

  21. In Vivo Prediction with PBM-Trained Methods • Yeast ¡TF ¡Ume6 ¡along ¡the ¡intergenic ¡region ¡iTFL022C ¡and ¡Yeast ¡ TF ¡Gal4 ¡along ¡intergenic ¡region ¡iYFR026C ¡

  22. In Vivo Prediction with PBM-Trained Methods • SVR ¡vs ¡E-­‑score-­‑based ¡occupancy ¡predic8on ¡of ¡yeast ¡ in ¡vivo ¡ binding ¡preferences ¡for ¡top ¡200 ¡intergenic ¡regions ¡by ¡the ¡top ¡ 200 ¡predic8ons ¡

  23. ChIP-Seq Data • Extrac8ng ¡training/test ¡data ¡from ¡measurements ¡of ¡ChIP-­‑Seq ¡ experiments ¡ – Posi8ve ¡regions: ¡60bp ¡centered ¡at ¡1000 ¡ChIP-­‑seq ¡peak ¡regions ¡ ¡ – Nega8ve ¡regions: ¡60bp ¡regions ¡300bp ¡away ¡from ¡the ¡peaks, ¡1000 ¡such ¡ regions ¡at ¡the ¡flanking ¡regions ¡of ¡peaks ¡

  24. Predicting In Vivo TF Occupancy • Predic8ng ¡mouse ¡and ¡human ¡ChIP-­‑Seq ¡data ¡

  25. Detecting DNA-Protein Interaction • Posi8on ¡specific ¡scoring ¡matrix ¡(PSSM) ¡ – Assumes ¡the ¡nucleo8de ¡at ¡each ¡posi8on ¡is ¡independent ¡of ¡other ¡ nucleo8des ¡ • New ¡feature-­‑based ¡approach ¡ – Models ¡dependencies ¡among ¡mul8ple ¡nucleo8des ¡in ¡the ¡TF ¡binding ¡ mo8fs ¡ – Feature ¡mo8f ¡models ¡(FMMs) ¡

  26. PSSM

  27. FMM

  28. FMM • Training ¡data: ¡a ¡set ¡of ¡aligned ¡DNA ¡sequences ¡that ¡a ¡TF ¡binds ¡ to ¡ • Model: ¡log-­‑linear ¡model ¡for ¡feature ¡mo8f ¡model ¡ – Z ¡is ¡the ¡par88on ¡func8on ¡ – f k ( x k ): ¡features ¡derived ¡from ¡data ¡ – θ k : ¡unknown ¡feature ¡weights ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend