nega ve controls
play

(Nega&ve) controls Morgane Thomas-Chollier Computa)onal - PowerPoint PPT Presentation

(Nega&ve) controls Morgane Thomas-Chollier Computa)onal systems biology - IBENS mthomas@biologie.ens.fr M2 Computa6onal analysis of cis-regulatory


  1. (Nega&ve) ¡controls ¡ Morgane ¡Thomas-­‑Chollier ¡ ¡ Computa)onal ¡systems ¡biology ¡-­‑ ¡IBENS ¡ mthomas@biologie.ens.fr ¡ ¡ M2 ¡– ¡Computa6onal ¡analysis ¡of ¡cis-­‑regulatory ¡sequences ¡2015/20165 ¡ Denis ¡Thieffry, ¡Jacques ¡van ¡Helden ¡and ¡Carl ¡Herrmann ¡kindly ¡shared ¡some ¡of ¡their ¡slides. ¡ ¡

  2. Aim ¡of ¡the ¡course ¡ 1 ¡– ¡Understand ¡the ¡need ¡for ¡controls ¡in ¡bioinforma6cs ¡ ¡ ¡ ¡ 2 ¡– ¡Some ¡strategies ¡to ¡build ¡controls ¡

  3. Controls ¡in ¡biology ¡ Wellik ¡and ¡Mario ¡R ¡Capecchi, ¡Science, ¡2003 ¡

  4. Evaluate ¡predic6ons ¡with ¡controls ¡ Quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡ ¡ • » detect ¡known ¡features ¡ ¡ » = ¡Return ¡a ¡posi&ve ¡answer ¡for ¡a ¡posi&ve ¡feature ¡ » Not ¡detect ¡false ¡features ¡ » = ¡Return ¡a ¡nega&ve ¡answer ¡for ¡a ¡nega&ve ¡feature ¡ Predic)ons ¡ Posi6ve ¡ Nega6ve ¡ Annota)on ¡ Posi6ve ¡ True ¡Posi6ve ¡ False ¡nega&ve ¡ Nega6ve ¡ False ¡Posi&ve ¡ True ¡Nega6ve ¡

  5. In ¡the ¡context ¡of ¡cis-­‑regula6on ¡ Use ¡different ¡set ¡of ¡ sequences ¡ …HIS7 � 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT � …ARO4 � 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG � …ILV6 � 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT � …THR4 � 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC � …ARO1 � 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA � …HOM2 � 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA � …PRO3 � 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA � Use ¡different ¡set ¡of ¡ matrices ¡

  6. Sequences ¡ Posi6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡detect ¡known ¡ • regulatory ¡elements ¡ » Annotated ¡sites ¡(e.g. ¡sites ¡from ¡TRANSFAC) ¡in ¡their ¡original ¡context ¡(the ¡ promoter ¡sequences). ¡ » Annotated ¡sites ¡implanted ¡in ¡other ¡context ¡ - Biological ¡sequences ¡(random ¡selec&on). ¡ - Ar&ficial ¡sequences. ¡ » Ar&ficial ¡sites ¡implanted ¡in ¡ar&ficial ¡sequences. ¡ Nega6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡return ¡a ¡nega&ve ¡ • answer ¡when ¡there ¡are ¡no ¡regulatory ¡elements. ¡ » Ar&ficial ¡sequences ¡ ¡ (generated ¡according ¡to ¡a ¡Bernoulli ¡or ¡a ¡Markov ¡model ¡to ¡mimic ¡an ¡organism ¡ of ¡interest ¡) ¡ » Biological ¡sequences ¡without ¡common ¡regula&on ¡ ¡ (random ¡selec&on ¡of ¡genes) ¡

  7. Ar6ficial ¡sequences ¡ • Random-­‑seq ¡ in ¡RSAT ¡ » Generate ¡ar&ficial ¡sequences ¡(mimicking ¡real ¡biological ¡sequences) ¡ » Re-­‑run ¡the ¡exact ¡same ¡analysis ¡

  8. Randomized ¡(shuffling) ¡sequences ¡ • Randomized ¡sequences ¡ » Maintain ¡composi&on ¡(=nb ¡of ¡A,C,G,T) ¡ » Conserva&on ¡of ¡higher-­‑order ¡dependencies ¡? ¡ » Is ¡it ¡likely ¡that ¡the ¡signal ¡is ¡s&ll ¡there ¡? ¡

  9. Sequences ¡ Posi6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡detect ¡known ¡ • regulatory ¡elements ¡ » Annotated ¡sites ¡(e.g. ¡sites ¡from ¡TRANSFAC) ¡in ¡their ¡original ¡context ¡(the ¡ promoter ¡sequences). ¡ » Annotated ¡sites ¡implanted ¡in ¡other ¡context ¡ - Biological ¡sequences ¡(random ¡selec&on). ¡ - Ar&ficial ¡sequences. ¡ » Ar&ficial ¡sites ¡implanted ¡in ¡ar&ficial ¡sequences. ¡ Nega6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡return ¡a ¡nega&ve ¡ • answer ¡when ¡there ¡are ¡no ¡regulatory ¡elements. ¡ » Ar&ficial ¡sequences ¡ ¡ (generated ¡according ¡to ¡a ¡Bernoulli ¡or ¡a ¡Markov ¡model) ¡ » Biological ¡sequences ¡without ¡common ¡regula&on ¡ ¡ (random ¡selec&on ¡of ¡genes) ¡

  10. Biological ¡sequences ¡ • Random-­‑genes ¡ in ¡RSAT ¡ » Select ¡X ¡genes ¡randomly ¡within ¡a ¡given ¡genomes ¡ » Obtain ¡the ¡upstream ¡sequences ¡ » Re-­‑run ¡the ¡exact ¡same ¡analysis ¡

  11. Biological ¡sequences ¡ • Genes ¡not ¡differen6ally ¡regulated ¡ » Select ¡X ¡genes ¡among ¡genes ¡that ¡do ¡not ¡show ¡changes ¡in ¡expression ¡ » Obtain ¡the ¡upstream ¡sequences ¡ » Re-­‑run ¡the ¡exact ¡same ¡analysis ¡

  12. Biological ¡sequences ¡ • Genes ¡not ¡differen6ally ¡regulated ¡ » Coverage ¡in ¡reads ¡in ¡windows ¡aroung ¡TSS ¡(histone ¡marks) ¡ H3K27ac within +/ − 20kb window around 30 genes 1.0 Wilcoxon test pvalue= 0.0016 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.8 H3K27ac / [gene +/ − 20kb window] ● ● ● 0.6 0.4 0.2 0.0 up − regulated genes 10x randomly − picked not regulated genes

  13. Biological ¡sequences ¡ • Random ¡genome ¡fragments ¡in ¡RSAT ¡ » Select ¡a ¡set ¡of ¡fragments ¡with ¡random ¡posi&ons ¡in ¡a ¡given ¡genome, ¡ and ¡return ¡their ¡coordinates ¡and/or ¡sequences ¡ » Adapted ¡to ¡chip-­‑seq ¡? ¡ - Yes: ¡same ¡number ¡of ¡peaks ¡+ ¡same ¡size ¡ - No: ¡composi&on ¡of ¡the ¡sequences ¡(dinucleo&des) ¡not ¡respected ¡

  14. In ¡the ¡context ¡of ¡cis-­‑regula6on ¡ Use ¡different ¡set ¡of ¡sequences ¡ …HIS7 � 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT � …ARO4 � 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG � …ILV6 � 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT � …THR4 � 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC � …ARO1 � 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA � …HOM2 � 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA � …PRO3 � 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA � Use ¡different ¡set ¡of ¡matrices ¡

  15. Matrix ¡permuta6ons ¡ • Matrix-­‑quality ¡in ¡RSAT ¡ TrpR ¡ » Compare ¡distribu&ons ¡of ¡scores ¡for ¡PSSMs ¡ TrpR ¡permuta&ons ¡ ... ¡

  16. Matrix ¡quality ¡with ¡nega6ve ¡datasets ¡ • Matrix-­‑quality ¡in ¡RSAT ¡ » Not ¡for ¡randomly-­‑generated ¡sequences ¡(random-­‑seq) ¡as ¡it ¡will ¡ ALWAYS ¡follow ¡the ¡theore&cal ¡curve ¡(= ¡background ¡= ¡markov ¡model ¡ used ¡to ¡generate ¡the ¡sequences ¡!) ¡ » OK ¡for ¡random ¡selec&on ¡of ¡genes ¡

  17. Building ¡controls ¡in ¡RSAT ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend