mo f discovery
play

Mo#f discovery Morgane Thomas-Chollier Computa)onal systems - PowerPoint PPT Presentation

Mo#f discovery Morgane Thomas-Chollier Computa)onal systems biology - IBENS mthomas@biologie.ens.fr M2 Computa6onal analysis of cis-regulatory sequences


  1. Mo#f ¡discovery ¡ Morgane ¡Thomas-­‑Chollier ¡ ¡ Computa)onal ¡systems ¡biology ¡-­‑ ¡IBENS ¡ mthomas@biologie.ens.fr ¡ ¡ M2 ¡– ¡Computa6onal ¡analysis ¡of ¡cis-­‑regulatory ¡sequences ¡2015/2016 ¡ Denis ¡Thieffry, ¡Jacques ¡van ¡Helden ¡and ¡Carl ¡Herrmann ¡kindly ¡shared ¡some ¡of ¡their ¡slides. ¡ ¡

  2. Co-­‑expressed ¡genes ¡ clusters ¡of ¡ co-­‑expressed ¡genes ¡ during ¡oxida#ve ¡stress ¡in ¡ yeast ¡ Are ¡they ¡co-­‑regulated ¡? ¡ If ¡so, ¡what ¡is ¡the ¡TF ¡? ¡ ¡

  3. Aim ¡of ¡the ¡course ¡ Mo6f ¡discovery ¡ 1 ¡-­‑ ¡Understand ¡what ¡is ¡a ¡mo6f ¡discovery ¡problem ¡ Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6 2 ¡– ¡Mo6f ¡discovery ¡approaches ¡ § Word ¡coun#ng ¡ § Gibbs ¡sampling ¡ 3 ¡– ¡Important ¡parameters ¡

  4. Aim ¡of ¡the ¡course ¡ Mo6f ¡discovery ¡ 1 ¡-­‑ ¡Understand ¡what ¡is ¡a ¡mo6f ¡discovery ¡problem ¡ Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6 2 ¡– ¡Mo6f ¡discovery ¡approaches ¡ § Word ¡coun#ng ¡ § Gibbs ¡sampling ¡ 3 ¡– ¡Important ¡parameters ¡

  5. Co-­‑expressed ¡genes ¡ Knowing ¡that ¡a ¡set ¡of ¡genes ¡are ¡co-­‑regulated, ¡one ¡can ¡expect ¡that ¡ their ¡upstream ¡regions ¡contains ¡some ¡regulatory ¡signal. ¡ ¡ Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6

  6. A ¡mo6f ¡discovery ¡problem ¡ TF ¡? ¡ Mo6f ¡discovery ¡ …HIS7 � 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT � …ARO4 � 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG � Co-­‑expressed ¡ …ILV6 � 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT � …THR4 � ¡genes ¡ 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC � …ARO1 � 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA � …HOM2 � 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA � …PRO3 � 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA � Problem ¡: ¡If ¡there ¡is ¡a ¡common ¡regula)ng ¡factor, ¡can ¡we ¡discover ¡its ¡mo)f ¡ (some ¡signal) ¡ on the basis of these sequences ONLY ? ¡ § We ¡have ¡a ¡set ¡of ¡sequences ¡ § We ¡suspect ¡that ¡they ¡share ¡some ¡func#onal ¡signal ¡ § We ¡ignore ¡the ¡transcrip#on ¡factors ¡involved ¡in ¡this ¡regula#on. ¡ § We ¡ignore ¡the ¡cis-­‑ac#ng ¡elements ¡

  7. Typical ¡mo6f ¡discovery ¡problems ¡ Motif discovery predicted Binding regions ChIP regions in (non-coding) regulatory elements regions Whole set Complete of upstream genome regions Clusters of Microarray co-expressed RNA-seq genes Clusters of ? Gene fusion evolutionarily analysis related genes Phylogenetic coding region profiles upstream region predicted elements Synteny Clusters of Comparative transcription orthologous genomics factors genes

  8. Aim ¡of ¡the ¡course ¡ Mo6f ¡discovery ¡ 1 ¡-­‑ ¡Understand ¡what ¡is ¡a ¡mo6f ¡discovery ¡problem ¡ Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6 2 ¡– ¡Mo6f ¡discovery ¡approaches ¡ § Word ¡coun#ng ¡ § Gibbs ¡sampling ¡ 3 ¡– ¡Important ¡parameters ¡

  9. Principle: ¡detect ¡unexpected ¡paMerns ¡ TF ¡ Target ¡gene ¡ 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAG AAAAGAGTCA GACATCGAAACATACAT � …HIS7 � …ARO4 � 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCG AAATGACTCA ACG � 5’- CACATCCAACGAATCACCTCACCGTTATCG TGACTCACTT TCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT � …ILV6 � 5’- TGCGAAC AAAAGAGTCA TTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC � …THR4 � …ARO1 � 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATA TGACTCATCC CGAACATGAAA � 5’- ATTGAT TGACTCATTT TCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA � …HOM2 � 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGC TGACTCATTCTGACTCTTTT TTGGAAAGTGTGGCATGTGCTTCACACA � …PRO3 � § Binding ¡sites ¡are ¡represented ¡as ¡“words” ¡= ¡“string”=“k-­‑mer” ¡ - e.g. ¡ acgtga ¡is ¡a ¡6-­‑mer ¡ § Signal ¡is ¡likely ¡to ¡be ¡more ¡frequent ¡in ¡the ¡upstream ¡regions ¡of ¡the ¡ co-­‑regulated ¡genes ¡than ¡in ¡a ¡random ¡selec#on ¡of ¡genes ¡ § We ¡will ¡thus ¡detect ¡over-­‑represented ¡words ¡

  10. Mo6f ¡discovery ¡using ¡word ¡coun6ng ¡ Idea: motifs corresponding to binding sites are generally repeated in the dataset → capture this statistical signal n Algorithm ¡ • count ¡occurrences ¡of ¡ all ¡k-­‑mers ¡in ¡a ¡set ¡of ¡related ¡sequences ¡ (promoters ¡of ¡co-­‑expressed ¡genes, ¡in ¡ChIP ¡bound ¡regions,...) ¡

  11. Let’s ¡take ¡an ¡example ¡(yeast ¡Saccharomyces ¡cerevisiae) ¡ § NIT ¡ ¡ - 7 ¡genes ¡expressed ¡under ¡low ¡nitrogen ¡condi#ons ¡ § MET ¡ - 10 ¡genes ¡expressed ¡in ¡absence ¡of ¡methionine ¡ § PHO ¡ - 5 ¡genes ¡expressed ¡under ¡phosphate ¡stress PHO MET NIT aaaaaa|tttttt 51 � aaaaaa|tttttt 105 � aaaaaa|tttttt 80 � aaaaag|cttttt 15 � atatat|atatat 41 � cttatc|gataag 26 � aagaaa|tttctt 14 � gaaaaa|tttttc 40 � tatata|tatata 22 � gaaaaa|tttttc 13 � tatata|tatata 40 � ataaga|tcttat 20 � tgccaa|ttggca 12 � aaaaat|attttt 35 � aagaaa|tttctt 20 � aaaaat|attttt 12 � aagaaa|tttctt 29 � gaaaaa|tttttc 19 � aaatta|taattt 12 � agaaaa|ttttct 28 � atatat|atatat 19 � agaaaa|ttttct 11 � aaaata|tatttt 26 � agataa|ttatct 17 � caagaa|ttcttg 11 � aaaaag|cttttt 25 � agaaaa|ttttct 17 � aaacgt|acgttt 11 � agaaat|atttct 24 � aaagaa|ttcttt 16 � aaagaa|ttcttt 11 � aaataa|ttattt 22 � aaaaca|tgtttt 16 � acgtgc|gcacgt 10 � taaaaa|ttttta 21 � aaaaag|cttttt 15 � aataat|attatt 10 � tgaaaa|ttttca 21 � agaaga|tcttct 14 � aagaag|cttctt 10 � ataata|tattat 20 � tgataa|ttatca 14 � atataa|ttatat 10 � atataa|ttatat 20 � atataa|ttatat 14 �

  12. The ¡most ¡frequent ¡oligonucleo6des ¡are ¡not ¡informa6ve ¡ § A ¡(too) ¡simple ¡approach ¡would ¡consist ¡in ¡ detec6ng ¡the ¡most ¡frequent ¡ oligonucleo6des ¡(for ¡example ¡hexanucleo#des) ¡for ¡each ¡group ¡of ¡upstream ¡ sequences. ¡ § This ¡would ¡however ¡lead ¡to ¡deceiving ¡results. ¡ - In ¡all ¡the ¡sequence ¡sets, ¡the ¡same ¡kind ¡of ¡pa[erns ¡are ¡selected: ¡ AT-­‑rich ¡ hexanucleo6des . ¡ PHO MET NIT aaaaaa|tttttt 51 � aaaaaa|tttttt 105 � aaaaaa|tttttt 80 � aaaaag|cttttt 15 � atatat|atatat 41 � cttatc|gataag 26 � aagaaa|tttctt 14 � gaaaaa|tttttc 40 � tatata|tatata 22 � gaaaaa|tttttc 13 � tatata|tatata 40 � ataaga|tcttat 20 � tgccaa|ttggca 12 � aaaaat|attttt 35 � aagaaa|tttctt 20 � aaaaat|attttt 12 � aagaaa|tttctt 29 � gaaaaa|tttttc 19 � aaatta|taattt 12 � agaaaa|ttttct 28 � atatat|atatat 19 � agaaaa|ttttct 11 � aaaata|tatttt 26 � agataa|ttatct 17 � caagaa|ttcttg 11 � aaaaag|cttttt 25 � agaaaa|ttttct 17 � aaacgt|acgttt 11 � agaaat|atttct 24 � aaagaa|ttcttt 16 � aaagaa|ttcttt 11 � aaataa|ttattt 22 � aaaaca|tgtttt 16 � acgtgc|gcacgt 10 � taaaaa|ttttta 21 � aaaaag|cttttt 15 � aataat|attatt 10 � tgaaaa|ttttca 21 � agaaga|tcttct 14 � aagaag|cttctt 10 � ataata|tattat 20 � tgataa|ttatca 14 � atataa|ttatat 10 � atataa|ttatat 20 � atataa|ttatat 14 �

  13. A ¡more ¡relevant ¡criterion ¡for ¡over-­‑representa6on ¡ § The ¡most ¡frequent ¡pa[erns ¡do ¡not ¡reveal ¡the ¡mo#fs ¡specifically ¡bound ¡by ¡ specific ¡transcrip#on ¡factors. ¡ ¡ ¡ § They ¡merely ¡ reflect ¡the ¡composi6onal ¡biases ¡of ¡upstream ¡sequences. ¡ ¡ § A ¡more ¡relevant ¡criterion ¡for ¡over-­‑representa#on ¡is ¡to ¡detect ¡pa[erns ¡which ¡ are ¡more ¡frequent ¡ in ¡the ¡upstream ¡sequences ¡of ¡the ¡selected ¡genes ¡(co-­‑ regulated) ¡ than ¡the ¡random ¡expecta6on . ¡ ¡ § The ¡ random ¡expecta6on ¡ is ¡calculated ¡by ¡coun#ng ¡the ¡frequency ¡of ¡each ¡ pa[ern ¡in ¡the ¡complete ¡set ¡of ¡upstream ¡sequences ¡(all ¡genes ¡of ¡the ¡ genome). ¡ => ¡ “Background” ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend