sequence alignment mo1va1on and algorithms mo1va1on and
play

Sequence Alignment: Mo1va1on and Algorithms Mo1va1on and - PowerPoint PPT Presentation

Sequence Alignment: Mo1va1on and Algorithms Mo1va1on and Introduc1on Importance of Sequence Alignment For DNA, RNA and amino acid sequences, high sequence


  1. Sequence ¡Alignment: ¡Mo1va1on ¡ and ¡Algorithms ¡

  2. Mo1va1on ¡and ¡Introduc1on ¡

  3. Importance ¡of ¡Sequence ¡Alignment ¡ • For ¡DNA, ¡RNA ¡and ¡amino ¡acid ¡sequences, ¡high ¡ sequence ¡similarity ¡usually ¡implies ¡significant ¡ func1onal ¡or ¡structural ¡similarity. ¡ – imply ¡structure ¡from ¡the ¡sequence ¡similarity ¡ – suggest ¡gene ¡func1on ¡ • Frequently, ¡we ¡aren’t ¡interested ¡in ¡exact ¡ matches ¡of ¡the ¡sequences ¡but ¡approximate ¡ matches. ¡

  4. Inexact ¡Alignment ¡ Where ¡is ¡GATTACA ¡approximately ¡in ¡the ¡human ¡ genome? ¡And ¡how ¡do ¡we ¡efficiently ¡find ¡them? ¡ Answers ¡to ¡these ¡ques1ons ¡depend ¡on: ¡ 1. The ¡defini1on ¡of ¡“approximately” ¡ ¡ – Hamming ¡Distance, ¡Edit ¡distance, ¡Sequence ¡ Similarity ¡ 2. Efficiency ¡depends ¡on ¡the ¡data ¡characteris1cs ¡ and ¡goals ¡

  5. In ¡this ¡lecture… ¡ • Sequence ¡alignment ¡and ¡alignment ¡soTware ¡ are ¡used ¡all ¡over ¡bioinforma1cs ¡for ¡different ¡ purposes. ¡ ¡ • The ¡goal ¡of ¡this ¡lecture ¡is ¡to ¡understand ¡ sequence ¡alignment, ¡mo1vate ¡it ¡in ¡the ¡ context ¡of ¡assembly, ¡and ¡seeing ¡what ¡ soTware ¡is ¡out ¡there. ¡ ¡

  6. Two ¡examples ¡where ¡you ¡would ¡ use ¡sequence ¡similarity ¡ 1. Use ¡a ¡known ¡genome ¡to ¡help ¡assemble ¡an ¡ unknown ¡genome. ¡ 2. Annota1ng ¡a ¡genome. ¡

  7. Two ¡examples ¡where ¡you ¡would ¡ use ¡sequence ¡similarity ¡ 1. Use ¡a ¡known ¡genome ¡to ¡help ¡assemble ¡an ¡ unknown ¡genome. ¡ 2. Annota1ng ¡a ¡genome. ¡

  8. What ¡is ¡a ¡reference ¡genome? ¡ • A ¡ reference ¡genome ¡is ¡a ¡representa1ve ¡ example ¡of ¡a ¡species’ ¡set ¡of ¡genes. ¡ ¡ • As ¡they ¡are ¡oTen ¡assembled ¡from ¡the ¡ sequencing ¡of ¡DNA ¡from ¡a ¡number ¡of ¡donors, ¡ reference ¡genomes ¡do ¡not ¡accurately ¡ represent ¡the ¡set ¡of ¡genes ¡of ¡any ¡individual. ¡ • BUT ¡the ¡reference ¡is ¡very, ¡very, ¡VERY ¡similar ¡in ¡ many ¡loca1ons ¡to ¡the ¡individual. ¡ ¡ ¡

  9. Sample ¡Prepara*on ¡ 10

  10. Sample ¡Prepara*on ¡ Fragments 11

  11. Sample ¡Prepara*on ¡ Fragments Sequencing ¡ Next Generation Sequencing (NGS) ACGTAGAATCGACCATG ACGTAGAATACGTAGAA GGGACGTAGAATACGAC Reads 12

  12. Sample ¡Prepara*on ¡ Fragments Sequencing ¡ Reads ACGTAGAATACGTAGAA Assembly ¡ ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAAACAGATTAGAGAG… Contigs 13

  13. Sample ¡Prepara*on ¡ Fragments Sequencing ¡ Reads ACGTAGAATACGTAGAA Assembly ¡ ACGTAGAATCGACCATG GGGACGTAGAATACGAC BUT WE DON’T HAVE TO BEGIN FROM SCRATCH!!! ACGTAGAATACGTAGAAACAGATTAGAGAG… Contigs 14

  14. How ¡do ¡we ¡use ¡the ¡reference? ¡ • The ¡reads ¡from ¡the ¡individual ¡will ¡be ¡very ¡ similar ¡but ¡not ¡iden1cal ¡to ¡the ¡reference ¡ genome. ¡ • Ideally, ¡we ¡would ¡like ¡to ¡use ¡the ¡informa1on ¡ from ¡the ¡reference! ¡Otherwise, ¡we ¡are ¡ throwing ¡up ¡valuable ¡informa1on. ¡ • Hence, ¡the ¡first ¡step ¡is ¡to ¡find ¡where ¡in ¡the ¡ genome ¡the ¡sequences ¡are ¡similar ¡to. ¡ ¡

  15. Two ¡examples ¡where ¡you ¡would ¡ use ¡sequence ¡similarity ¡ 1. Use ¡a ¡known ¡genome ¡to ¡help ¡assemble ¡an ¡ unknown ¡genome. ¡ 2. Annota9ng ¡a ¡genome. ¡

  16. Sequence ¡Alignment ¡ • Before ¡we ¡can ¡make ¡compara1ve ¡statements ¡ about ¡two ¡sequences, ¡we ¡have ¡to ¡produce ¡a ¡ pairwise ¡sequence ¡alignment ¡ • What ¡is ¡the ¡op1mal ¡alignment ¡between ¡two ¡ sequences? ¡ • Match/mismatch? ¡Gaps/extensions? ¡Is ¡an ¡ op1mal ¡alignment ¡always ¡significant? ¡

  17. Edit ¡Distance ¡ Levenshtein (1966) introduced edit distance between two strings as the minimum number of elementary operations (insertions, deletions, and substitutions) to transform one string into the other d(v, w) : the minimum number of operations required to transform v into w.

  18. Edit ¡Distance ¡vs ¡Hamming ¡Distance ¡ Hamming ¡distance ¡ always ¡ Edit ¡distance ¡may ¡compare ¡ ¡ compares ¡ the ¡ i th ¡le^er ¡of ¡ v ¡ ¡ the ¡ i th ¡le^er ¡of ¡ v ¡ ¡with ¡the ¡ j th ¡ with ¡the ¡ j th ¡le^er ¡of ¡ w ¡ le^er ¡of ¡ w ¡ V = ATATATAT V = -ATATATAT W = TATATATA- W = TATATATA d ( v , w )=8 d ( v , w )=2 computing Hamming computing edit distance distance is a trivial task is a non-trivial task

  19. Edit ¡Distance ¡vs ¡Hamming ¡Distance ¡ Hamming ¡distance ¡ always ¡ Edit ¡distance ¡may ¡compare ¡ ¡ compares ¡ the ¡ i th ¡le^er ¡of ¡ v ¡ ¡ the ¡ i th ¡le^er ¡of ¡ v ¡ ¡with ¡the ¡ j th ¡ with ¡the ¡ j th ¡le^er ¡of ¡ w ¡ le^er ¡of ¡ w ¡ V = ATATATAT V = -ATATATAT W = TATATATA- W = TATATATA d ( v , w )=8 d ( v , w )=2 (one insertion and one deletion) How ¡to ¡find ¡what ¡ j ¡goes ¡with ¡what ¡ i ¡such ¡that ¡ the ¡“score” ¡of ¡the ¡alignment ¡is ¡op1mized? ¡

  20. Edit ¡Distance: ¡Example ¡ ¡ TGCATAT ¡ � ¡ ATCCGAT ¡in ¡5 ¡steps ¡ ¡ TGCATAT � (delete ¡last ¡ T ) ¡ TGCATA � (delete ¡last ¡ A ) ¡ TGCAT � (insert ¡ A ¡at ¡front) ¡ ATGCAT � (subs1tute ¡ C ¡for ¡3 rd ¡ G ) ¡ ATCCAT � (insert ¡ G ¡before ¡last ¡ A ) ¡ ¡ ATCCGAT (Done) ¡ ¡ ¡ ¡

  21. Compu1ng ¡Edit ¡Distance ¡

  22. Dynamic ¡Programming ¡Algorithm ¡ • Dynamic ¡Programming ¡ is ¡a ¡method ¡for ¡solving ¡ complex ¡problems ¡by ¡breaking ¡them ¡down ¡ into ¡simpler ¡subproblems. ¡ • Provides ¡the ¡best ¡(op1mal) ¡alignment ¡ between ¡two ¡sequences. ¡ • Includes ¡matches, ¡mismatches, ¡and ¡gaps ¡to ¡ maximize ¡the ¡number ¡of ¡matched ¡characters. ¡ • Score: ¡match, ¡mismatch, ¡gap ¡(affine ¡vs. ¡non-­‑ affine) ¡

  23. Dynamic ¡Programming ¡Visualized ¡ 0 1 2 2 3 4 5 6 7 7 A T _ G T T A T _ A T C G T _ A _ C 0 1 2 3 4 5 5 6 6 7 Corresponding ¡path ¡ (0,0), (1,1), (2,2), (2,3), (3,4), (4,5), (5,5), (6,6), (7,6), (7,7)

  24. Dynamic ¡Programming ¡Visualized ¡ and represent indels in v and w with score 0. represent matches with score 1. The score of the alignment path is 5.

  25. Dynamic ¡Programming ¡Visualized ¡ Every path in the edit graph corresponds to an alignment:

  26. Define ¡Rules ¡ • Score ¡for ¡match: ¡+1 ¡ • Score ¡for ¡mismatch: ¡0 ¡ • Score ¡for ¡gap: ¡0 ¡ ¡ Let ¡ s i,j ¡ be ¡the ¡total ¡score ¡at ¡posi1on ¡i, ¡j ¡then ¡we ¡ have ¡that ¡it ¡is ¡equal ¡to ¡the ¡maximum ¡of ¡{ s i-­‑1, ¡j-­‑1 ¡ + ¡1 ¡ ( if ¡v i ¡= ¡w j ), ¡ s i-­‑1, ¡j ¡ (otherwise: ¡gap ¡or ¡mismatch)} ¡ ¡

  27. Dynamic ¡Programming ¡Example ¡ Ini1alize ¡ 1 st ¡row ¡and ¡ 1 st ¡ ¡ column ¡to ¡be ¡all ¡zeroes. ¡ ¡ Or, ¡to ¡be ¡more ¡precise, ¡ ini1alize ¡ 0 th ¡row ¡and ¡ 0 th ¡ column ¡to ¡be ¡all ¡zeroes. ¡

  28. Dynamic ¡Programming ¡Example ¡ S i,j = maximum of : S i-1, j-1 � value from NW +1, if v i = w j S i-1, j � value from North (top) � value from West (left) S i, j-1

  29. Alignment: ¡Backtracking ¡ Arrows ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡show ¡where ¡the ¡score ¡originated. ¡ ¡ ¡ ¡ • if ¡from ¡the ¡top ¡ • if ¡from ¡the ¡leT ¡ • if ¡ v i ¡= ¡ w j ¡ ¡

  30. Backtracking ¡Example ¡ Find a match in row and column 2. i=2, j=2,5 is a match (T). j=2, i=4,5,7 is a match (T). Since v i = w j , s i,j = s i-1,j-1 +1 s 2,2 = [s 1,1 = 1] + 1 s 2,5 = [s 1,4 = 1] + 1 s 4,2 = [s 3,1 = 1] + 1 s 5,2 = [s 4,1 = 1] + 1 s 7,2 = [s 6,1 = 1] + 1

  31. Backtracking ¡Example ¡ Con1nuing ¡with ¡the ¡ dynamic ¡programming ¡ ¡ algorithm ¡gives ¡this ¡ result. ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend