COMP364: Manipula0ng GenBank data with Biopython Jrme - - PowerPoint PPT Presentation

comp364 manipula0ng genbank data with biopython
SMART_READER_LITE
LIVE PREVIEW

COMP364: Manipula0ng GenBank data with Biopython Jrme - - PowerPoint PPT Presentation

COMP364: Manipula0ng GenBank data with Biopython Jrme Waldisphl, McGill University GenBank Go to Genbank and download the record of the Saccharomyces


slide-1
SLIDE 1

COMP364: ¡Manipula0ng ¡ GenBank ¡data ¡with ¡Biopython ¡

Jérôme ¡Waldispühl, ¡McGill ¡University ¡

slide-2
SLIDE 2

GenBank ¡

Go ¡to ¡Genbank ¡and ¡download ¡the ¡record ¡of ¡the ¡“Saccharomyces ¡ cerevisiae ¡TCP1-­‑beta ¡gene” ¡at: ¡ http://www.ncbi.nlm.nih.gov/genbank/

  • ¡Calculate ¡the ¡results ¡of ¡transcrip0on ¡and ¡transla0on ¡of ¡this ¡gene. ¡

Comment ¡your ¡results. ¡Does ¡it ¡look ¡like ¡the ¡real ¡coding ¡sequence? ¡ ¡

slide-3
SLIDE 3

More ¡on ¡representa0ons ¡

What ¡is ¡repr() ¡? ¡Use ¡your ¡genbank ¡record ¡“seq_record” ¡and ¡ print: ¡

  • ¡seq_record ¡
  • ¡repr(seq_record) ¡
  • ¡seq_record.seq ¡
  • ¡repr(seq_record.seq) ¡

The ¡repr ¡module ¡provides ¡a ¡means ¡for ¡producing ¡object ¡ representa0ons ¡with ¡limits ¡on ¡the ¡size ¡of ¡the ¡resul0ng ¡strings. ¡ This ¡is ¡used ¡in ¡the ¡Python ¡debugger ¡and ¡may ¡be ¡useful ¡in ¡other ¡ contexts ¡as ¡well. ¡

slide-4
SLIDE 4

More ¡on ¡GenBank ¡Format ¡

Print ¡the ¡content ¡of ¡the ¡GenBank ¡objet. ¡What ¡do ¡you ¡see? ¡ Genbank ¡format ¡contains ¡many ¡data ¡that ¡can ¡be ¡retrieve ¡using ¡ the ¡appropriate ¡fields. ¡For ¡instance, ¡“organism”, ¡“references” ¡ and ¡“features”. ¡ Lets ¡have ¡a ¡look ¡at ¡the ¡field ¡“.features”. ¡Print ¡its ¡content. ¡It ¡looks ¡ like ¡a ¡list ¡of ¡objects… ¡Using ¡a ¡for ¡loop, ¡enumerate ¡all ¡the ¡items ¡ inside ¡the ¡features ¡and ¡print ¡them. ¡ It ¡contains ¡informa0on ¡about ¡the ¡mRNA ¡and ¡coding ¡sequence ¡ produced ¡by ¡this ¡gene. ¡

slide-5
SLIDE 5

Coding ¡region ¡(CDS) ¡

Filter ¡only ¡the ¡features ¡corresponding ¡to ¡the ¡coding ¡regions ¡(i.e. ¡ such ¡that ¡.features.type ¡is ¡“CDS”) ¡ Retrieve ¡the ¡start, ¡end ¡and ¡strand ¡direc0on ¡of ¡the ¡coding ¡gene: ¡

  • ¡seq_record.features.loca0on.start ¡(start ¡of ¡transcrip0on) ¡
  • ¡seq_record.features.loca0on.end ¡(end ¡of ¡trancrip0on) ¡
  • ¡seq_record.features.loca0on.strand ¡(direc0on) ¡

Retrieve ¡the ¡offset ¡and ¡final ¡product ¡(protein ¡sequences) ¡with: ¡

  • ¡seq_record.features.qualifiers['codon_start'] ¡
  • ¡seq_record.features.qualifiers[‘transla0on'] ¡

Print ¡ ¡these ¡data. ¡Use ¡them ¡to ¡produce ¡the ¡protein ¡sequence ¡ form ¡the ¡dna ¡and ¡compare ¡your ¡results ¡to ¡the ¡expected ¡ones. ¡ (N.B: ¡The ¡last ¡one ¡is ¡part ¡of ¡your ¡homework!) ¡

slide-6
SLIDE 6

Some ¡u0li0es ¡on ¡Protein ¡Sequences ¡

Use ¡the ¡ProtParam ¡module ¡of ¡SeqU0ls ¡(http://biopython.org/ DIST/docs/api/Bio.SeqUtils.ProtParam-module.html) ¡ and ¡show: ¡

  • ¡the ¡amino ¡acids ¡count, ¡
  • ¡the ¡amino ¡acids ¡percent, ¡ ¡
  • ¡the ¡flexibility, ¡
  • ¡the ¡secondary ¡structure ¡frac0on. ¡ ¡

When ¡suitable, ¡use ¡Matplotlib. ¡