Genomic ¡sequence ¡analysis: ¡ gene ¡predic4on
We ¡want ¡to ¡know ¡how ¡this…
TGCATCGATCGTAGCTAGCTAGCGCATGCTAGCTAGCTAGCTAGCTACGATGCATCG TGCATCGATCGATGCATGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTATTGG CGCTAGCTAGCATGCATGCATGCATCGATGCATCGATTATAAGCGCGATGACGTCAG CGCGCGCATTATGCCGCGGCATGCTGCGCACACACAGTACTATAGCATTAGTAAAAA GGCCGCGTATATTTTACACGATAGTGCGGCGCGGCGCGTAGCTAGTGCTAGCTAGTC TCCGGTTACACAGGTAGCTAGCTAGCTGCTAGCTAGCTGCTGCATGCATGCATTAGT AGCTAGTGTAGCTAGCTAGCATGCTGCTAGCATGCAGCATGCATCGGGCGCGATGCT GCTAGCGCTGCTAGCTAGCTAGCTAGCTAGGCGCTAATTATTTATTTTGGGGGGTTA AAAAAAAAAATTTCGCTGCTTATACCCCCCCCCACATGATGATCGTTAGTAGCTACT AGCTCTCATCGCGCGGGGGGATGCTTAGCGTGGTGTGTGTGTGTGGTGTGTGTGGTC CTATAATTAGTGCATCGGCGCATCGATGGCTAGTCGATCGATCGATTTTATATATCT AAAGACCCCATCTCTCTCTCTTTTCCCTTCTCTCGCTAGCGGGCGGTACGATTTACC GGCCGCGTATATTTTACACGATAGTGCGGCGCGGCGCGTAGCTAGTGCTAGCTAGTC AGCTCTCATCGCGCGGGGGGATGCTTAGCGTGGTGTGTGTGTGTGGTGTGTGTGGTC TGCATCGATCGATGCATGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTATTGG CTATAATTAGTGCATCGGCGCATCGATGGCTAGTCGATCGATCGATTTTATATATCT CGCTAGCTAGCATGCATGCATGCATCGATGCATCGATTATAAGCGCGATGACGTCAG TCCGGTTACACAGGTAGCTAGCTAGCTGCTAGCTAGCTGCTGCATGCATGCATTAGT
Becomes ¡this What ¡are ¡we ¡looking ¡for?
Protein A Protein C Protein D Function A Function B Function C Function D
Gene A Gene B Gene C Gene D Repetitive elements Promoters
mRNA A RNA B mRNA C mRNA D
Ge>ng ¡all ¡genes
- Genome ¡sequencing
– Access ¡to ¡en4re ¡genome, ¡allows ¡to ¡learn ¡more ¡about ¡ genome ¡organiza4on – Regulatory ¡elements – Only ¡small ¡percentage ¡of ¡the ¡genome ¡codes ¡for ¡genes – Hard ¡to ¡iden4fy ¡less ¡typical ¡genes – High ¡rate ¡of ¡false ¡posi4ves
- EST ¡sequencing
– Requires ¡less ¡sequencing ¡since ¡it ¡is ¡focused ¡on ¡coding ¡ sequence ¡only – Small ¡rate ¡of ¡false ¡posi4ves, ¡although ¡even ¡10% ¡of ¡EST ¡ sequences ¡could ¡be ¡ar4facts – Genes ¡with ¡very ¡restricted ¡expression ¡may ¡never ¡be ¡ discovered – In ¡most ¡cases ¡gives ¡only ¡par4al ¡sequences
Gene ¡iden4fica4on ¡methods
- Molecular ¡techniques
– Very ¡laborious – Time ¡consuming – Expensive – Low ¡rate ¡of ¡false ¡posi4ves
- Computa4onal ¡methods
– Fast – Rela4vely ¡low ¡cost – High ¡rate ¡of ¡false ¡posi4ves – Poor ¡performance ¡on ¡less ¡typical ¡genes