Gene Expressions and Genomes 02-223 Personalized Medicine: - - PowerPoint PPT Presentation
Gene Expressions and Genomes 02-223 Personalized Medicine: - - PowerPoint PPT Presentation
Gene Expressions and Genomes 02-223 Personalized Medicine: Understanding Your Own Genome Fall 2014 Why Gene Expression? Genome-wide associaGon mapping
Why ¡Gene ¡Expression? ¡
DNA ¡sequence ¡ Disease ¡or ¡healthy? ¡
Molecular ¡ mechanism? ¡
Genome-‑wide ¡associaGon ¡mapping ¡
Why ¡Gene ¡Expression ¡
- IdenGfying ¡the ¡geneGc ¡variants ¡that ¡confer ¡disease ¡risk ¡is ¡not ¡
enough ¡to ¡decipher ¡the ¡molecular ¡mechanisms ¡of ¡how ¡the ¡ geneGc ¡variaGon ¡influence ¡the ¡disease: ¡
– In ¡medicine ¡ ¡
- We ¡need ¡to ¡determine ¡which ¡biological ¡pathways ¡and ¡genes ¡are ¡
involved ¡in ¡the ¡disease ¡process. ¡
- The ¡idenGfied ¡pathways ¡and ¡genes ¡can ¡be ¡a ¡target ¡for ¡drug. ¡
– In ¡science ¡
- Determining ¡which ¡pathways ¡underlie ¡the ¡associaGon ¡between ¡the ¡
geneGc ¡variaGon ¡and ¡phenotype ¡can ¡provide ¡insights ¡on ¡the ¡ funcGon ¡of ¡genes. ¡
Microarrays ¡for ¡Molecular ¡Biology ¡
DNA ¡ mRNA ¡ transcription translation Proteins ¡
Microarray ¡for ¡measuring ¡ gene ¡expression ¡levels ¡ TranscripGon ¡factor ¡
Microarray ¡Hybridiza=on ¡
- Watson-‑Crick ¡base ¡pairing ¡of ¡complementary ¡DNA ¡sequences. ¡
- Microarrays ¡have ¡tens ¡of ¡thousands ¡of ¡spots, ¡each ¡represenGng ¡a ¡
piece ¡of ¡one ¡gene, ¡immobilized ¡on ¡a ¡glass ¡slide. ¡
- The ¡intensity ¡(or ¡intensity ¡raGo) ¡of ¡each ¡spot ¡indicates ¡the ¡amount ¡
- f ¡labeled ¡cDNA ¡hybridized, ¡thus, ¡represenGng ¡the ¡starGng ¡mRNA ¡
transcript ¡abundance. ¡
Hybridization and Scanning— cDNA arrays
- Prepare Cy3, Cy5-
labeled ss cDNA
- Hybridize 600 ng of
labeled ss cDNA to glass slide array
- Scan
What ¡is ¡gene ¡ expression? ¡
genes ¡
Individuals ¡
10 ¡ 20 ¡ 70 ¡ 80 ¡
gene ¡1 ¡ Higher ¡ expression ¡ compared ¡to ¡ baseline ¡ Lower ¡ expression ¡ compared ¡to ¡ baseline ¡ baseline ¡ expression ¡
Expression ¡= ¡acGvity ¡ level ¡of ¡gene ¡in ¡ experiment ¡
Hierarchical ¡Clustering ¡
- Probably ¡the ¡most ¡popular ¡clustering ¡algorithm ¡in ¡
computaGonal ¡biology ¡
- AgglomeraGve ¡(bo^om-‑up) ¡
- Algorithm: ¡
- 1. IniGalize: ¡each ¡item ¡a ¡cluster ¡
- 2. Iterate: ¡
- select ¡two ¡most ¡similar ¡clusters ¡
- merge ¡them ¡
- 3. ¡ ¡ ¡Halt: ¡when ¡there ¡is ¡only ¡one ¡cluster ¡le_ ¡
dendrogram
Similarity ¡Criterion: ¡Single ¡Linkage ¡
- cluster ¡similarity ¡= ¡similarity ¡of ¡two ¡most ¡similar ¡
members ¡
- Potentially
long and skinny clusters
Example: ¡Single ¡Linkage ¡
1 2 3 4 5
In ¡most ¡cases ¡(1-‑r2), ¡ where ¡r2 ¡is ¡the ¡correlaGon ¡ coefficient, ¡is ¡used ¡as ¡ similarity ¡measure ¡ between ¡samples ¡
Example: ¡Single ¡Linkage ¡
1 2 3 4 5
In ¡most ¡cases ¡(1-‑r2), ¡ where ¡r2 ¡is ¡the ¡correlaGon ¡ coefficient, ¡is ¡used ¡as ¡ similarity ¡measure ¡ between ¡samples ¡
Example: ¡Single ¡Linkage ¡
(1,2) 3 4 5 (1,2) 3 4 5 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥
1 2 3 4 5
In ¡most ¡cases ¡(1-‑r2), ¡ where ¡r2 ¡is ¡the ¡correlaGon ¡ coefficient, ¡is ¡used ¡as ¡ similarity ¡measure ¡ between ¡samples ¡
Example: ¡Single ¡Linkage ¡
1 2 3 4 5
In ¡most ¡cases ¡(1-‑r2), ¡ where ¡r2 ¡is ¡the ¡correlaGon ¡ coefficient, ¡is ¡used ¡as ¡ similarity ¡measure ¡ between ¡samples ¡
Example: ¡Single ¡Linkage ¡
1 2 3 4 5
Example: ¡Single ¡Linkage ¡
1 2 3 4 5
Similarity ¡Criterion: ¡Complete ¡Linkage ¡
- cluster ¡similarity ¡= ¡similarity ¡of ¡two ¡least ¡similar ¡
members ¡ + tight clusters
Similarity ¡Criterion: ¡Average ¡Linkage ¡
- cluster ¡similarity ¡= ¡average ¡similarity ¡of ¡all ¡pairs ¡
the ¡most ¡widely ¡used ¡ similarity ¡measure ¡ Robust ¡against ¡noise ¡
In ¡some ¡cases ¡we ¡can ¡determine ¡the ¡“correct” ¡number ¡of ¡clusters. ¡However, ¡things ¡are ¡rarely ¡ this ¡clear ¡cut, ¡unfortunately. ¡
But ¡What ¡Are ¡the ¡Clusters? ¡
- Nonhierarchical, ¡each ¡object ¡is ¡placed ¡in ¡exactly ¡one ¡of ¡K ¡non-‑
- verlapping ¡clusters. ¡
- the ¡user ¡has ¡to ¡specify ¡the ¡desired ¡number ¡of ¡clusters ¡K. ¡
- In ¡hierarchical ¡clustering, ¡we ¡use ¡similarity ¡measures ¡between ¡
two ¡observed ¡samples, ¡whereas ¡in ¡K-‑means ¡clustering, ¡we ¡use ¡ the ¡similarity ¡measures ¡between ¡an ¡observed ¡sample ¡and ¡the ¡ cluster ¡center ¡(mean). ¡ ¡
Example: ¡Clustering ¡Genes ¡
- Clustering ¡genes ¡helps ¡determine ¡
new ¡funcGons ¡for ¡unknown ¡genes ¡
- Applying ¡hierarchical ¡clustering ¡
algorithm ¡to ¡gene ¡expression ¡data ¡ was ¡an ¡early ¡“killer ¡applicaGon” ¡in ¡ this ¡area ¡
Gene ¡Expression ¡Data ¡and ¡Personalized ¡ Medicine ¡(Golub ¡et ¡al., ¡Science, ¡1999) ¡
- One ¡of ¡the ¡earliest ¡work ¡that ¡demonstrated ¡the ¡
feasibility ¡of ¡using ¡only ¡microarray ¡gene ¡expression ¡data ¡ to ¡determine ¡cancer ¡subtypes ¡for ¡paGents ¡
- A ¡staGsGcal ¡model ¡was ¡learned ¡to ¡predict ¡the ¡labels ¡for ¡
acute ¡myeloid ¡leukemia ¡(ALL) ¡and ¡acute ¡lymphoblasGc ¡ leukemia ¡ ¡(AML) ¡for ¡each ¡paGent ¡given ¡gene ¡expression ¡ data ¡
– ¡Dataset ¡used ¡to ¡learn ¡the ¡model ¡consisted ¡of ¡27 ¡ALL ¡and ¡11 ¡ AML ¡paGents ¡ – Tested ¡the ¡learned ¡model ¡on ¡20 ¡ALL ¡and ¡14 ¡AML ¡paGents ¡and ¡ 29 ¡out ¡of ¡34 ¡paGents ¡were ¡predicted ¡to ¡have ¡correct ¡cancer ¡ subtypes ¡
Gene ¡Expression ¡Signature ¡Can ¡Dis=nguish ¡ Cancer ¡Types ¡
Genes ¡that ¡are ¡informaGve ¡for ¡predicGng ¡ cancer ¡types ¡ PaGents ¡
FDA ¡Approves ¡Gene-‑Based ¡Breast ¡Cancer ¡ Test* ¡
“MammaPrint ¡is ¡a ¡DNA ¡ microarray-‑based ¡test ¡that ¡ measures ¡the ¡acGvity ¡of ¡70 ¡ genes... ¡The ¡test ¡measures ¡each ¡
- f ¡these ¡genes ¡in ¡a ¡sample ¡of ¡a ¡
woman's ¡breast-‑cancer ¡tumor ¡ and ¡then ¡uses ¡a ¡specific ¡formula ¡ to ¡determine ¡whether ¡the ¡ paGent ¡is ¡deemed ¡low ¡risk ¡or ¡ high ¡risk ¡for ¡the ¡spread ¡of ¡the ¡ cancer ¡to ¡another ¡site.” ¡
Learning ¡Bayesian ¡Networks ¡
- Probability ¡distribuGon ¡over ¡directed ¡graph ¡ ¡
– Model ¡data ¡distribuGon ¡in ¡populaGon ¡ – CondiGonal ¡probability ¡distribuGon ¡(CPD) ¡for ¡ each ¡variable/node ¡condiGonal ¡on ¡its ¡parent ¡ nodes ¡ – ProbabilisGc ¡inference: ¡
- PredicGon ¡
- ClassificaGon ¡
- Dependency ¡structure ¡
– InteracGons ¡between ¡variables ¡ – Causality ¡ – ScienGfic ¡discovery ¡
Data
INTL ¡ MSFT ¡ MOT ¡ NVLS ¡
Slides ¡from ¡the ¡presentaGon ¡by ¡Segal ¡et ¡al. ¡UAI03 ¡
P(x1,..., xn) = P(xi | xi+1,..., xn)
i=1 n
∏
= P(xi | Pa(xi))
i=1 n
∏
INTL ¡ MSFT ¡ MOT ¡ DELL ¡ AMAT ¡ HPQ ¡ CPD 2 CPD 1 CPD 3
Bayesian Network
The ¡Module ¡Network ¡Idea ¡
CPD 6 CPD 3 CPD 5 CPD 1 CPD 2 CPD 4 INTL ¡ MSFT ¡ MOT ¡ DELL ¡ AMAT ¡ HPQ ¡
Module III Module II Module I
Module Network
Slides ¡from ¡the ¡presentaGon ¡by ¡Segal ¡et ¡al. ¡UAI03 ¡
- Applying ¡module ¡
network ¡to ¡2355 ¡genes ¡ in ¡the ¡173 ¡arrays ¡of ¡the ¡ yeast ¡stress ¡data ¡set ¡
Gene ¡Expressions ¡and ¡Genomes ¡
- Can ¡we ¡idenGfy ¡the ¡geneGc ¡loci ¡that ¡control ¡gene ¡
expressions? ¡
- Expression ¡quanGtaGve ¡trait ¡locus ¡(eQTL) ¡mapping ¡
– Data: ¡SNPs ¡and ¡gene-‑expression ¡data ¡collected ¡over ¡many ¡individuals ¡ – Treats ¡gene ¡expressions ¡as ¡phenotypes ¡and ¡tries ¡to ¡discover ¡the ¡ geneGc ¡basis ¡of ¡gene ¡expression ¡variability ¡across ¡individuals ¡ – The ¡genes ¡whose ¡expression ¡levels ¡are ¡perturbed ¡by ¡the ¡given ¡geneGc ¡ variaGon ¡are ¡the ¡most ¡likely ¡candidate ¡for ¡influencing ¡the ¡observed ¡ (clinical) ¡phenotypes ¡ ¡
Personalized ¡Genomics ¡
¡ ¡ ¡“eQTL ¡studies ¡are ¡showing ¡that ¡future ¡visits ¡to ¡the ¡clinic ¡will ¡ not ¡be ¡solely ¡based ¡on ¡personalized ¡genomics ¡(that ¡is, ¡ genome ¡sequencing) ¡but ¡instead ¡on ¡personalized ¡‘omics’, ¡ which ¡will ¡combine ¡in-‑depth ¡analysis ¡of ¡DNA ¡and ¡funcGonal ¡ genomics ¡to ¡tell ¡us ¡more ¡about ¡the ¡medical ¡condiGon ¡of ¡an ¡ individual.” ¡
Montgomery ¡and ¡Dermitzakis, ¡Nature ¡ Reviews ¡GeneGcs ¡2011. ¡
Gene=c ¡Control ¡of ¡Gene ¡Expressions ¡
- ¡TranscripGon ¡factors ¡bind ¡to ¡the ¡
upstream ¡regions ¡of ¡genes ¡on ¡ DNA ¡to ¡iniGate ¡the ¡transcripGon ¡
- f ¡genes ¡
- ¡TranscripGon ¡factor ¡binding ¡sites ¡
- n ¡DNA ¡o_en ¡have ¡specific ¡DNA ¡
sequences ¡
Gene=c ¡Control ¡of ¡Gene ¡Expressions ¡
- ¡How ¡would ¡DNA ¡sequence ¡
variaGon ¡affect ¡transcripGon ¡of ¡ genes? ¡ ¡
cis ¡and ¡trans ¡eQTLs ¡
- cis ¡eQTL: ¡in ¡genomes, ¡the ¡eQTL ¡is ¡located ¡near ¡the ¡gene ¡
whose ¡expression ¡is ¡affected ¡by ¡the ¡eQTL. ¡
– E.g., ¡mutaGons ¡in ¡the ¡upstream ¡of ¡a ¡gene ¡influences ¡the ¡expression ¡ level ¡of ¡the ¡gene ¡
- trans ¡eQTL: ¡in ¡genomes, ¡the ¡eQTL ¡is ¡located ¡far ¡away ¡(or ¡on ¡a ¡
different ¡chromosome) ¡from ¡the ¡gene ¡whose ¡expression ¡is ¡ affected ¡by ¡the ¡eQTL. ¡
– E.g., ¡mutaGons ¡in ¡the ¡transcripGon ¡factor ¡gene ¡can ¡influence ¡the ¡ expression ¡level ¡of ¡the ¡TF ¡target ¡genes. ¡
How ¡Genome ¡Controls ¡Biological ¡System ¡
IntegraGve ¡analysis ¡of ¡genomic ¡ data ¡
How ¡Genome ¡Controls ¡Biological ¡System ¡
Studying ¡the ¡Gene=c ¡Basis ¡of ¡Diseases ¡
Summary ¡
- Microarray ¡gene ¡expression ¡data ¡can ¡provide ¡valuable ¡insights ¡
- n ¡gene ¡funcGons ¡that ¡may ¡be ¡hard ¡to ¡determine ¡from ¡DNA ¡
sequence ¡alone. ¡
- eQTL ¡mapping ¡can ¡be ¡used ¡ ¡
– to ¡idenGfy ¡the ¡geneGc ¡variants ¡that ¡explain ¡gene-‑expression ¡variability. ¡ – to ¡determine ¡the ¡molecular ¡mechanisms ¡that ¡are ¡involved ¡in ¡disease ¡
- processes. ¡