PREDICTING PREDIC ING T THE DISE HE DISEASE O SE OF A F ALZ - - PowerPoint PPT Presentation

predicting predic ing t the dise he disease o se of a f
SMART_READER_LITE
LIVE PREVIEW

PREDICTING PREDIC ING T THE DISE HE DISEASE O SE OF A F ALZ - - PowerPoint PPT Presentation

PREDICTING PREDIC ING T THE DISE HE DISEASE O SE OF A F ALZ LZHEIMER HEIMER WIT WITH SNP BIOMA H SNP BIOMARK RKER ERS A S AND CLINICA ND CLINICAL D L DATA USING D USING


slide-1
SLIDE 1

PREDIC PREDICTING ING ¡T ¡THE ¡DISE HE ¡DISEASE ¡O SE ¡OF ¡A F ¡ALZ LZHEIMER ¡ ¡ HEIMER ¡ ¡ WIT WITH ¡SNP ¡BIOMA H ¡SNP ¡BIOMARK RKER ERS ¡A S ¡AND ¡CLINICA ND ¡CLINICAL ¡D L ¡DATA ¡ ¡ ¡ ¡ USING USING ¡D ¡DATA ¡MINING ¡MINING ¡CLA ¡CLASSIFICA SSIFICATIO ION ¡A N ¡APPR PPROACH: ¡ CH: ¡ DE DECISION ¡T CISION ¡TREE REE

¡On ¡Onur ¡ERDOĞAN r ¡ERDOĞAN ¡ ¡ ¡ ¡ ¡ ¡YEŞİM ¡A ¡ ¡ ¡ ¡ ¡ ¡YEŞİM ¡AYDIN ¡SON YDIN ¡SON

MEDICAL ¡INFORMATICS MIDDLE ¡EAST ¡TECHNICAL ¡UNIVERSITY

slide-2
SLIDE 2

Outline

q Mo#va#on ¡ q Introduc#on ¡ q Materials ¡& ¡Methods ¡ q Results ¡ q Discussion ¡ q Future ¡Work ¡

slide-3
SLIDE 3

MoFvaFon

§ Recent ¡developments ¡in ¡biotechnology ¡have ¡allowed ¡the ¡high-­‑throughput ¡data ¡genera#on ¡ from ¡biological ¡samples. ¡ § So ¡genomic ¡medicine ¡is ¡about ¡taking ¡a ¡whole-­‑genome ¡view ¡to ¡gene#c ¡disorders ¡so ¡we ¡can ¡ discover: ¡

§ If ¡a ¡person ¡is ¡associated ¡with ¡suscep#bility ¡to ¡complex ¡diseases ¡ ¡ § The ¡iden#fica#on ¡of ¡the ¡underlying ¡gene#c ¡reasons ¡ § Insight ¡into ¡the ¡pathoe#ology ¡of ¡the ¡disease ¡ § How ¡to ¡select ¡the ¡appropriate ¡treatment ¡ § How ¡to ¡prevent ¡disease ¡

slide-4
SLIDE 4

MoFvaFon ¡(Contd)

§ In ¡this ¡study ¡we ¡have ¡applied ¡one ¡of ¡the ¡widely ¡used ¡data ¡mining ¡classifica#on ¡methodology: ¡ “decision ¡tree” ¡for ¡associa#ng ¡the ¡SNP ¡Biomarkers ¡and ¡clinical ¡data ¡with ¡the ¡Alzheimer’s ¡disease ¡ (AD), ¡which ¡is ¡the ¡most ¡common ¡form ¡of ¡“demen#a”. ¡

§ To ¡determine ¡whether ¡clinical ¡informa#on ¡contributes ¡to ¡the ¡performance ¡of ¡the ¡classifier ¡(predic#on ¡ model). ¡ § To ¡determine ¡which ¡aSributes’ ¡combina#on ¡(SNPs ¡or ¡clinical ¡or ¡demographic ¡features) ¡make ¡individuals ¡ risky ¡in ¡terms ¡of ¡Alzheimer’s ¡Disease. ¡

slide-5
SLIDE 5

IntroducFon

§ Gene#c ¡disorders ¡are ¡illnesses ¡caused ¡by ¡one ¡or ¡more ¡abnormali#es ¡in ¡the ¡human ¡genome. ¡ § Modern ¡gene#cs ¡so ¡far ¡has ¡had ¡its ¡major ¡impact ¡on ¡medicine ¡by ¡defining ¡diseases ¡caused ¡by ¡ visible ¡chromosomal ¡defects ¡and ¡by ¡finding ¡varia#ons ¡in ¡a ¡gene ¡( ¡mutant ¡gene). ¡

§ Single ¡gene ¡diseases ¡ § Over ¡1500 ¡muta#ons ¡detected ¡ § Generally ¡rare ¡ § Follows ¡Mendelian ¡inheritance ¡(autosomal ¡dominant) ¡

§ Most ¡mul#factorial, ¡chronic ¡diseases ¡ ¡are ¡generally ¡caused ¡by ¡the ¡combined ¡effects ¡of ¡ gene#c ¡varia#on ¡on ¡different ¡genomic ¡loca#ons. ¡(i.e. ¡Alzheimer’s ¡Disease, ¡Joint ¡Ilness) ¡

§ No ¡clear ¡paSern ¡of ¡inheritence ¡(enviromental ¡factors ¡may ¡affect) ¡ § Common ¡in ¡popula#on ¡ § Results ¡from ¡the ¡interac#ons ¡of ¡mul#ple ¡genes ¡

slide-6
SLIDE 6

IntroducFon ¡(Contd)

§ The ¡most ¡common ¡gene#c ¡varia#ons ¡are ¡single ¡DNA ¡building ¡block ¡altera#ons ¡which ¡are ¡the ¡ challenging ¡aspect ¡of ¡the ¡post-­‑genome ¡biology. ¡ § Finding ¡DNA ¡muta#ons ¡in ¡genes ¡that ¡cause ¡or ¡contribute ¡to ¡a ¡disease ¡is ¡one ¡of ¡the ¡most ¡ challenging ¡tasks. ¡However, ¡it ¡is ¡like ¡looking ¡for ¡a ¡needle ¡in ¡a ¡haystack ¡since ¡millons ¡of ¡SNPs ¡exist ¡ in ¡human ¡genome. ¡

§ Gene#c ¡reason ¡behind ¡individual ¡phenotypic ¡differences ¡ § Basis ¡of ¡many ¡complex ¡diseases ¡

§ Intelligent ¡computa#onal ¡techniques ¡are ¡needed ¡in ¡order ¡to ¡draw ¡conclusions ¡from ¡the ¡high ¡ amount ¡of ¡data. ¡

§ Data ¡mining ¡methods ¡have ¡become ¡promising ¡in ¡determining ¡of ¡the ¡significant ¡gene#c ¡ ¡ ¡ varia#on ¡among ¡individuals. ¡

§ Supervised ¡learning ¡(Decision ¡Tree, ¡Support ¡Vector ¡Machines, ¡Ar#ficial ¡Neural ¡Networks ¡etc.) ¡ § Unsupervised ¡learning ¡(K-­‑means ¡clustering, ¡hierarchical ¡clustering ¡etc.) ¡

slide-7
SLIDE 7

Background ¡InformaFon ¡ Biological ¡Background

¡ SNPs ¡ § Single ¡Nucleo#de ¡Polymorphisms(SNPs) ¡are ¡the ¡most ¡common ¡DNA ¡sequence ¡varia#on ¡where ¡

  • nly ¡a ¡single ¡nucleo#de ¡(A,T,C,G) ¡in ¡the ¡human ¡genome ¡differs ¡between ¡individuals. ¡

§ Humans ¡share ¡about ¡99.9% ¡sequence ¡iden#ty ¡

§ The ¡other ¡0.1% ¡(about ¡10 ¡million ¡bases) ¡are ¡mostly ¡SNPs ¡ § SNPs ¡occur ¡approximately ¡every ¡3000 ¡bases ¡ § Most ¡SNPs ¡have ¡only ¡2 ¡alleles ¡ § Most ¡SNPs ¡not ¡in ¡coding ¡regions ¡(99% ¡not ¡in ¡genes) ¡ § SNPs ¡can ¡cause ¡silent, ¡harmless, ¡harmful, ¡or ¡latent ¡changes ¡ § When ¡frequent ¡enough ¡in ¡a ¡popula#on ¡they ¡can ¡be ¡linked ¡to ¡specific ¡traits, ¡e.g. ¡a ¡disease ¡ § In ¡reality ¡few ¡SNPs ¡act ¡on ¡their ¡own ¡

slide-8
SLIDE 8

Background ¡InformaFon ¡ Biological ¡Background ¡(Contd)

G ¡A ¡C ¡ ¡-­‑-­‑-­‑-­‑-­‑-­‑ ¡ ¡G ¡A ¡G ¡ ¡Leucine ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Leucine ¡ ¡

SNP ¡

slide-9
SLIDE 9

Background ¡InformaFon ¡ Biological ¡Background ¡(Contd)

C ¡T ¡A ¡ ¡-­‑-­‑-­‑-­‑-­‑-­‑ ¡ ¡C ¡T ¡T ¡ ¡Aspar1c ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Valine ¡

¡Acid ¡

SNP ¡

slide-10
SLIDE 10

Material ¡& ¡Methods

¡ Dataset ¡ § The ¡AD ¡genotyping ¡and ¡phenotyping ¡data ¡is ¡obtained ¡from ¡GENADA. ¡Throughout ¡authorized ¡access, ¡we ¡ reached ¡ ¡1718 ¡par#cipant’s ¡individual ¡level ¡data ¡. ¡ § GENADA ¡dataset ¡contains ¡both ¡genotypic ¡informa#on ¡and ¡phenotyping ¡informa#on. ¡ § In ¡this ¡study ¡410907 ¡SNPs ¡are ¡captured ¡for ¡each ¡individuals ¡in ¡9 ¡medical ¡centers ¡in ¡Canada ¡from ¡eligible ¡ individuals ¡who ¡have ¡Alzheimer’s ¡disease ¡at ¡the ¡level ¡of ¡mild ¡to ¡moderate, ¡a ¡group ¡of ¡ethnically ¡matched ¡ controls ¡who ¡are ¡not ¡yet ¡considered ¡AD. ¡

slide-11
SLIDE 11

Material ¡& ¡Methods ¡(Contd)

¡ Preprocessing ¡(takes ¡60% ¡of ¡efforts ¡of ¡whole ¡process) ¡ ¡ Integra#ng ¡Data ¡ § GENADA ¡contains ¡different ¡repositories ¡in ¡terms ¡of ¡genotype ¡data ¡or ¡laboratory ¡results. ¡Each ¡ repository ¡created ¡by ¡individual ¡IDs. ¡ § Genotyping ¡ ¡data ¡(SNPs), ¡phenotype ¡informa#on ¡and ¡clinical ¡informa#on ¡are ¡joined ¡using ¡ structured ¡query ¡language. ¡

slide-12
SLIDE 12

Material ¡& ¡Methods ¡(Contd)

¡ In ¡addi#on ¡to ¡genotype ¡data, ¡clinical ¡aSributes ¡are ¡included ¡in ¡the ¡study ¡for ¡the ¡predic#on ¡of ¡AD. ¡

Variable ¡Name Descrip1on

Subject ¡ID Individual ¡iden#fica#on ¡number. age Diagnosis ¡age ¡(for ¡controls). age_on Onset ¡age ¡of ¡AD ¡(for ¡pa#ents). gender Sex ¡of ¡the ¡individuals. case/control Informa#on ¡about ¡affec#on ¡status. Body ¡Mass ¡Index(BMI) Body ¡fatness ¡for ¡individuals. CHOL(mmol/l) Amount ¡of ¡fat ¡lipid ¡ ¡carried ¡in ¡the ¡blood ¡by ¡molecules ¡called ¡lipoproteins. HB(g/l) Amount ¡of ¡proteins ¡that ¡are ¡found ¡in ¡red ¡blood ¡cells. HBA1C_PCT Percentage ¡of ¡hemoglobin ¡in ¡red ¡blood ¡cells ¡(erythrocytes) ¡that ¡is ¡#ed ¡up ¡to ¡glucose. HDLCH(mmol/l) Amount ¡of ¡high ¡density ¡lipoprotein. LDLCH(mmol/l) Amount ¡of ¡low ¡density ¡lipoprotein. TRIG(mmol/l) Amount ¡of ¡triglycerides ¡in ¡blood ¡plasma. WBC(giga/l) The ¡number ¡of ¡leukocytes ¡in ¡the ¡blood ¡.

slide-13
SLIDE 13

Material ¡& ¡Methods ¡(Contd)

¡ Preprocessing ¡(takes ¡60% ¡of ¡efforts ¡of ¡whole ¡process) ¡ ¡ Dimension ¡Reduc#on ¡ In ¡this ¡study, ¡from ¡the ¡high ¡dimension ¡of ¡data ¡aSributes, ¡the ¡subset ¡which ¡contains ¡the ¡highest ¡ significant ¡data ¡aSributes ¡are ¡chosen ¡for ¡the ¡decision ¡tree ¡predic#on ¡model ¡construc#on. ¡

§ GWAS ¡ § AHP ¡Scoring ¡

slide-14
SLIDE 14

Material ¡& ¡Methods ¡(Contd)

¡ Preprocessing ¡(takes ¡60% ¡of ¡efforts ¡of ¡whole ¡process) ¡ ¡ Dimension ¡Reduc#on ¡ ¡ GWAS ¡(Genome ¡Wide ¡Associa#on ¡Study) ¡

§ The ¡first ¡implementa#on ¡is ¡ ¡determina#on ¡of ¡sta#s#cally ¡significant ¡SNPs ¡caused ¡to ¡Alzheimer ¡disease. ¡ § Obtaining ¡sta#s#cal ¡significant ¡SNPs ¡by ¡their ¡p-­‑values. ¡For ¡each ¡SNP ¡within ¡410969 ¡SNP ¡biomarkers, ¡ asympto#c ¡p-­‑value ¡is ¡calculated. ¡ § P-­‑values ¡iden#fies ¡the ¡sta#s#cally ¡most ¡significant ¡SNPs ¡associated ¡to ¡disease. ¡ ¡ § Output ¡p-­‑values ¡are ¡unadjusted ¡p ¡values. ¡Not ¡only ¡sta#s#cally ¡but ¡also ¡biological ¡significance ¡must ¡be ¡ taken ¡into ¡account ¡during ¡defining ¡the ¡most ¡revelant ¡SNP ¡aSributes ¡in ¡dimension ¡reduc#on. ¡

slide-15
SLIDE 15

Material ¡& ¡Methods ¡(Contd)

¡ Preprocessing ¡(takes ¡60% ¡of ¡efforts ¡of ¡whole ¡process) ¡ ¡ Dimension ¡Reduc#on ¡ ¡ AHP ¡(Analy#c ¡Hierarchy ¡Process) ¡Scoring ¡

§ Reducing ¡the ¡number ¡of ¡SNPs ¡by ¡taking ¡into ¡considera#on ¡to ¡biological ¡and ¡sta#s#cal ¡importance ¡is ¡the ¡ key ¡for ¡selec#ng ¡the ¡representa#ve ¡SNPs ¡from ¡hundred ¡of ¡thousands ¡SNPs. ¡ ¡ § Ajer ¡GWAS, ¡AHP ¡based ¡scoring ¡algorithm ¡is ¡used. ¡ § METU-­‑SNP ¡ranked ¡the ¡SNPs. ¡ ¡ § SNPs ¡with ¡a ¡score ¡above ¡0,40 ¡are ¡selected. ¡ ¡ § There ¡were ¡958 ¡biologically ¡and ¡sta#s#cally ¡significant ¡SNPs ¡defined ¡ ¡with ¡a ¡AHP ¡Score ¡ranging ¡between ¡ 0.409511-­‑0.717559. ¡

slide-16
SLIDE 16

Material ¡& ¡Methods ¡(Contd)

§ Knowledge ¡extrac#on ¡steps: ¡

§ GWAS ¡ § SNP ¡priori#za#on ¡using ¡METU-­‑SNP ¡based ¡on ¡AHP ¡ priori#za#on ¡ § AD ¡related ¡clinical ¡or ¡phenotypic ¡aSribute ¡selec#on ¡ § Decision ¡Tree ¡(C4.5, ¡ID3) ¡construc#on ¡ § Extrac#ng ¡rules ¡and ¡results ¡

¡

slide-17
SLIDE 17

Material ¡& ¡Methods ¡(Contd)

¡ Data ¡Mining ¡

§ “The ¡extrac#on ¡of ¡knowledge ¡from ¡large ¡amounts ¡of ¡data.” ¡(Han ¡and ¡Kamber, ¡2006) ¡ § Data ¡mining ¡is ¡defined ¡as ¡the ¡process ¡of ¡discovering ¡paSerns ¡in ¡data. ¡The ¡paSerns ¡discovered ¡must ¡be ¡ meaningful ¡in ¡that ¡they ¡lead ¡to ¡some ¡advantage, ¡usually ¡an ¡economic ¡advantage. ¡The ¡data ¡is ¡invariably ¡ present ¡in ¡substan#al ¡quan##es” ¡(WiSen ¡and ¡Frank, ¡2005) ¡ ¡ § Data ¡Mining ¡Tasks ¡

§ Classifica#on ¡ § Clustering ¡ § Associa#on ¡

slide-18
SLIDE 18

Material ¡& ¡Methods ¡(Contd)

Learning Algorithm Inference Engine Models Training Set New Instance Annotated Instance Test Set

slide-19
SLIDE 19

Material ¡& ¡Methods ¡(Contd)

§ We ¡constructed ¡two ¡decision ¡tree ¡

§ Generated ¡using ¡only ¡Reprsenta#ve ¡SNPs. ¡ § Generated ¡using ¡SNPs ¡and ¡clinical ¡data. ¡

§ The ¡C4.5 ¡algorithm ¡constructs ¡decision ¡trees ¡in ¡top-­‑down ¡manner ¡since ¡C4.5 ¡can ¡handle ¡numerical ¡aSributes. ¡ § As ¡aSribute ¡selec#on ¡criteria, ¡gain ¡ra#o ¡is ¡preferred ¡to ¡informa#on ¡gain ¡since ¡informa#on ¡gain ¡is ¡biased ¡ when ¡an ¡independent ¡variable ¡has ¡many ¡outcomes. ¡

§ Gain ¡ra#o ¡a ¡modifica#on ¡of ¡the ¡informa#on ¡gain ¡that ¡reduces ¡its ¡bias ¡on ¡high-­‑branch ¡aSributes. ¡ § Gain ¡ra#o ¡takes ¡number ¡and ¡size ¡of ¡branches ¡into ¡account ¡when ¡choosing ¡an ¡aSribute(normaliza#on). ¡

§ The ¡minimal ¡gain ¡ra#o ¡is ¡iden#fied ¡as ¡0,01 ¡since ¡gain ¡ra#o ¡greater ¡than ¡0,01 ¡does ¡not ¡have ¡a ¡role ¡to ¡divide ¡ data ¡into ¡subsets ¡(stopping ¡criteria). ¡ § For ¡performance ¡es#ma#on, ¡we ¡par##oned ¡data ¡into ¡training ¡and ¡test ¡set ¡using ¡sampling, ¡11-­‑fold ¡cross ¡ valida#on. ¡

slide-20
SLIDE 20

Material ¡& ¡Methods ¡(Contd)

§ The ¡decision ¡tree ¡is ¡a ¡commonly ¡used ¡and ¡one ¡of ¡the ¡strongest ¡classifica#on ¡methods ¡of ¡data ¡ mining ¡frequently ¡used ¡in ¡order ¡to ¡generate ¡rules ¡from ¡data. ¡ ¡ § Finds ¡a ¡model ¡ ¡for ¡class ¡aSribute ¡as ¡a ¡func#on ¡of ¡the ¡values ¡of ¡other ¡aSributes. ¡ § Most ¡widely ¡used ¡decision ¡tree ¡algorithms ¡are ¡ID3, ¡C4.5, ¡CHAID. ¡

§ Entropy: ¡Impurity, ¡uncertainity ¡ § Informa#on ¡Gain: ¡Which ¡aSribute ¡in ¡a ¡given ¡set ¡of ¡training ¡feature ¡vectors ¡is ¡most ¡useful ¡for ¡discrimina#ng ¡ between ¡the ¡classes ¡to ¡be ¡learned. ¡

§ Dataset ¡is ¡par##oned ¡into ¡two ¡dis#nct ¡subsets. ¡

§ Training ¡set ¡(used ¡for ¡tree ¡construc#on) ¡ § Test ¡set ¡(used ¡to ¡evaluate ¡the ¡performance ¡of ¡the ¡model) ¡

slide-21
SLIDE 21

Material ¡& ¡Methods ¡(Contd)

¡ Basic ¡Decision ¡Tree ¡Learning ¡Algorithm: ¡ ¡ DT ¡Algorithm ¡(Samples, ¡A,ributeList, ¡TargetA,ribute) ¡ ¡ If ¡all ¡values ¡of ¡TargetASribute= ¡Posi#ve ¡

Return ¡a ¡leaf ¡node ¡label ¡it ¡Posi#ve ¡

¡ If ¡all ¡values ¡of ¡TargetASribute= ¡Nega#ve ¡

Return ¡a ¡leaf ¡node ¡label ¡it ¡Nega#ve ¡

¡ If ¡ASributeList ¡is ¡empty ¡

Return ¡a ¡leaf ¡node ¡with ¡the ¡most ¡common ¡TargetASribute ¡(Posi#ve, ¡Nega#ve) ¡

¡ Select ¡best ¡splimng ¡aSribute ¡(highest ¡informa#on ¡gain ¡based ¡on ¡informa#on ¡theory) ¡ ¡ Create ¡node ¡labeled ¡with ¡best ¡splimng ¡aSribute ¡name ¡ ¡ For ¡each ¡value ¡ai ¡of ¡samples ¡in ¡SelectedASribute ¡

Let ¡Si ¡be ¡the ¡set ¡of ¡samples ¡in ¡Samples ¡for ¡which ¡TestASribute=ai ¡ ¡ ¡If ¡Si ¡is ¡not ¡empty ¡ ¡ ¡ ¡ ¡ASach ¡the ¡node ¡returned ¡by ¡DT ¡Algorithm ¡(Si, ¡A,ributeList, ¡Target ¡A,ribute) ¡

Root ¡Node ¡ Decision ¡Node ¡ Leaf ¡Node ¡ Arc/Edge ¡

Stopping ¡criterion: ¡ ¡

if ¡all ¡the ¡samples ¡belong ¡to ¡one ¡class ¡or ¡if ¡all ¡the ¡aSributes ¡are ¡used ¡to ¡construct ¡the ¡tree. ¡

slide-22
SLIDE 22

Material ¡& ¡Methods ¡(Contd)

§ Classifica#on ¡accuracy ¡of ¡a ¡rule ¡set ¡is ¡the ¡ra#o ¡of ¡the ¡number ¡of ¡correctly ¡classified ¡ ¡object ¡from ¡the ¡test ¡ set ¡and ¡all ¡objects ¡in ¡the ¡test ¡set. ¡ § ¡In ¡order ¡to ¡es#mate ¡the ¡classifier ¡accuracy ¡

§ Holdout, ¡ ¡cross-­‑valida#on ¡and ¡leave-­‑one-­‑out ¡methods ¡are ¡used. ¡

§ Accuracy ¡of ¡the ¡model ¡is ¡calculated ¡by ¡confusion ¡matrix ¡of ¡test ¡set. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡𝐵𝑑𝑑𝑣𝑠𝑏𝑑𝑧=​𝐷𝑁1,1+𝐷𝑁2,2/ 𝐷𝑁1,1+𝐷𝑁1,2+𝐷𝑁2,1+𝐷𝑁2,2 ¡ ¡ ¡

¡ ¡ Predicted ¡Class ¡ ¡ Class1 Class2 Actual ¡Class Class1 true ¡posi#ves(CM1,1) ¡[1] false ¡nega#ves(CM1,2) ¡[2] ¡ Class2 false ¡posi#ves(CM2,1) ¡[3] true ¡nega#ves(CM2,2) ¡[4] ¡

[1] ¡True ¡posi#ve ¡samples ¡that ¡are ¡correctly ¡classified ¡by ¡the ¡model. ¡ [2] ¡False ¡nega#ves ¡are ¡the ¡posi#ve ¡samples ¡that ¡are ¡classified ¡incorrectly ¡ [3] ¡False ¡posi#ves ¡are ¡the ¡nega#ve ¡samples ¡that ¡are ¡classified ¡incorrectly. ¡ [4] ¡True ¡nega#ves ¡are ¡the ¡nega#ve ¡samples ¡that ¡are ¡correctly ¡classified ¡by ¡the ¡model. ¡

¡

slide-23
SLIDE 23

Material ¡& ¡Methods ¡(Contd)

¡ Preprocessing ¡(takes ¡60% ¡of ¡efforts ¡of ¡whole ¡process) ¡ ¡ Cleaning ¡Data ¡ § In ¡this ¡study, ¡some ¡lab ¡findings ¡for ¡individuals ¡ ¡are ¡missing ¡in ¡the ¡dataset. ¡This ¡may ¡be ¡because ¡ test ¡is ¡unable ¡for ¡person ¡or ¡data ¡is ¡not ¡entered ¡by ¡laboratory. ¡ ¡ § All ¡the ¡genotype ¡data ¡is ¡fully ¡filled ¡in, ¡no ¡need ¡to ¡imputa#on ¡of ¡SNP ¡alleles. ¡ § Ajer ¡clearing ¡the ¡missing ¡value ¡data, ¡there ¡are ¡1480 ¡data ¡tuples ¡lej ¡for ¡the ¡construc#on ¡of ¡the ¡ predic#on ¡model. ¡ ¡ § Onset ¡ages ¡of ¡14 ¡people ¡in ¡the ¡case ¡group ¡are ¡not ¡kept ¡in ¡the ¡dataset. ¡we ¡fill ¡the ¡missing ¡values ¡

  • f ¡age-­‑onset ¡aSribute ¡with ¡the ¡mean ¡of ¡age ¡of ¡cases. ¡
slide-24
SLIDE 24

Material ¡& ¡Methods ¡(Contd)

Disease ¡resistant ¡popula#on ¡ Disease ¡suscep#ble ¡popula#on ¡ Genotype ¡all ¡individuals ¡for ¡thousands ¡of ¡SNPs ¡ A ¡T ¡G ¡A ¡T ¡T ¡A ¡T ¡A ¡G ¡ A ¡T ¡G ¡T ¡T ¡T ¡A ¡T ¡A ¡G ¡ gene ¡X ¡ Resistant ¡people ¡all ¡have ¡an ¡«A» ¡at ¡posi:on ¡4 ¡in ¡gene ¡X ¡while ¡ suspec#ble ¡people ¡have ¡a ¡«T» ¡(A/T ¡are ¡SNPs) ¡

slide-25
SLIDE 25

Results

§ Construct ¡a ¡decision ¡tree ¡for ¡the ¡purpose ¡of ¡ ¡ diagnosis ¡of ¡late-­‑onset ¡AD ¡based ¡on ¡pa1ents ¡ genotyping ¡and ¡clinical ¡data. ¡

§ First ¡model ¡contains ¡only ¡SNPs ¡iden1fied ¡as ¡associated ¡to ¡ Alzheimer’s ¡Disease(AD) ¡a\er ¡GWAS ¡and ¡AHP ¡scoring. ¡ § The ¡accuracy ¡rate: ¡56,08% ¡± ¡1,96% ¡ ¡ § Second ¡model ¡that ¡contains ¡both ¡SNPs ¡and ¡clinical ¡ informa1on ¡of ¡individuals ¡a\er ¡GWAS ¡and ¡AHP ¡scoring. ¡ § The ¡accuracy ¡rate: ¡55,07% ¡± ¡2,49% ¡

¡ Representa#ve ¡SNPs: ¡ ¡

¡ (38 ¡SNPs ¡were ¡chosen ¡for ¡the ¡predic1on) ¡

¡ ¡

¡ Representa#ve ¡SNPs ¡with ¡Clinical ¡Features: ¡

¡ (27 ¡SNPs ¡were ¡chosen ¡for ¡the ¡predic1on) ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ 10 ¡ 12 ¡ 13 ¡ 14 ¡ 18 ¡ 20 ¡ 22 ¡ Number ¡of ¡SNPs ¡ Chromosome ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ 10 ¡ 12 ¡ 13 ¡ 20 ¡ Number ¡of ¡SNPs ¡ Chromosome ¡

slide-26
SLIDE 26

Results ¡(Contd)

§ Using ¡only ¡representa#ve ¡SNPs ¡ ¡DT ¡produced ¡26 ¡decision ¡nodes ¡(rules) ¡in ¡terms ¡of ¡the ¡ predic#on ¡of ¡AD. ¡

§ The ¡most ¡significant ¡SNP ¡(at ¡ ¡root ¡node): ¡SNP_A-­‑4213932 ¡in ¡gene ¡DBT ¡(dihydrolipoamide ¡branched ¡ chain ¡transacylase ¡E2) ¡on ¡chromosome ¡1. ¡

§ Second ¡level ¡signigicant ¡par##on ¡SNPS: ¡

§ SNP_A-­‑2146889 ¡in ¡FOXO3 ¡ ¡forkhead ¡box ¡O3 ¡on ¡chromosome ¡6 ¡ § SNP_A-­‑2258450 ¡in ¡ ¡ANGPT2 ¡ ¡angiopoie#n ¡2 ¡on ¡chromosome ¡8 ¡ § SNP_A-­‑1849082 ¡in ¡gene ¡NBN ¡on ¡chromosome ¡8 ¡

slide-27
SLIDE 27

Results ¡(Contd)

§ Using ¡both ¡clinical ¡data ¡and ¡SNPs ¡also ¡produced ¡29 ¡decision ¡nodes ¡(rules) ¡in ¡terms ¡of ¡the ¡ predic#on ¡of ¡AD. ¡

§ The ¡most ¡significant ¡SNP ¡(at ¡ ¡root ¡node) ¡:SNP_A-­‑4213932 ¡in ¡gene ¡DBT ¡(dihydrolipoamide ¡branched ¡ chain ¡transacylase ¡E2) ¡on ¡chromosome ¡1. ¡ § Second ¡level ¡signigicant ¡par##on ¡SNPS: ¡

§ SNP_A-­‑2146889 ¡in ¡FOXO3 ¡ ¡forkhead ¡box ¡O3 ¡on ¡chromosome ¡6 ¡ § Age ¡ § Cholesterol ¡(mmol) ¡

slide-28
SLIDE 28

Results ¡(Contd)

SNP_A-­‑4213932 ¡= ¡[T_C] ¡/ ¡[C_T] D B T ¡ d i h y d r o l i p o a m i d e ¡ branched ¡chain ¡transacylase ¡E2 1 1,00 SNP_A-­‑2258450 ¡= ¡[A_A] ANGPT2 ¡ ¡angiopoie#n ¡2 8 SNP_A-­‑1901559 ¡= ¡[G_G] STK39 ¡ ¡serine ¡threonine ¡kinase ¡ 39 2 SNP_A-­‑1930045 ¡= ¡[G_G] SEMA3C ¡ ¡ sema ¡ domain, ¡ immunoglobulin ¡ domain ¡ (Ig), ¡ short ¡ basic ¡ domain, ¡ secreted, ¡ (semaphorin) ¡3C 7 SNP_A-­‑4198010 ¡= ¡[A_A] FGD4 ¡ ¡ FYVE, ¡ RhoGEF ¡ and ¡ PH ¡ domain ¡containing ¡4 4 SNP_A-­‑2164852 ¡= ¡[C_G] ¡/ ¡[G_C] TLL2 ¡ ¡tolloid-­‑like ¡2 10 SNP_A-­‑2075360 ¡= ¡[C_C] CAMKK2 ¡ ¡ calcium/calmodulin-­‑ dependent ¡ protein ¡ kinase ¡ kinase ¡2, ¡beta 12 SNPs ¡ Gene ¡ Chromosome ¡ P ¡

slide-29
SLIDE 29

Results ¡(Contd)

SNP_A-­‑4213932 ¡= ¡[T_C] ¡/ ¡[C_T] ¡DBT ¡ ¡dihydrolipoamide ¡branched ¡ chain ¡transacylase ¡E2 1 1,00 age ¡> ¡53.050 #N/A #N/A Body_Mass_Indx ¡> ¡17.150 #N/A #N/A HBA1C_PCT ¡> ¡0.091 #N/A #N/A SNPs ¡ Gene ¡ Chromosome ¡ P ¡

slide-30
SLIDE 30

Results ¡(Contd)

THE ¡CLASSIFIER ¡PERFORMANCE ¡OF ¡ REPRESENTATIVE ¡SNPS ¡ THE ¡CLASSIFIER ¡PERFORMANCE ¡FOR ¡ REPRESENTATIVE ¡SNPS ¡AND ¡CLINICAL ¡DATA ¡

¡ true ¡CASE true ¡CNTL class ¡precision

  • predic1on. ¡CASE

428 334 56.17%

  • predic1on. ¡CNTL

316 402 55.99% class ¡recall 57,53% 54,62% ¡0,5608 ¡ ¡ true ¡CASE true ¡CNTL class ¡precision

  • predic1on. ¡CASE

461 382 55,69%

  • predic1on. ¡CNTL

283 354 55,57% class ¡recall 61,96% 48,10% ¡0,5507

slide-31
SLIDE 31

Discussion

§ We ¡extracted ¡significant ¡predictors ¡of ¡a ¡disease ¡iden#fied ¡by ¡the ¡combina#on ¡of ¡SNPs ¡or ¡clinical ¡factors ¡ that ¡causes ¡changes ¡in ¡the ¡order ¡of ¡nucleo#des. ¡ ¡ § We ¡inves#gated ¡whether ¡use ¡of ¡clinical ¡informa#on ¡increases ¡the ¡predic#on ¡accuracy ¡or ¡not ¡for ¡the ¡late-­‑

  • nset ¡AD ¡for ¡GenADA ¡Study. ¡Clinical ¡data ¡does ¡not ¡contribute ¡to ¡the ¡classifica#on. ¡

§ Best ¡known ¡associa#on ¡among ¡these ¡genes ¡is ¡the ¡APOE ¡gene ¡on ¡chromosome ¡19 ¡but ¡we ¡did ¡not ¡come ¡ upon ¡since ¡GENADA ¡does ¡ ¡not ¡include ¡SNPs ¡related ¡to ¡APOE ¡gene. ¡ § In ¡clinical ¡semngs, ¡current ¡diagnosis ¡methods ¡for ¡Alzheimer ¡Disease ¡cost ¡much. ¡Using ¡only ¡SNP ¡data, ¡ predic#on ¡for ¡AD ¡will ¡be ¡promising ¡and ¡cheaper. ¡ § ¡Considering ¡the ¡difficul#es ¡of ¡diagnosis ¡methods, ¡implementa#on ¡of ¡decision ¡tree ¡ ¡using ¡genotypic ¡ informa#on ¡of ¡individuals ¡can ¡be ¡applied ¡in ¡clinical ¡domain. ¡ ¡

slide-32
SLIDE 32

Future ¡Work

§ More ¡data ¡from ¡different ¡popula#ons ¡can ¡be ¡obtained ¡and ¡analysed ¡to ¡reveal ¡gene#c ¡varia#ons. ¡ § Other ¡data ¡mining ¡techniques ¡such ¡as ¡support ¡vector ¡machines, ¡naive ¡bayesian ¡classifer ¡or ¡ar#ficial ¡ neural ¡network ¡can ¡be ¡implemented ¡to ¡our ¡dataset ¡in ¡order ¡to ¡obtain ¡a ¡beSer ¡accuracy ¡rate. ¡ § More ¡clinical ¡variable ¡can ¡be ¡tested. ¡ § The ¡SNPs ¡that ¡Affymetrics ¡does ¡not ¡include(such ¡as ¡APOE ¡etc.) ¡must ¡be ¡merged ¡to ¡SNPs ¡data ¡since ¡ the ¡rela#ons ¡of ¡SNPs ¡are ¡important ¡in ¡the ¡predic#on ¡of ¡a ¡disease. ¡Hence ¡accuracy ¡rate ¡can ¡be ¡

  • increased. ¡
slide-33
SLIDE 33

THANK ¡YOU ¡ ¡ FOR ¡YOUR ¡ ATTENTION