introduc on to sta s cs
play

Introduc)on to Sta)s)cs 02-223 How to Analyze Your Own - PowerPoint PPT Presentation

Introduc)on to Sta)s)cs 02-223 How to Analyze Your Own Genome Fall 2013 Why Use Sta)s)cs? Anecdotal evidence is unreliable Why does the phone


  1. Introduc)on ¡to ¡Sta)s)cs ¡ 02-­‑223 ¡How ¡to ¡Analyze ¡Your ¡Own ¡Genome ¡ Fall ¡2013 ¡

  2. Why ¡Use ¡Sta)s)cs? ¡ Anecdotal ¡evidence ¡is ¡unreliable ¡ ¡ Why ¡does ¡the ¡phone ¡always ¡ring ¡when ¡you’re ¡in ¡the ¡shower? ¡ Or, ¡why ¡do ¡you ¡have ¡an ¡increased ¡risk ¡for ¡breast ¡cancer ¡when ¡you ¡ have ¡a ¡mutaHon ¡in ¡BRCA ¡gene? ¡ ¡

  3. Overview ¡ • StaHsHcs ¡ – Mean ¡ – Variance ¡ – Covariance ¡ – CorrelaHon ¡ • Probability ¡ – Probability ¡mass ¡funcHon ¡for ¡discrete ¡random ¡variables ¡ – Probability ¡density ¡funcHon ¡for ¡conHnuous ¡random ¡variables ¡

  4. Mean ¡of ¡Green ¡Pea ¡Height ¡ 3 ¡inches ¡ 6 ¡inches ¡ 5 ¡inches ¡ 2 ¡inches ¡ • Mean ¡= ¡(3+5+2+6)/4 ¡= ¡4 ¡inches ¡

  5. Describing ¡the ¡Center ¡of ¡Data ¡Points ¡ • Let ¡ y ¡ denote ¡a ¡quanHtaHve ¡variable, ¡with ¡observaHons ¡ y 1 , y 2 , y 3 , … , y n • Then, ¡the ¡mean ¡of ¡these ¡observaHons ¡is ¡given ¡as: ¡

  6. Variance ¡ 3 ¡inches ¡ 6 ¡inches ¡ 5 ¡inches ¡ 2 ¡inches ¡ 4.5 ¡ 4.1 ¡ 3.5 ¡ 3.9 ¡ inches ¡ inches ¡ inches ¡ inches ¡ • Mean ¡= ¡(3+5+2+6)/4 ¡= ¡4 ¡ • Mean ¡= ¡(4.5+3.5+3.9+4.1)/4 ¡ inches ¡ = ¡4 ¡inches ¡

  7. Variance ¡ 3 ¡inches ¡ 6 ¡inches ¡ 4.5 ¡ 3.5 ¡ 3.9 ¡ 4.1 ¡ 5 ¡inches ¡ 2 ¡inches ¡ (height-­‑mean) ¡ ¡ inches ¡ inches ¡ inches ¡ inches ¡ -­‑1 ¡inches ¡ 1 ¡inches ¡ -­‑2 ¡inches ¡ 2 ¡inches ¡ 0.5 ¡ -­‑0.5 ¡ -­‑0.1 ¡ 0.1 ¡ inches ¡ inches ¡ inches ¡ inches ¡ Mean ¡= ¡(3+5+2+6)/4 ¡= ¡4 ¡inches ¡ Mean ¡= ¡(4.5+3.5+3.9+4.1)/4 ¡= ¡4 ¡inches ¡ • • Variance ¡= ¡((-­‑1) 2 +1 2 +(-­‑2) 2 + ¡2 2 )/(4-­‑1) ¡ Variance ¡= ¡(0.5 2 +(-­‑0.5) 2 +(-­‑0.1) 2 +(0.1) 2 )/ • • = ¡3.33 ¡ (4-­‑1) ¡= ¡(0.25+0.25+0.02)/3= ¡0.173 ¡

  8. Describing ¡the ¡Variability ¡of ¡Data ¡Points ¡ • How ¡to ¡compute ¡variance ¡(a ¡“typical” ¡distance ¡from ¡the ¡ mean) ¡ – The ¡ devia'on ¡ of ¡observaHon ¡ i ¡ ¡from ¡the ¡mean ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡ ¡ y – The ¡ variance ¡ of ¡the ¡ n ¡ observaHons ¡is ¡ – The ¡standard ¡deviaHon ¡ s ¡is ¡the ¡square ¡root ¡of ¡variance ¡

  9. Proper)es ¡of ¡Standard ¡Devia)on ¡ • s ≥ 0, and only equals 0 if all observations are equal • s increases with the amount of variation around the mean • Division by n - 1 (not n ) is due to technical reasons • s depends on the units of the data (e.g. measure cm vs inch)

  10. Correla)on ¡ • “GPA” ¡and ¡“TV ¡in ¡hours ¡per ¡week” ¡are ¡negaHvely ¡correlated ¡ Mean ¡ 3.02 ¡ 13.8 ¡ How ¡can ¡we ¡quanHfy ¡the ¡level ¡of ¡correlaHon? ¡

  11. Covariance ¡and ¡Correla)on ¡ • Degree ¡of ¡associaHon ¡between ¡two ¡variables ¡x ¡and ¡y ¡ • Given ¡observaHons ¡x 1 , ¡…, ¡x n ¡and ¡y 1 , ¡…, ¡y n ¡ – Covariance ¡ – CorrelaHon: ¡ ¡ (Variance ¡of ¡x i ’s) ¡x ¡(n-­‑1) ¡ (Variance ¡of ¡y i ’s) ¡x ¡(n-­‑1) ¡ • Falls ¡between ¡-­‑1 ¡and ¡+1, ¡with ¡sign ¡indicaHng ¡direcHon ¡of ¡ associaHon ¡ ¡

  12. Correla)on ¡ between ¡ X 1 ¡and ¡ X 2 X 1 ¡ X 2 ¡

  13. Correla)on ¡and ¡Causa)on ¡ • Correla)on ¡does ¡not ¡imply ¡causa)on! ¡

  14. Probability ¡Mass ¡Func)ons ¡(Discrete) ¡ • A ¡probability ¡funcHon ¡maps ¡the ¡possible ¡values ¡of ¡ x ¡against ¡their ¡respecHve ¡probabiliHes ¡of ¡occurrence, ¡ P ( x ) ¡ ¡ • P ( x ) ¡is ¡a ¡number ¡from ¡0 ¡to ¡1.0. ¡ • The ¡area ¡under ¡a ¡probability ¡funcHon ¡is ¡always ¡1. ¡ P(x) ¡ P(x) ¡>= ¡0 ¡ x ¡ 0 ¡ 1 ¡ Example: ¡Coin ¡flip ¡experiment ¡

  15. Discrete ¡Example: ¡SNPs ¡at ¡Genome ¡Locus ¡ Chr3:11,112 ¡ You ¡genotyped ¡the ¡genome ¡locus ¡at ¡ Chr3:11,112 ¡for ¡600 ¡people. ¡You ¡found ¡ p ( x ) that ¡200 ¡people ¡had ¡genotype ¡AA, ¡300 ¡ people ¡had ¡genotype ¡AT, ¡and ¡ ¡100 ¡ people ¡had ¡genotype ¡TT. ¡ ¡ 1/2 Probability ¡Mass ¡FuncHon ¡ 1/3 x p ( x ) 1/6 p ( x=AA ) AA x AA AT TT =1/3 p ( x=AT ) AT =1/2 p ( x=TT ) TT =1/6 ∑ 1.0 P(x) = all x

  16. Discrete ¡Example: ¡Roll ¡of ¡a ¡Die ¡ Probability ¡Mass ¡FuncHon ¡ x p(x) p(x) 1 p(x=1) =1/6 2 p(x=2) =1/6 1/6 3 p(x=3) =1/6 x 4 p(x=4) =1/6 1 2 3 4 5 6 5 p(x=5) =1/6 6 p(x=6) =1/6 1.0 ∑ P(x) = all x

  17. Probability ¡Density ¡Func)on ¡(Con)nuous) ¡ • Unlike ¡discrete, ¡density ¡funcHon ¡does ¡not ¡represent ¡ probability ¡but ¡its ¡rate ¡of ¡change ¡called ¡the ¡ “likelihood” ¡ f(x) ¡ f(x) ¡>= ¡0 ¡ & ¡ ¡Integrates ¡to ¡1.0 ¡ x ¡

  18. The ¡Gaussian ¡Density ¡ • The ¡shape ¡of ¡the ¡Gaussian ¡density ¡funcHon ¡is ¡determined ¡by ¡ mean ¡ μ ¡ and ¡variance ¡ σ ¡ 2 ¡ ¡ Standard ¡ DeviaHon ¡ Mean ¡

  19. Different ¡Gaussian ¡Density ¡Func)ons ¡

  20. Summary ¡ • Mean: ¡describes ¡the ¡center ¡of ¡the ¡data ¡cloud ¡ • Variance: ¡describes ¡the ¡variability ¡of ¡the ¡data ¡cloud ¡ • Covariance: ¡describes ¡the ¡level ¡of ¡associaHon ¡between ¡two ¡ variables ¡ • Probability ¡mass ¡funcHon ¡for ¡discrete ¡random ¡variables ¡ – ProbabiliHes ¡sum ¡to ¡1 ¡ • Probability ¡density ¡funcHon ¡for ¡conHnuous ¡random ¡variables ¡ ProbabiliHes ¡integrate ¡to ¡1 ¡ •

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend