research
play

Research Diverging Alterna-ve Splicing Fingerprints Iden-fied - PowerPoint PPT Presentation

Mul$variate Data Analysis in Omics Research Diverging Alterna-ve Splicing Fingerprints Iden-fied in Thoracic Aor-c Aneurysm Sanela Kjellqvist, PhD WABI RNAseq course


  1. Mul$variate ¡Data ¡Analysis ¡in ¡Omics ¡ Research ¡ Diverging ¡ Alterna-ve ¡Splicing ¡Fingerprints ¡ Iden-fied ¡in ¡Thoracic ¡Aor-c ¡Aneurysm ¡ Sanela ¡Kjellqvist, ¡PhD ¡ WABI ¡RNAseq ¡course ¡ 2015-­‑10-­‑22 ¡

  2. Outline ¡ • Why ¡mulDvariate ¡data ¡analysis? ¡ • MulDvariate ¡staDsDcs ¡ – Different ¡analyses ¡ – Data ¡preprocessing ¡ • AlternaDve ¡splicing ¡in ¡thoracic ¡aorDc ¡aneurysm ¡ – Thoracic ¡aorDc ¡aneurysm ¡ – Study ¡setup ¡ – Aim ¡of ¡the ¡study ¡ – Results ¡ – Summary ¡ • Today’s ¡exercise ¡

  3. WHY ¡MULTIVARIATE ¡DATA ¡ANALYSIS? ¡ ¡

  4. Development ¡of ¡Classical ¡StaDsDcs ¡– ¡ 1930s ¡ ¡Assump$ons: ¡ MulDple ¡regression ¡ • Canonical ¡correlaDon ¡ • Independent ¡X ¡variables ¡ • Linear ¡discriminant ¡analysis ¡ • ¡ Analysis ¡of ¡variance ¡ • Many ¡more ¡observaDons ¡than ¡ • variables ¡ K ¡ Regression ¡analysis ¡one ¡Y ¡at ¡a ¡ • Dme ¡ Tables ¡are ¡long ¡ and ¡lean ¡ No ¡missing ¡data ¡ • ¡ N ¡

  5. Today’s ¡data ¡ RNASeq, ¡Array, ¡LC-­‑MS/MS, ¡GC/MS ¡or ¡ • NMR ¡data ¡ ¡ Problems ¡ • – Many ¡variables ¡ – Few ¡observaDons ¡ K ¡ – Noisy ¡data ¡ – Missing ¡data ¡ – MulDple ¡responses ¡ ImplicaDons ¡ • N ¡ – High ¡degree ¡of ¡correlaDon ¡ – Difficult ¡to ¡analyse ¡with ¡ convenDonal ¡methods ¡ Data ¡ ≠ ¡InformaDon ¡ • – Need ¡ways ¡to ¡extract ¡informaDon ¡ from ¡the ¡data ¡ – Need ¡reliable, ¡predicDve ¡ informaDon ¡ – Ignore ¡random ¡variaDon ¡(noise) ¡ ¡

  6. Poor ¡Methods ¡of ¡Data ¡Analysis ¡ ¡ Plot ¡pairs ¡of ¡variables ¡ Select ¡a ¡few ¡variables ¡and ¡use ¡MLR ¡ • • – ¡Tedious, ¡impracDcal ¡ – ¡Throwing ¡away ¡informaDon ¡ – ¡Risk ¡of ¡spurious ¡correlaDons ¡ – ¡Assumes ¡no ¡‘noise’ ¡in ¡X ¡ – ¡Risk ¡of ¡missing ¡informaDon ¡ – ¡One ¡Y ¡at ¡a ¡Dme ¡ X 1 ¡ X 2 ¡X 3 ¡ Y 1 ¡ Y 3 ¡ Y 2 ¡

  7. A ¡Beaer ¡Way... ¡ • MulDvariate ¡analysis ¡by ¡ProjecDon ¡ – Looks ¡at ¡ALL ¡the ¡variables ¡together ¡ – Avoids ¡loss ¡of ¡informaDon ¡ – Finds ¡underlying ¡trends ¡= ¡“latent ¡variables” ¡ – More ¡stable ¡models ¡

  8. Fundamental ¡Data ¡Analysis ¡ObjecDves ¡ Overview Discrimination Regression Trends Discriminating Comparing blocks of between groups omics data Outliers Biomarker candidates Metab vs Proteomic vs Quality Control Genomic Comparing studies or Biological Diversity instrumentation Omic vs medical Patient Monitoring Prediction

  9. MULTIVARIATE ¡STATISTICS ¡ ¡

  10. Different ¡methods ¡ • Principal ¡component ¡analysis ¡(PCA) ¡ • ParDal ¡least ¡squares ¡to ¡latent ¡structures ¡analysis ¡(PLS) ¡ • Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structures ¡ analysis ¡(OPLS) ¡ • PLS-­‑DA ¡ • OPLS-­‑DA ¡ • K-­‑means ¡clustering ¡ ¡ • Hierarchical ¡clustering ¡ • Biplot ¡analysis ¡ • Canonical ¡correlaDon ¡analysis ¡ ¡

  11. What ¡is ¡a ¡projecDon? ¡ Principal ¡component ¡ analysis ¡(PCA) ¡ Algebraically ¡ • – Summarizes ¡the ¡informaDon ¡in ¡the ¡ observaDons ¡as ¡a ¡few ¡new ¡(latent) ¡ variables ¡ Geometrically ¡ • – ¡The ¡swarm ¡of ¡points ¡in ¡a ¡K ¡ dimensional ¡space ¡(K ¡= ¡number ¡of ¡ variables) ¡is ¡approximated ¡by ¡a ¡ (hyper)plane ¡and ¡the ¡points ¡are ¡ projected ¡on ¡that ¡plane. ¡

  12. PCA ¡-­‑ ¡Geometric ¡InterpretaDon ¡ x 3 Fit first principal component (line describing maximum variation) t 1 Add second component (accounts for next largest amount of variation) and is at right angles to first - orthogonal t 2 x 2 x 1 Each component goes through origin 12 ¡

  13. PCA ¡-­‑ ¡Geometric ¡InterpretaDon ¡ x 3 t1 t2 K Comp 1 X N “Distance to Model” Comp 2 Points are projected down onto a plane with co-ordinates t1, t2 x 2 x 1 13 ¡

  14. Loadings ¡ x 3 t1 ¡ t2 ¡ K ¡ Comp 1 X ¡ N ¡ α 3 ¡ α 2 ¡ How do the principal components relate to the x 2 original variables? α 1 ¡ Look at the angles between PCs and variable axes x 1 14 ¡

  15. Loadings ¡ x 3 t1 ¡ t2 ¡ K ¡ Comp 1 X ¡ N ¡ p’ 1 ¡ cos(α 3 ) ¡ α 3 ¡ α 2 ¡ Take cos( α ) for each axis cos(α 2 ) ¡ ¡ x 2 Loadings vector p’ - one α 1 ¡ for each principal cos(α 1 ) ¡ component x 1 One value per variable 15 ¡

  16. Principal ¡component ¡analysis ¡(PCA) ¡ • PCA ¡compress ¡the ¡ X ¡data ¡block ¡into ¡ A ¡number ¡of ¡orthogonal ¡ components ¡ • VariaDon ¡seen ¡in ¡the ¡score ¡vector ¡ t ¡can ¡be ¡interpreted ¡from ¡ the ¡corresponding ¡loading ¡vector ¡ p ¡ 1…A ¡ P T ¡ 1…A ¡ X ¡ ¡ PCA ¡ T ¡ PCA ¡Model ¡ X = t 1 p 1 T + t 2 p 2 T +…+t A p A T +E = TP T + E

  17. RecogniDon ¡of ¡molecular ¡quasi-­‑species ¡(evolving ¡units) ¡ in ¡enzyme ¡evoluDon ¡by ¡PCA ¡ Emrén, ¡L., ¡ Kurtovic, ¡S. , ¡Runarsdolr, ¡A., ¡Larsson, ¡A-­‑K., ¡& ¡Mannervik, ¡B. ¡(2006) ¡Proc ¡Natl ¡Acad ¡Sci ¡U ¡S ¡A, ¡103, ¡10866-­‑10870 ¡ Kurtovic, ¡S , ¡& ¡Mannervik ¡B ¡(2009) ¡Biochemistry, ¡48, ¡9330-­‑9339 ¡

  18. Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structure ¡– ¡ Discriminant ¡analysis ¡(OPLS-­‑DA) ¡

  19. Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structure ¡– ¡ Discriminant ¡analysis ¡(OPLS-­‑DA) ¡ Y Class 1 X OPLS Class 2

  20. OPLS ¡with ¡single ¡Y ¡/ ¡modelling ¡and ¡predicDon ¡ ¡ ’Y-­‑orthogonal’ ¡ ’Y-­‑predic-ve’ ¡ 1… ¡ q 1 T ¡ p 1 T ¡ P O T ¡ 1 1 1 ¡… ¡ 1 ¡ 1 ¡ X ¡ ¡ y ¡ OPLS ¡ t 1 ¡ T O ¡ u 1 ¡ X = t 1 p 1 T + T O P O T + E OPLS ¡ Model ¡ Y = t 1 q T 1 + F

  21. Data ¡Preprocessing ¡– ¡Scaling ¡ ¡ • PCA ¡and ¡other ¡methods ¡are ¡scale ¡dependent ¡ Is ¡the ¡size ¡of ¡a ¡variable ¡important? ¡ – 1/SD ¡ X ¡ UV scaling ws ¡ • Scaling ¡weight ¡is ¡1/SD ¡for ¡each ¡variable ¡i.e. ¡ divide ¡each ¡variable ¡by ¡its ¡standard ¡deviaDon ¡ – ¡Unit ¡Variance ¡Scaling ¡ • Variance ¡of ¡scaled ¡variables ¡= ¡1 ¡ • Many ¡other ¡kinds ¡of ¡scaling ¡exist ¡

  22. Cross-­‑ValidaDon ¡ Data ¡are ¡divided ¡into ¡G ¡groups ¡(default ¡in ¡ • SIMCA-­‑P ¡is ¡7) ¡and ¡a ¡model ¡is ¡generated ¡for ¡the ¡ data ¡devoid ¡of ¡one ¡group ¡ The ¡deleted ¡group ¡is ¡predicted ¡by ¡the ¡model ¡ ⇒ ¡ • parDal ¡PRESS ¡(PredicDve ¡Residual ¡Sum ¡of ¡ Squares) ¡ This ¡is ¡repeated ¡G ¡Dmes ¡and ¡then ¡all ¡parDal ¡ • • PCA cross-validation is PRESS ¡values ¡are ¡summed ¡to ¡form ¡overall ¡ done in two phases and PRESS ¡ several deletion rounds: – first removal of If ¡a ¡new ¡component ¡enhances ¡the ¡predicDve ¡ • observations (rows) power ¡compared ¡with ¡the ¡previous ¡PRESS ¡value ¡ – then removal of variables then ¡the ¡new ¡component ¡is ¡retained ¡ (columns) 22 ¡

  23. Model ¡DiagnosDcs ¡ Fit ¡or ¡R 2 ¡ • – Residuals ¡of ¡matrix ¡E ¡pooled ¡column-­‑wise ¡ – Explained ¡variaDon ¡ Stop ¡when ¡Q 2 ¡starts ¡to ¡drop ¡ PredicDon ¡ – For ¡whole ¡model ¡or ¡individual ¡variables ¡ – RSS ¡= ¡ Σ ¡(observed ¡-­‑ ¡fiaed) 2 ¡ Fit ¡ – R 2 ¡= ¡1 ¡-­‑ ¡RSS ¡/ ¡SSX ¡ Predic$ve ¡Ability ¡or ¡Q 2 ¡ • – Leave ¡out ¡1/7 th ¡data ¡in ¡turn ¡ – ‘ Cross ¡ValidaDon ’ ¡ – Predict ¡each ¡missing ¡block ¡of ¡data ¡in ¡turn ¡ – Sum ¡the ¡results ¡ – PRESS ¡= ¡ Σ ¡(observed ¡-­‑ ¡predicted) 2 ¡ – Q 2 ¡= ¡1 ¡ – ¡PRESS ¡/ ¡SSX ¡ 23 ¡

  24. Kurtovic , ¡Paloschi, ¡Folkersen, ¡Govries, ¡Franco-­‑Cereceda, ¡Eriksson ¡(2011) ¡Molecular ¡Medicine, ¡ ¡ 17 ; ¡665-­‑675 ¡ ¡ ALTERNATIVE ¡SPLICING ¡IN ¡ THORACIC ¡AORTIC ¡ANEURYSM ¡

  25. Thoracic ¡aorDc ¡aneurysm ¡(TAA) ¡ • Monogenic – Marfan syndrome – Loeys Dietz • Aneurysm associated with bicuspid aortic valve (BAV) • Idiopathic thoracic aortic aneurysm ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend