catharina olsen antonio colaprico
play

Catharina Olsen & Antonio Colaprico - PowerPoint PPT Presentation

Mining and analysis of genomic and epigenomic data (TCGA) using R


  1. ��������������������������������� ������������������� Mining and analysis of genomic and epigenomic data (TCGA) using R ����������������� Catharina Olsen & Antonio Colaprico ������������� Academic supervisor: Gianluca Bontempi Machine Learning Group (MLG) ��������������� Interuniversity Institute of Bioinformatics in Brussels (IB) 2 December 6th & 7th 2016

  2. Workshop overview ���������������� ◮ day 1 ◮ introduction R ◮ Analyses �� ����������������������������������� ◮ Differential expression analysis �� ������������������������������������������������� ◮ Enrichment analysis �� �������������������������� ◮ Clustering, dendrograms & heatmaps ◮ Survival analysis ◮ data in biomedical research: NGS, TCGA, downloading and ������������������������������������� normalization ◮ day 2 ���������������������������������������� ◮ integrative analysis ◮ Command line vs. graphical user interface (introduction to TCGAbiolinksGUI) ��������������������������������������� 2/ 69

  3. Analyses ���������������� ◮ methods for monitoring genome-wide mRNA expressions such as microarrays or RNAseq �� ����������������������������������� ◮ allow to observe expression levels of the entire genome �� ������������������������������������������������� under many different induced conditions �� �������������������������� ◮ Knowing when and under what conditions a gene or a set of genes is expressed often provides strong clues as to their biological role and function ������������������������������������� ◮ possible strategies to determine the function of unknown genes ◮ clustering algorithms: group together genes with similar ���������������������������������������� expression profiles ◮ apply supervised learning methods : predictive precision can be quantified ��������������������������������������� 3/ 69

  4. Patient classification (breast cancer) ���������������� ◮ Breast cancer is one of the most common malignant tumors �� ����������������������������������� affecting women. ◮ patients with the same disease stage can have different �� ������������������������������������������������� treatment responses and overall outcome �� �������������������������� ◮ cancer classification has been based primarily on morphological appearance ������������������������������������� ◮ the strongest predictors for metastasis fail to classify accurately breast tumors according to their clinical behavior ◮ relied on specific biological insights, rather than systematic ���������������������������������������� and unbiased approaches for recognizing tumor subtypes ��������������������������������������� 4/ 69

  5. Breast cancer classification (II) ���������������� ◮ Chemotherapy or hormonal therapy reduces the risk of distant metastasis by approximately one-third; however 70-80% of patients receiving this treatment would have �� ����������������������������������� survived without it. Also, these therapies frequently have toxic side effects. �� ������������������������������������������������� ◮ Diagnosis of cancer must be accurate in order for the �� �������������������������� patient to receive the correct treatment and so have the best chance of survival. ������������������������������������� ◮ The cellular and molecular heterogeneity of breast tumors and the large number of genes potentially involved in controlling cell growth, death and differentiation emphasize ���������������������������������������� the importance of studying multiple genetic alterations ◮ The development of -omics technology provides the opportunity of correlating genome-wide expressions with ��������������������������������������� the response of tumor cells to chemotherapy. 5/ 69

  6. Breast cancer classification (III) ���������������� ◮ Systematic investigation of expression patterns of �� ����������������������������������� thousands of genes in tumors using DNA microarrays and their correlation to specific features of phenotypic variation �� ������������������������������������������������� might provide the basis for an improved taxonomy of cancer. �� �������������������������� ◮ It is expected that variations in gene expression patterns in ������������������������������������� different tumors could provide a “molecular portrait” of each tumor, and that the tumors could be classified into subtypes based solely on the difference of expression ���������������������������������������� patterns. ��������������������������������������� 6/ 69

  7. Take-home message ���������������� A very large number of problems in life science may be formalized as supervised learning problems characterized by �� ����������������������������������� 1. The intuition of the existence of a dependence between �� ������������������������������������������������� some input (e.g. genotype) and output (e.g. phenotype). �� �������������������������� 2. An outcome measurement, also called output , usually quantitative (like the gene expression) or categorical (like ������������������������������������� metastasis or not). 3. a set of features or inputs , also quantitative or categorical, that we wish to use to predict the output. ���������������������������������������� 4. the availability of a finite set of input/output observations. ��������������������������������������� 7/ 69

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend