[PPT] - Computational Genomics Francisco Garca Garca BIER PowerPoint Presentation

SLIDE 1

Computational Genomics

Francisco García García

BIER

fgardos@gmail.com

Máster en Biotecnología Biomédica. UPV

SLIDE 2

Why are we interested in Computational Genomics?

The overall goal:



Apply computational methods to biomedical and biotechnological problems

Research interests:



The development and application of novel bioinformatics methods aimed at discovering new drugs



Identifjcation of genes or proteins may be considered therapeutic targets



Personalized medicine: tools for discovering and diagnostic

Why Computational Genomics? Introduction

SLIDE 3

Computational Genomics

Omics sciences Introduction

Metabolomics Proteomics Genomics Transcriptomics Lipidomics Epigenomics

SLIDE 4

How do these technologies work ?

High throughput technologies: microarrays Introduction

Computational Genomics

SLIDE 5

Reference genome

Introduction

High throughput technologies: Next Generation Sequencing

How do these technologies work ?

Computational Genomics

SLIDE 6

Clinical and biological databases Introduction

ClinVar HUMSAVAR HGMD COSMIC

Biological knowledge Clinical knowledge

Gene Ontology KEGG pathways Regulatory elements

MiRNA, CisRed Transcription Factor Binding Sites

Biocarta pathways InterPro Motifs

Bioentities from literature

Gene Expression in tissues

Computational Genomics

SLIDE 7

Personalized Medicine Introduction

Computational Genomics

SLIDE 8

+

Personalized Medicine Introduction

Computational Genomics

SLIDE 9

Descripción de las sesiones

Máster en Biotecnología Biomédica. UPV. 3 sesiones (7 horas) sobre el uso de herramientas web para el análisis e interpretación de datos de secuenciación. T

da la documentación (presentaciones + ejercicios) que

necesitaremos durante estos días, estarán disponibles en este enlace http://bioinfo.cipf.es/mbb/. T ambién en Poliformat. Docentes: Marta Hidalgo y Paco García. El enfoque de las sesiones será práctico y sólo introduciremos aquellos conceptos que precisemos para los ejercicios. Introduction

SLIDE 10

Programa

Máster en Biotecnología Biomédica. UPV.

Sesión 1

Introducción a las tecnologías NGS.
Estudios de detección de variación genómica. Pipeline de análisis de datos genómicos.
¿Cómo detectar mutaciones de interés en estudios de exomas completos? Ejercicios

con la herramienta web BiERapp.

Sesión 2

 Estudios de variación genómica: secuenciación genómica dirigida.  ¿Cómo diseñar un panel de genes? ¿Cómo analizar e interpretar datos de paneles de

genes?. Ejercicios con TEAM.

 Variabilidad genética española. Base de datos CSVS.  Estudios transcriptómicos con datos de NGS. Pipeline de análisis de datos de expresión.

¿Cómo analizar datos de RNA-Seq desde la suite Babelomics?

Sesión 3

 Análisis de datos transcriptómicos en el contexto de las rutas de señalización.  Ejercicios con las herramientas web hipathia y PathAct.

Introduction

SLIDE 11

Web tools to analyze

mic data

BIER

fgardos@gmail.com

Máster en Biotecnología Biomédica. UPV

SLIDE 12

NGS Data Analysis Pipeline

Sequence preprocessing Alignment Variant calling Variant annotation Prioritization

Fastq BAM VCF

Visualization

BAM

RNA-Seq processing RNA-Seq data analysis Functional analysis

Count matrix

Fastq

RNA-Seq Data Analysis Resequencing Data Analysis

NGS data analysis: pipelines Introduction

SLIDE 13

Fastq format

 We could say “it is a fasta with qualities”:

 1. Header (like the fasta but starting with “@”)  2. Sequence (string of nt)  3. “+” and sequence ID (optional)  4. Encoded quality of the sequence

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

NGS data analysis: fjles format Introduction

SLIDE 14

BAM/SAM format

@PG ID:HPG-Aligner VN:1.0 @SQ SN:20 LN:63025520 HWI-ST700660_138:2:2105:7292:79900#2@0/1 16 20 76703 254 76= * 0 0 GTTTAGATACTGAAAGGTACATACTTCTTTGTAGGAACAAGCTATCATGCTGCATTTCTATAATATCACATGAATA GIJGJLGGFLILGGIEIFEKEDELIGLJIHJFIKKFELFIKLFFGLGHKKGJLFIIGKFFEFFEFGKCKFHHCCCF AS:i:254 NH:i:1 NM:i:0 HWI-ST700660_138:2:2208:6911:12246#2@0/1 16 20 76703 254 76= * 0 0 GTTTAGATACTGAAAGGTACATACTTCTTTGTAGGAACAAGCTATCATGCTGCATTTCTATAATATCACATGAATA HHJFHLGFFLILEGIKIEEMGEDLIGLHIHJFIKKFELFIKLEFGKGHEKHJLFHIGKFFDFFEFGKDKFHHCCCF AS:i:254 NH:i:1 NM:i:0 HWI-ST700660_138:2:1201:2973:62218#2@0/1 0 20 76655 254 76M * 0 0 AACCCCAAAAATGTTGGAAGAATAATGTAGGACATTGCAGAAGACGATGTTTAGATACTGAAAGGGACATACTTCT FEFFGHHHGGHFKCCJKFHIGIFFIFLDEJKGJGGFKIHLFIJGIEGFLDEDFLFGEIIMHHIKL$BBGFFJIEHE AS:i:254 NH:i:1 NM:i:1 HWI-ST700660_138:2:1203:21395:164917#2@0/1 256 20 68253 254 4M1D72M * 0 0 NCACCCATGATAGACCAGTAAAGGTGACCACTTAAATTCCTTGCTGTGCAGTGTTCTGTATTCCTCAGGACACAGA #4@ADEHFJFFEJDHJGKEFIHGHBGFHHFIICEIIFFKKIFHEGJEHHGLELEGKJMFGGGLEIKHLFGKIKHDG AS:i:254 NH:i:3 NM:i:1 HWI-ST700660_138:2:1105:16101:50526#6@0/1 16 20 126103 246 53M4D23M * 0 0 AAGAAGTGCAAACCTGAAGAGATGCATGTAAAGAATGGTTGGGCAATGTGCGGCAAAGGGACTGCTGTGTTCCAGC FEHIGGHIGIGJI6FCFHJIFFLJJCJGJHGFKKKKGIJKHFFKIFFFKHFLKHGKJLJGKILLEFFLIHJIEIIB AS:i:368 NH:i:1 NM:i:4

SAM Specifjcation: http://samtools.sourceforge.net/SAM1.pdf

NGS data analysis: fjles format Introduction

SLIDE 15

VCF format

http://www.1000genomes.org/

NGS data analysis: fjles format Introduction

SLIDE 16

Counts

Sample Gene

NGS data analysis: fjles format Introduction

SLIDE 17

Transcriptomic Studies

BIER

fgardos@gmail.com

Máster en Biotecnología Biomédica. UPV

SLIDE 18

1. Sequence preprocessing
1. Sequence preprocessing
2. Mapping
3. Quantifjcation
6. Functional Profjling

RNA-Seq Data Analysis Pipeline

Primary Secondary

RNA-Seq Data Analysis

5. Difgerential expression
4. Normalization

Babelomics 5

SLIDE 19

Babelomics 5

Analyzing omics data + functional profjling Babelomics 5

http://babelomics.bioinfo.cipf.es/

SLIDE 20

Differential Expression

UPLOAD DATA EDIT DATA NORMALIZATION + DIFFERENTIAL EXPRESSION FUNCTIONAL PROFILING

Analyzing omics data + functional profjling Babelomics 5

SLIDE 21

Supervised and Unsupervised Classification

UPLOAD DATA CLUSTERING PREDICTORS NORMALIZE DATA EDIT DATA RPKM TMM

Analyzing omics data + functional profjling Babelomics 5

SLIDE 22

Signaling Pathways Analysis

hiPhatia Signaling Pathways Analysis

http://hipathia.babelomics.org/

SLIDE 23

Genomic Variation Studies

BIER

fgardos@gmail.com

Máster en Biotecnología Biomédica. UPV

SLIDE 24

1. Sequence preprocessing
1. Sequence preprocessing
2. Mapping
3. Variant calling
4. Variant prioritization

Genomics Data Analysis Pipeline

Primary Analysis Secondary

Resequencing Data Analysis Pipeline

SLIDE 25

http://courses.babelomics.org/bierapp/

How do we prioritize variants in whole exome studies?

BIER

Discovering variants BiERapp

SLIDE 26

Introduction



Whole-exome sequencing has become a fundamental tool for the discovery of disease-related genes of familial diseases but there are diffjculties to fjnd the causal mutation among the enormous background



There are difgerent scenarios, so we need difgerent and immediate strategies of prioritization



Vast amount of biological knowledge available in many databases



We need a tool to integrate this information and fjlter immediately to select candidate variants related to the disease

Discovering variants BiERapp

SLIDE 27

How does BiERapp work?

VCF fjle multisample BiERapp

CellBase VARIANT Filterings

Discovering variants BiERapp

SLIDE 28

Input: VCF fjle

1. Sequence preprocessing
1. Sequence preprocessing
2. Mapping
3. Variant calling
4. Variant prioritization

Primary Analysis Secondary

VCF fjles BiERapp

Discovering variants BiERapp

SLIDE 29

http://courses.babelomics.org/team/

Can I interpret sequencing data for diagnostic?

Targeted Enrichment Analysis and Management

BIER

TEAM

SLIDE 30

Gene panel

Targeted Enrichment Analysis and Management

TEAM

Sequencing data

Diagnostic

ClinVar HUMSAVAR HGMD COSMIC

Biological knowledge

TEAM

SLIDE 31

Gene panel

1. VCF fjles

TEAM

2. Gene panel

ClinVar HUMSAVAR HGMD COSMIC

Targeted Enrichment Analysis and Management TEAM

SLIDE 32

CSVS:

CIBERER Spanish Variant Server

Repositorio de frecuencias de variantes en la población española

http://csvs.babelomics.org/

CIBERER Spanish Variant Server CSVS

SLIDE 33

Local genetic variability

CIBERER Spanish Variant Server

CSVS

SLIDE 34

Tool interface

CIBERER Spanish Variant Server CSVS

http://csvs.babelomics.org/

SLIDE 35

A next-generation web-based genome browser

Genome Maps

Visualizador genómico que interactúa con bases de datos funcionales http://genomemaps.org/

Genome Maps

SLIDE 36

Tool interface

Genome Maps A next-generation web-based genome browser

SLIDE 37