enabling knowledge management in the agronomic domain
play

Enabling knowledge management in the Agronomic Domain - PowerPoint PPT Presentation

Enabling knowledge management in the Agronomic Domain Pierre Larmande Ins-tute of Research for Development (IRD) Head of data integra-on group at the


  1. Enabling ¡knowledge ¡management ¡ in ¡the ¡Agronomic ¡Domain ¡ ¡ Pierre ¡Larmande ¡ Ins-tute ¡of ¡Research ¡for ¡Development ¡(IRD) ¡ Head ¡of ¡data ¡integra-on ¡group ¡at ¡the ¡Ins-tute ¡of ¡ Computa-onal ¡Biology ¡ pierre.larmande@ird.fr ¡ ¡

  2. Research project « from data to biological knowledge » Five complementary fields of research (WP1 HTS): methods for high-throughput sequencing analysis (WP2 Evolution): scaling-up evolutionnary analyses (WP3 Annotation): structural and functional annotation of proteomes (WP4 Imaging): integrating cell and tissue imaging with Omics data (WP5 Databases): integrating biological data and knowledge Fundamental research

  3. Research ¡areas ¡ Mul7-­‑scale ¡omics ¡integra7on ¡ Seman7c ¡web ¡ Workflow ¡management ¡

  4. Montpellier ¡ Collabora-ve ¡network ¡of ¡bioinforma-cians ¡from ¡different ¡ ins-tutes ¡: ¡ CIRAD, ¡IRD, ¡INRA ¡and ¡Bioversity ¡Interna7onal . ¡ hFp://southgreen.cirad.fr/ ¡

  5. Outline • Data integration challenges in the Life Sciences • Ontologies/ Semantic Web Technologies • AgroPortal project • Agronomic Linked Data project

  6. Data landscape in the Life Sciences • The availability of biological data has increased • Advancements in: • computational biology • genome sequencing • high-throughput technologies • Integrative approaches are necessary to understand the functioning of biological systems Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  7. Gene7c ¡ressources ¡ Gene7c ¡and ¡physical ¡maps, ¡QTL ¡ ¡ Compara7ve ¡genomics ¡ high-­‑throughput ¡phenotyping ¡ ¡ Phenotypes ¡ ¡ Markers ¡ Individuals ¡ large ¡genome ¡resequencing ¡ ¡ Genotyping ¡studies ¡ ¡ ¡ Genomic ¡annota7ons ¡ Geographic ¡data ¡ ¡ Analysis ¡ Workflows ¡ C ¡ A ¡ B ¡ D ¡ Courtesy ¡of ¡Dr. ¡M. ¡Ruiz ¡ E ¡

  8. Data integration challenges • Lack of effective approaches to integrate data that has created a gap between data and knowledge • Need for an effective method to bridge gap between data and underlying meaning • Harvest the power of 
 overlaying different data sets Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  9. Today’s Web • Today’s Web content is suitable for human consumption • Collection of documents • the existence of links that establish connections between documents • Low on data interoperability and lacks semantics. Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  10. Standardization of data • Drastic increase in data production. • Standardization needed to manage and use these data • Mainly used XML for standardizing data exchange. • SBML, CellML • M inimum I nformation for B iological and B iomedical I nvestigations (MIBBI) • I nvestigation, S tudy, and A ssay (ISA) Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  11. Ontologies • Ontologies are formal representations of knowledge - definitions of concepts, their attributes and relations between them. • To integrate data, improve machine interoperability and data analysis required a conceptual scaffold. • Ontological terms used across databases • provide cross-domain common entry points in the description. • An array of ontologies are being used to bring structured integration of various datasets. • The O pen B iomedical O ntologies (OBO) initiative: • serves as an umbrella for well structured orthogonal ontologies. • Ontologies represented in OBO format and OWL Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  12. Crop Ontology • Is ¡an ¡applica-on ¡ ontology ¡for ¡fielbooks ¡ and ¡breeding ¡databases ¡ & ¡repositories ¡ • A ¡visualiza-on ¡tool ¡ suppor-ng ¡cura-on ¡of ¡ trait ¡lists ¡by ¡a ¡distributed ¡ community ¡ • A ¡discussion ¡Forum ¡ cropontology.org ¡ Courtesy ¡of ¡Elizabeth ¡Arnaud ¡

  13. Semantic Web Technology • An extension of the current Web technologies. • Enables navigation and meaningful use of digital resources. • Support aggregation and integration of information from diverse sources. • Based on common and standard formats . Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  14. 
 Resource Description Framework (RDF) • Framework for representing information about resources on the Web • Provides a labeled connection between two resources • Uses Unique Resource Identifiers (URI) • Statements take the form of triples: Subject ¡ Object ¡ Predicate ¡ <Gene_A> ¡ <codes_for> ¡ <Protein_A> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡ RDF ¡Triple ¡ Venkatesan ¡

  15. • Combining the triples results in a directed, labeled graph. <Gene_A> ¡ <has_func7on> ¡ <Protein_A> ¡ <MF_A> ¡ <regulates> ¡ <BP_A> ¡ <Gene_X> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  16. • Can be joined with other graphs. • Connected using shared URIs. <Gene_A> ¡ has_func7on ¡ <MF_A> ¡ <Protein_A> ¡ <BP_A> ¡ regulates ¡ <Protein_X> ¡ h a s <Gene_X> ¡ _ S N P ¡ <SNP_X> ¡ influences ¡ <Disease_X> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  17. SPARQL • Language which allows querying RDF models (graphs) • Powerful, flexible • Its syntax is similar to the one of SQL Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  18. Matching Triples Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  19. Semantic Web meets Systems Biology • The Semantic Web has gained steady acceptance among the life science community. • BioPortal, Bio2RDF, for biomedical • The RDF data model complements systems biology – linking varied information sources • RDF suggested as a data representation format over XML*. • Data represented in XML are based on a schema, extensibility limitations. • XML lack the semantic expression in the describing data sets. • SPARQL - address questions that were unapproachable at the time the information were produced . *Wang ¡et ¡al., ¡Nature ¡Biotechnology, ¡2005 ¡

  20. Rice Integrated Approach ¡ The Panicle Structure case ¡

  21. Stefan Jouannic & Helen Adam ¡

  22. Genome Structure 'vs' Panicle Structure ¡ Stefan Jouannic & Helen Adam ¡

  23. Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Phenotyping ¡ Dozen ¡of ¡Tbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡

  24. Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Workflows ¡ Phenotyping ¡ Dozen ¡of ¡Tbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡

  25. Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Workflows ¡ Phenotyping ¡ Dozen ¡of ¡Mbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡ Mul7-­‑scale ¡integra7on ¡

  26. Multi-scale integration ¡

  27. Multi-scale integration R2RML ¡– ¡xR2RML ¡ D2RQ ¡ Extrac-on ¡ DB1 ¡ Visualisa-on ¡ Load ¡ DB2 ¡ Transforma-on ¡ Rdf ¡store ¡ File ¡ AgroLD ¡ Query ¡ formula-on ¡ Karma, ¡OpenRefine, ¡ Talend, ¡Python ¡ Annota-on ¡ AgroPortal ¡

  28. AgroPortal ¡ ¡ a ¡proposi:on ¡for ¡ontology-­‑based ¡ services ¡in ¡the ¡agronomic ¡domain ¡ Clément ¡Jonquet, ¡ ¡ Esther ¡Dzalé-­‑Yeumo, ¡ ¡Elizabeth ¡Arnaud, ¡ ¡Pierre ¡Larmande ¡ ¡

  29. Objec7ves ¡of ¡AgroPortal ¡project ¡ • Develop ¡and ¡support ¡a ¡reference ¡ontology ¡repository ¡ for ¡the ¡agronomic ¡domain ¡ – One-­‑stop-­‑shop ¡for ¡plant/agronomic ¡related ¡ontologies ¡ ¡ – Primary ¡focus ¡on ¡the ¡agronomic ¡& ¡plant ¡domain ¡ • Reusing ¡the ¡NCBO ¡BioPortal ¡technology ¡ – Avoid ¡to ¡re-­‑implement ¡what ¡has ¡been ¡done ¡ – Facilitate ¡interoperability ¡ – Reusing ¡the ¡scien-fic ¡outcomes, ¡experience ¡& ¡methods ¡ of ¡the ¡biomedical ¡domain ¡ ¡ • Enable ¡straighdorward ¡use ¡of ¡agronomic ¡related ¡ ontologies ¡ – Respect ¡the ¡requirements ¡of ¡the ¡agronomic ¡community ¡ ¡ – Fully ¡seman-c ¡web ¡compliant ¡infrastructure ¡ Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 30 ¡

  30. Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 31 ¡

  31. Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 32 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend