Open data infrastructure for global challenges Geoffrey Boulton - - PowerPoint PPT Presentation

open data infrastructure for global challenges
SMART_READER_LITE
LIVE PREVIEW

Open data infrastructure for global challenges Geoffrey Boulton - - PowerPoint PPT Presentation

Open data infrastructure for global challenges Geoffrey Boulton ICRI, Athens April 2014 Open communication of data: the source of a scientific revolution and the basis of scientific progress Henry Oldenburg Open data &


slide-1
SLIDE 1

Open data infrastructure for global challenges

Geoffrey Boulton

ICRI, Athens April 2014

slide-2
SLIDE 2

Open communication of data: the source of a scientific revolution and the basis of scientific progress ¡

Henry ¡Oldenburg ¡

slide-3
SLIDE 3

Open ¡data ¡& ¡the ¡principle ¡of ¡self-­‑correc8on ¡in ¡science ¡

slide-4
SLIDE 4

Problems & opportunities in the data deluge

1020 bytes

Available storage

slide-5
SLIDE 5

A crisis of replicability and credibility? ¡

A fundamental principle: the data providing the evidence for a published concept MUST be concurrently published, together with the metadata To do otherwise should come to be regarded as scientific MALPRACTICE.

slide-6
SLIDE 6

“Scientists like to think of science as self-correcting. To an alarming degree, it is not.”

slide-7
SLIDE 7

Openness ¡in ¡global ¡challenges ¡and ¡openness ¡to ¡challenge ¡

slide-8
SLIDE 8

The opportunity: identifying novel patterns in

data ¡

Exploiting the potential

  • f linked data requires:
  • data integration
  • dynamic data

¡

Solutions/agreements are needed for:

  • provenance
  • persistent identifiers
  • standards
  • data citation formats
  • algorithm integration
  • file-format translation
  • software-archiving
  • automated data reading
  • metadata generation
  • timing of data release
slide-9
SLIDE 9

Satellite ¡observa-on ¡ Surface ¡monitoring ¡

Data-­‑modelling: ¡itera8ve ¡integra8on ¡ ¡

Ini-al ¡condi-ons ¡ Model ¡forecast ¡ Model-­‑data ¡itera-on ¡-­‑ ¡forecast ¡correc-on ¡

slide-10
SLIDE 10

4500 ¡Variables: ¡e.g. ¡ Annual ¡Precipita-on ¡ Annual ¡Temperature ¡ Anthropogenic ¡impacts ¡on ¡ ¡ Marine ¡Ecosystems ¡

  • ­‑ ¡Nutrient ¡Pollu-on ¡(Fer-lizer) ¡

Aquaculture ¡Produc-on ¡-­‑ ¡Inland ¡Waters ¡ Aquaculture ¡Produc-on ¡-­‑ ¡Marine ¡ Aquaculture ¡Produc-on ¡-­‑ ¡Total ¡ Arable ¡Land ¡ Arable ¡and ¡Permanent ¡Crops ¡ Arsenic ¡in ¡Groundwater ¡-­‑ ¡Probability ¡of ¡

Scien8fic ¡opportunity ¡ Commercial ¡opportunity ¡

Purchases ¡ ¡ For ¡$930 ¡million ¡

Historic ¡rainfall ¡& ¡infiltra-on ¡data ¡ Soil ¡proper-es ¡& ¡quality ¡

¡ In ¡order ¡to: ¡ Predict ¡agricultural ¡yields ¡to ¡ascend ¡to ¡ “the ¡next ¡level ¡of ¡agricultural ¡evalua-on” ¡ ¡

Deepening ¡data ¡integra8on ¡

slide-11
SLIDE 11

An ethos of data-sharing

Example: ELIXIR Hub (European Bioinformatics Institute) and ELIXIR Nodes provide infrastructure for data, computing, tools, standards and training. ¡ ¡ ¡

slide-12
SLIDE 12
  • E-coli outbreak spread through

several countries affecting 4000 people

  • Strain analysed and genome

released under an open data license.

  • Two dozen reports in a week with

interest from 4 continents

  • Crucial information about strain’s

virulence and resistance

Benefits of open data sharing

e.g. Response to Gastro-intestinal infection in Hamburg e.g. Global challenges – e.g rise of antibiotic resistance

  • A global challenge that

inevitably needs a global response based on data sharing

slide-13
SLIDE 13

Openness of data per se has little value:

  • pen science is more than disclosure ¡

For effective communication, replication and re-purposing we need intelligent openness. Data and meta-data must be:

  • Discoverable
  • Accessible
  • Intelligible
  • Assessable
  • Re-usable

¡

Only when these criteria are fulfilled are data properly open.

But, intelligent openness must be audience sensitive. Open data to whom and for what?

slide-14
SLIDE 14

Its not just accumulating and linking data/ information– its also what we do with it!

Jim Gray - “When you go and look at what scientists are doing, day in and day out, in terms of data analysis, it is truly dreadful. We are embarrassed by our data!”

….. and we need a new breed of informatics-trained data scientist as the new librarians of the post- Gutenberg world ¡

So what are the priorities?

  • 1. Ensuring valid reasoning
  • 2. Innovative manipulation to create new information
  • 3. Effective management of the data ecology
  • 4. Education & training in data informatics & statistics
slide-15
SLIDE 15

Boundaries of openness?

Openness should be the default position, with proportional exceptions for: ¡

  • Legitimate commercial interests (sectoral

variation)

  • Privacy (“safe data” v open data – the

anonymisation problem)

  • Safety, security & dual use (impacts

contentious) All these boundaries are fuzzy

slide-16
SLIDE 16

Mandate ¡

  • pen ¡data ¡

¡

A ¡data ¡infrastructure ¡ecology: ¡ ¡drivers ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ and ¡self-­‑organising ¡components ¡

  • Intelligently ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡open ¡data ¡

  • Sustainable ¡
  • Interoperable ¡
  • Persistent ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡iden-fiers ¡

  • Metadata ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡standards ¡

  • Dynamic ¡data ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡etc ¡

¡

Databases/ ¡ repositories ¡ Publishers ¡ Researchers ¡

¡

Universi8es/ ¡ ins8tutes ¡

d a t a ¡ services ¡

  • Mandate ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡intelligently ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡open ¡data ¡

  • Common ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡standards ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡& ¡protocols ¡

Public ¡& ¡ ¡ Charitable ¡ funders ¡ Publishers ¡

  • Data ¡science ¡
  • Support ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡data ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡management ¡

  • Incen-vise ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡data ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡stewardship ¡

  • Training ¡

Universi8es/ ¡ ins8tutes ¡ Researchers ¡

  • Mandate ¡ ¡

¡ ¡ ¡ ¡ ¡concurrent ¡ ¡ ¡ ¡ ¡intelligently ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡open ¡data ¡

  • Easy ¡text ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡& ¡ ¡data ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡mining ¡

  • Data ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡custodians ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡not ¡owners ¡

  • Citeable ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡data ¡ ¡ ¡

¡

Learned ¡ socie8es ¡

¡Tools ¡for: ¡

Discovery ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Integra-on ¡ Management ¡ ¡ ¡ ¡ ¡Metadata ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ETC ¡

Public ¡ access ¡

slide-17
SLIDE 17

¡ ¡ ¡ ¡

UK OPEN RESEARCH DATA FORUM

Examples ¡of ¡evolving ¡s8mula8on/coordina8on ¡ ¡

Na8onal ¡

¡ ¡ ¡

European ¡ ¡ ¡ ¡ Global ¡

slide-18
SLIDE 18

www.royalsociety.org ¡

¡