Knowledge Representa0on In Ac0on COMP34512 A look into - - PowerPoint PPT Presentation

knowledge representa0on in ac0on comp34512
SMART_READER_LITE
LIVE PREVIEW

Knowledge Representa0on In Ac0on COMP34512 A look into - - PowerPoint PPT Presentation

Knowledge Representa0on In Ac0on COMP34512 A look into the Na-onal Cancer Ins-tute Thesaurus (NCIt) Sebas-an Brandt (brandt@cs.manchester.ac.uk) (Slides


slide-1
SLIDE 1

A ¡look ¡into ¡the ¡ ¡ Na-onal ¡Cancer ¡Ins-tute ¡Thesaurus ¡(NCIt) ¡ ¡ Sebas-an ¡Brandt ¡ (brandt@cs.manchester.ac.uk) ¡ (Slides ¡derived ¡from ¡those ¡of ¡Maria ¡Copeland) ¡

Knowledge ¡Representa0on ¡In ¡Ac0on ¡ COMP34512 ¡

slide-2
SLIDE 2

Na-onal ¡Cancer ¡Ins-tute ¡ Bethesda, ¡USA ¡

slide-3
SLIDE 3

A ¡Case ¡Study ¡

The ¡NCI ¡Thesaurus ¡is ¡a ¡vocabulary ¡designed ¡to ¡meet ¡ the ¡needs ¡of ¡the ¡cancer ¡research ¡community ¡for ¡ consistent, ¡unambiguous ¡codes ¡and ¡defini-ons ¡for ¡ basic ¡and ¡clinical ¡concepts ¡used ¡in ¡cancer ¡research, ¡ and ¡the ¡seman-c ¡links ¡among ¡concepts ¡that ¡enable ¡ traversal ¡of ¡rela-onships. ¡

slide-4
SLIDE 4

In ¡A ¡Nutshell ¡

The ¡NCIt ¡is ¡a ¡controlled ¡vocabulary ¡ ¡

  • About ¡cancer ¡research ¡

ü basic ¡and ¡clinical ¡concepts ¡

  • Unambiguous ¡codes ¡(with ¡defini-ons) ¡

ü human ¡readable ¡

  • Arranged ¡hierarchically ¡
slide-5
SLIDE 5

¡NCIt ¡

  • At ¡delivery ¡
  • Hierarchical ¡lists ¡of ¡terms ¡+ ¡defini-on ¡comments ¡
  • (Akin ¡to ¡our ¡minimal ¡representa-on) ¡
  • At ¡development ¡
  • Formalized ¡defini-ons ¡
  • Why ¡formalize? ¡
slide-6
SLIDE 6

Delivery ¡

The ¡NCI ¡Thesaurus ¡is ¡designed, ¡first ¡and ¡foremost, ¡ to ¡be ¡a ¡thesaurus ¡– ¡“a ¡controlled ¡vocabulary ¡ arranged ¡in ¡a ¡known ¡order ¡and ¡structured ¡so ¡that ¡ the ¡various ¡rela-onships ¡among ¡terms ¡are ¡ displayed ¡clearly ¡and ¡iden-fied ¡by ¡ ¡standardized ¡ rela-onship ¡indicators….Its ¡primary ¡role ¡is ¡that ¡of ¡a ¡ bridge ¡for ¡human ¡to ¡human ¡communica-on ¡across ¡ special-es ¡and ¡data ¡resources ¡”* ¡

* ¡hTp://bit.ly/zSxHpK ¡

slide-7
SLIDE 7
  • Data ¡entry ¡
  • Tags ¡on ¡images ¡
  • Keywords ¡on ¡papers ¡
  • Data ¡retrieval ¡
  • Query ¡expansion ¡
  • Faceted/hierarchical ¡naviga-on ¡

Delivery ¡

slide-8
SLIDE 8
slide-9
SLIDE 9

Development ¡Challenges ¡

  • Cancer ¡(research) ¡domain ¡
  • Complex ¡and ¡diverse ¡
  • Different ¡users ¡and ¡user ¡communi-es ¡
  • Terms ¡and ¡term ¡sets ¡overlap ¡
  • But ¡with ¡different ¡nuances ¡
  • Shared ¡or ¡similar ¡concepts ¡with ¡shared, ¡similar, ¡
  • r ¡quite ¡different ¡terms ¡
  • Domain ¡and ¡terminologies ¡always ¡changing ¡
slide-10
SLIDE 10

10 ¡

NCIt: ¡Evolu-on ¡

slide-11
SLIDE 11

Contains ¡21 ¡hierarchical ¡trees ¡ ¡ ¡

  • Neoplasms ¡
  • Anatomy ¡
  • Genes ¡
  • Proteins ¡
  • Drugs ¡
  • Treatments ¡
  • … ¡

¡

¡

11 ¡

NCIt: ¡Scope ¡

slide-12
SLIDE 12

User View

slide-13
SLIDE 13

Knowledge Engineer View

slide-14
SLIDE 14

14 ¡

¡ ¡ ¡How ¡do ¡you ¡get ¡there? ¡

slide-15
SLIDE 15

Data ¡Sources ¡

Email ¡Requests ¡ Universi-es ¡ Research ¡ Ins-tutes ¡ EVS ¡Partners ¡ Legacy ¡Data ¡ Bulk ¡Data ¡Imports ¡ Data ¡Archives ¡ Use ¡Cases ¡

slide-16
SLIDE 16

The ¡Cost ¡of ¡Gedng ¡it ¡“Right” ¡

Ontology ¡development ¡is ¡costly ¡ ¡

“Ini-ally ¡we ¡included ¡in ¡the ¡Thesaurus ¡concepts ¡that ¡we ¡ simply ¡believed ¡to ¡be ¡important ¡to ¡NCI” ¡ ¡ ¡ “However, ¡given ¡the ¡costs ¡of ¡ontology ¡development ¡one ¡ cannot ¡go ¡on ¡doing ¡that ¡very ¡long. ¡Since ¡no ¡ontology ¡is ¡ ever ¡complete ¡[27], ¡a ¡yards-ck ¡is ¡needed ¡…“ ¡ ¡ ¡ “We ¡now ¡require ¡that ¡all ¡T-­‑ ¡Box ¡elements ¡be ¡required ¡ either ¡explicitly ¡or ¡by ¡implica-on ¡by ¡the ¡needs ¡of ¡at ¡least ¡

  • ne ¡user ¡community” ¡
slide-17
SLIDE 17

17 ¡

NCIt ¡Process ¡for ¡Use ¡Cases ¡

User ¡submits ¡a ¡Use ¡Case ¡ Domain ¡Expert ¡examines ¡use ¡ case ¡to ¡check: ¡ ¡-­‑ ¡exis-ng ¡coverage ¡ ¡-­‑ ¡expansion ¡of ¡ knowledge ¡ ¡ The ¡collabora-ve ¡process ¡begins: ¡ ¡

  • ¡use ¡the ¡pseudo ¡T-­‑Box ¡
  • ¡use ¡graphical ¡

representa-ons ¡

  • ¡use ¡spreadsheets ¡to ¡map ¡

to ¡ontology ¡ ¡ ¡

proto-­‑representa-on ¡

slide-18
SLIDE 18

18 ¡

NCIt ¡Process: ¡In ¡Detail ¡

slide-19
SLIDE 19

Pseudo-­‑TBox ¡Approach ¡

  • It ¡is ¡a ¡simplifica-on ¡

– Discussion ¡not ¡on ¡30,000+ ¡terms, ¡ – But ¡on ¡kinds ¡and ¡roles ¡

  • Shows ¡coverage ¡

– Hierarchy ¡view: ¡

  • They ¡can ¡explore ¡
  • Recognize ¡concepts ¡
  • Spot ¡gaps ¡
  • Posi-oning ¡is ¡hard! ¡

– Seeing ¡structure ¡elicits ¡structure ¡comments ¡

slide-20
SLIDE 20

Posi-on ¡Challenge ¡

¡

Problem! ¡ ¡

¡ “Not ¡infrequently ¡in ¡biomedicine, ¡there ¡is ¡no ¡ canonical ¡determina-on ¡of ¡a ¡concept's ¡correct ¡ tree ¡posi-on…” ¡ ¡

slide-21
SLIDE 21

Example ¡

¡ “Meningococcal ¡meningi-s ¡may ¡be ¡classified ¡correctly ¡as ¡ both ¡a ¡disease ¡of ¡the ¡central ¡nervous ¡systems ¡and ¡a ¡ bacterial ¡disease” ¡ ¡ ¡ “There ¡are ¡always ¡things ¡the ¡experts ¡will ¡ques-on.” ¡

Posi-on ¡Challenge ¡

slide-22
SLIDE 22

Conflict ¡Resolu-on ¡Tools ¡

¡ “These ¡discussions ¡of ¡why ¡the ¡hierarchies ¡are ¡ structured ¡as ¡they ¡are ¡offer ¡the ¡opportunity ¡to ¡ introduce ¡the ¡no-ons ¡of ¡roles” ¡ ¡ ”The ¡hierarchy ¡posi-ons ¡of ¡defined ¡concepts ¡are ¡the ¡ result ¡of ¡the ¡concept's ¡role ¡restric-on” ¡

Posi-on ¡Challenge ¡

slide-23
SLIDE 23
  • Major ¡focus ¡is ¡the ¡terminology ¡and ¡defini-ons ¡

¡

  • The ¡hierarchical ¡rela-ons ¡discussions ¡are ¡to ¡support ¡

defini-ons ¡clarity ¡and ¡not ¡to ¡posi-on ¡the ¡term ¡ ¡

  • Each ¡term ¡in ¡the ¡pseudo-­‑hierarchy ¡is ¡commented ¡

with: ¡

  • Textual ¡descrip-ons ¡of ¡the ¡term ¡
  • Full ¡list ¡of ¡synonyms ¡
  • Addi-onal ¡clarifica-ons ¡on ¡recommended ¡usage ¡of ¡the ¡term ¡

23 ¡

Domain ¡Experts ¡and ¡Users ¡

slide-24
SLIDE 24

Defini-ons, ¡Not ¡Posi-on ¡

  • Defini-ons ¡encode ¡many ¡posi-ons ¡

– meningococcal ¡meningi-s ¡SubClassOf: ¡disease ¡ that ¡locatedIn ¡central ¡nervous ¡systems ¡and ¡ causedBy ¡bacteria ¡

  • Including ¡future ¡posi-ons ¡

– We ¡can ¡start ¡with ¡“Disease” ¡and ¡then ¡

  • introduce ¡“BacterialDisease” ¡and ¡ ¡
  • “CNSDisease” ¡or ¡even ¡
  • “BacterialCNSDisease” ¡
slide-25
SLIDE 25

25 ¡

¡

¡ ¡ ¡

Goal ¡is ¡to ¡reach ¡an ¡agreement ¡on ¡the ¡defini-on ¡ ¡

slide-26
SLIDE 26

26 ¡

NCIt: ¡Proto-­‑representa-on ¡Schema ¡

slide-27
SLIDE 27

¡

The ¡proto-­‑representa-on ¡is ¡formalized ¡ ¡

  • Mapping ¡the ¡proto-­‑representa-on ¡to ¡the ¡NCIt ¡hierarchy ¡

¡ ¡

27 ¡

Domain ¡Experts ¡and ¡Ontology ¡Designers ¡ ¡

slide-28
SLIDE 28

¡ Ontology ¡Designers ¡rely ¡heavily ¡on ¡the ¡defini-ons ¡and ¡comments ¡provided ¡ by ¡the ¡users ¡to ¡create ¡the ¡OWL ¡representa-ons ¡of ¡the ¡defini-ons ¡

¡

28 ¡

Domain ¡Experts ¡and ¡Ontology ¡Designers ¡ ¡

slide-29
SLIDE 29

¡

Ontology ¡Designers ¡and ¡Domain ¡Experts ¡decide: ¡

¡

  • Desirable ¡posi-ons ¡of ¡the ¡term ¡(class) ¡in ¡the ¡hierarchies ¡
  • Is_a ¡
  • Part_of ¡
  • Located_in ¡
  • These ¡now ¡are ¡tests ¡
  • Of ¡the ¡representa-onal ¡adequacy ¡of ¡the ¡defini-on ¡

¡

29 ¡

Domain ¡Experts ¡and ¡Ontology ¡Designers ¡ ¡

slide-30
SLIDE 30

¡

The ¡reasoner ¡provides ¡automa-c ¡inference: ¡ ¡

  • Make ¡implicit ¡links ¡explicit ¡
  • Help ¡resolve ¡representa-on ¡conflicts ¡
  • Subsump-on ¡checking ¡

¡ ¡

30 ¡

DL ¡Formalism ¡and ¡Reasoner ¡

slide-31
SLIDE 31

31 ¡

¡

¡ ¡ ¡

How ¡was ¡Meningi-s ¡represented? ¡

slide-32
SLIDE 32

32 ¡

slide-33
SLIDE 33

33 ¡

slide-34
SLIDE 34

34 ¡

slide-35
SLIDE 35

The ¡process ¡

  • Scope ¡

– When ¡to ¡stop ¡ – Task ¡ – Purpose ¡ – Output ¡-­‑ ¡terminology ¡

  • Pre–representa-on ¡(Knowledge ¡Acquisi-on) ¡

– Collect ¡terms ¡ – Organize ¡terms ¡ – Produce ¡informal ¡concepts ¡(proto-­‑representa-on) ¡

  • Post–representa-on ¡(Knowledge ¡Representa-on) ¡

– Normalizing ¡terms ¡(e.g., ¡“symmetry ¡or ¡symmetric”?) ¡ – Hierarchy ¡(and ¡other ¡direct ¡rela-ons ¡between ¡terms) ¡ ¡ – Categorizing ¡terms ¡(e.g., ¡as ¡modifiers ¡or ¡self-­‑standing) ¡ ¡ – Constraining ¡and ¡defining ¡terms ¡ – Formalize ¡Knowledge ¡

  • Evaluate ¡

– Verifica-on ¡

35 ¡

slide-36
SLIDE 36

36 ¡

¡ ¡ ¡The ¡process ¡does ¡not ¡guarantee ¡a ¡

successful ¡Knowledge ¡Representa-on ¡

slide-37
SLIDE 37

Issues ¡with ¡the ¡Analysis ¡

  • Unfortunately, ¡the ¡NCI ¡paper ¡

– Does ¡not ¡provide ¡rigorous ¡evidence ¡ – Does ¡not ¡provide ¡strong ¡arguments ¡

  • Are ¡defini-ons ¡unconten-ous? ¡

– Does ¡not ¡provide ¡a ¡clear ¡model ¡ – Does ¡not ¡detail ¡the ¡cost ¡vs. ¡the ¡benefit ¡

  • Even ¡theore-cally ¡
  • These ¡are ¡hard! ¡
  • Does ¡provide ¡a ¡plausible ¡star-ng ¡place ¡
slide-38
SLIDE 38

Next ¡Time ¡

  • Read ¡“What ¡is ¡a ¡Knowledge ¡Representa-on?” ¡

– hTp://groups.csail.mit.edu/medg/vp/psz/k-­‑rep.html ¡