Knowledge Representa0on In Ac0on COMP34512 A look into - - PowerPoint PPT Presentation
Knowledge Representa0on In Ac0on COMP34512 A look into - - PowerPoint PPT Presentation
Knowledge Representa0on In Ac0on COMP34512 A look into the Na-onal Cancer Ins-tute Thesaurus (NCIt) Sebas-an Brandt (brandt@cs.manchester.ac.uk) (Slides
Na-onal ¡Cancer ¡Ins-tute ¡ Bethesda, ¡USA ¡
A ¡Case ¡Study ¡
The ¡NCI ¡Thesaurus ¡is ¡a ¡vocabulary ¡designed ¡to ¡meet ¡ the ¡needs ¡of ¡the ¡cancer ¡research ¡community ¡for ¡ consistent, ¡unambiguous ¡codes ¡and ¡defini-ons ¡for ¡ basic ¡and ¡clinical ¡concepts ¡used ¡in ¡cancer ¡research, ¡ and ¡the ¡seman-c ¡links ¡among ¡concepts ¡that ¡enable ¡ traversal ¡of ¡rela-onships. ¡
In ¡A ¡Nutshell ¡
The ¡NCIt ¡is ¡a ¡controlled ¡vocabulary ¡ ¡
- About ¡cancer ¡research ¡
ü basic ¡and ¡clinical ¡concepts ¡
- Unambiguous ¡codes ¡(with ¡defini-ons) ¡
ü human ¡readable ¡
- Arranged ¡hierarchically ¡
¡NCIt ¡
- At ¡delivery ¡
- Hierarchical ¡lists ¡of ¡terms ¡+ ¡defini-on ¡comments ¡
- (Akin ¡to ¡our ¡minimal ¡representa-on) ¡
- At ¡development ¡
- Formalized ¡defini-ons ¡
- Why ¡formalize? ¡
Delivery ¡
The ¡NCI ¡Thesaurus ¡is ¡designed, ¡first ¡and ¡foremost, ¡ to ¡be ¡a ¡thesaurus ¡– ¡“a ¡controlled ¡vocabulary ¡ arranged ¡in ¡a ¡known ¡order ¡and ¡structured ¡so ¡that ¡ the ¡various ¡rela-onships ¡among ¡terms ¡are ¡ displayed ¡clearly ¡and ¡iden-fied ¡by ¡ ¡standardized ¡ rela-onship ¡indicators….Its ¡primary ¡role ¡is ¡that ¡of ¡a ¡ bridge ¡for ¡human ¡to ¡human ¡communica-on ¡across ¡ special-es ¡and ¡data ¡resources ¡”* ¡
* ¡hTp://bit.ly/zSxHpK ¡
- Data ¡entry ¡
- Tags ¡on ¡images ¡
- Keywords ¡on ¡papers ¡
- Data ¡retrieval ¡
- Query ¡expansion ¡
- Faceted/hierarchical ¡naviga-on ¡
Delivery ¡
Development ¡Challenges ¡
- Cancer ¡(research) ¡domain ¡
- Complex ¡and ¡diverse ¡
- Different ¡users ¡and ¡user ¡communi-es ¡
- Terms ¡and ¡term ¡sets ¡overlap ¡
- But ¡with ¡different ¡nuances ¡
- Shared ¡or ¡similar ¡concepts ¡with ¡shared, ¡similar, ¡
- r ¡quite ¡different ¡terms ¡
- Domain ¡and ¡terminologies ¡always ¡changing ¡
10 ¡
NCIt: ¡Evolu-on ¡
Contains ¡21 ¡hierarchical ¡trees ¡ ¡ ¡
- Neoplasms ¡
- Anatomy ¡
- Genes ¡
- Proteins ¡
- Drugs ¡
- Treatments ¡
- … ¡
¡
¡
11 ¡
NCIt: ¡Scope ¡
User View
Knowledge Engineer View
14 ¡
¡ ¡ ¡How ¡do ¡you ¡get ¡there? ¡
Data ¡Sources ¡
Email ¡Requests ¡ Universi-es ¡ Research ¡ Ins-tutes ¡ EVS ¡Partners ¡ Legacy ¡Data ¡ Bulk ¡Data ¡Imports ¡ Data ¡Archives ¡ Use ¡Cases ¡
The ¡Cost ¡of ¡Gedng ¡it ¡“Right” ¡
Ontology ¡development ¡is ¡costly ¡ ¡
“Ini-ally ¡we ¡included ¡in ¡the ¡Thesaurus ¡concepts ¡that ¡we ¡ simply ¡believed ¡to ¡be ¡important ¡to ¡NCI” ¡ ¡ ¡ “However, ¡given ¡the ¡costs ¡of ¡ontology ¡development ¡one ¡ cannot ¡go ¡on ¡doing ¡that ¡very ¡long. ¡Since ¡no ¡ontology ¡is ¡ ever ¡complete ¡[27], ¡a ¡yards-ck ¡is ¡needed ¡…“ ¡ ¡ ¡ “We ¡now ¡require ¡that ¡all ¡T-‑ ¡Box ¡elements ¡be ¡required ¡ either ¡explicitly ¡or ¡by ¡implica-on ¡by ¡the ¡needs ¡of ¡at ¡least ¡
- ne ¡user ¡community” ¡
17 ¡
NCIt ¡Process ¡for ¡Use ¡Cases ¡
User ¡submits ¡a ¡Use ¡Case ¡ Domain ¡Expert ¡examines ¡use ¡ case ¡to ¡check: ¡ ¡-‑ ¡exis-ng ¡coverage ¡ ¡-‑ ¡expansion ¡of ¡ knowledge ¡ ¡ The ¡collabora-ve ¡process ¡begins: ¡ ¡
- ¡use ¡the ¡pseudo ¡T-‑Box ¡
- ¡use ¡graphical ¡
representa-ons ¡
- ¡use ¡spreadsheets ¡to ¡map ¡
to ¡ontology ¡ ¡ ¡
proto-‑representa-on ¡
18 ¡
NCIt ¡Process: ¡In ¡Detail ¡
Pseudo-‑TBox ¡Approach ¡
- It ¡is ¡a ¡simplifica-on ¡
– Discussion ¡not ¡on ¡30,000+ ¡terms, ¡ – But ¡on ¡kinds ¡and ¡roles ¡
- Shows ¡coverage ¡
– Hierarchy ¡view: ¡
- They ¡can ¡explore ¡
- Recognize ¡concepts ¡
- Spot ¡gaps ¡
- Posi-oning ¡is ¡hard! ¡
– Seeing ¡structure ¡elicits ¡structure ¡comments ¡
Posi-on ¡Challenge ¡
¡
Problem! ¡ ¡
¡ “Not ¡infrequently ¡in ¡biomedicine, ¡there ¡is ¡no ¡ canonical ¡determina-on ¡of ¡a ¡concept's ¡correct ¡ tree ¡posi-on…” ¡ ¡
Example ¡
¡ “Meningococcal ¡meningi-s ¡may ¡be ¡classified ¡correctly ¡as ¡ both ¡a ¡disease ¡of ¡the ¡central ¡nervous ¡systems ¡and ¡a ¡ bacterial ¡disease” ¡ ¡ ¡ “There ¡are ¡always ¡things ¡the ¡experts ¡will ¡ques-on.” ¡
Posi-on ¡Challenge ¡
Conflict ¡Resolu-on ¡Tools ¡
¡ “These ¡discussions ¡of ¡why ¡the ¡hierarchies ¡are ¡ structured ¡as ¡they ¡are ¡offer ¡the ¡opportunity ¡to ¡ introduce ¡the ¡no-ons ¡of ¡roles” ¡ ¡ ”The ¡hierarchy ¡posi-ons ¡of ¡defined ¡concepts ¡are ¡the ¡ result ¡of ¡the ¡concept's ¡role ¡restric-on” ¡
Posi-on ¡Challenge ¡
- Major ¡focus ¡is ¡the ¡terminology ¡and ¡defini-ons ¡
¡
- The ¡hierarchical ¡rela-ons ¡discussions ¡are ¡to ¡support ¡
defini-ons ¡clarity ¡and ¡not ¡to ¡posi-on ¡the ¡term ¡ ¡
- Each ¡term ¡in ¡the ¡pseudo-‑hierarchy ¡is ¡commented ¡
with: ¡
- Textual ¡descrip-ons ¡of ¡the ¡term ¡
- Full ¡list ¡of ¡synonyms ¡
- Addi-onal ¡clarifica-ons ¡on ¡recommended ¡usage ¡of ¡the ¡term ¡
23 ¡
Domain ¡Experts ¡and ¡Users ¡
Defini-ons, ¡Not ¡Posi-on ¡
- Defini-ons ¡encode ¡many ¡posi-ons ¡
– meningococcal ¡meningi-s ¡SubClassOf: ¡disease ¡ that ¡locatedIn ¡central ¡nervous ¡systems ¡and ¡ causedBy ¡bacteria ¡
- Including ¡future ¡posi-ons ¡
– We ¡can ¡start ¡with ¡“Disease” ¡and ¡then ¡
- introduce ¡“BacterialDisease” ¡and ¡ ¡
- “CNSDisease” ¡or ¡even ¡
- “BacterialCNSDisease” ¡
25 ¡
¡
¡ ¡ ¡
Goal ¡is ¡to ¡reach ¡an ¡agreement ¡on ¡the ¡defini-on ¡ ¡
26 ¡
NCIt: ¡Proto-‑representa-on ¡Schema ¡
¡
The ¡proto-‑representa-on ¡is ¡formalized ¡ ¡
- Mapping ¡the ¡proto-‑representa-on ¡to ¡the ¡NCIt ¡hierarchy ¡
¡ ¡
27 ¡
Domain ¡Experts ¡and ¡Ontology ¡Designers ¡ ¡
¡ Ontology ¡Designers ¡rely ¡heavily ¡on ¡the ¡defini-ons ¡and ¡comments ¡provided ¡ by ¡the ¡users ¡to ¡create ¡the ¡OWL ¡representa-ons ¡of ¡the ¡defini-ons ¡
¡
28 ¡
Domain ¡Experts ¡and ¡Ontology ¡Designers ¡ ¡
¡
Ontology ¡Designers ¡and ¡Domain ¡Experts ¡decide: ¡
¡
- Desirable ¡posi-ons ¡of ¡the ¡term ¡(class) ¡in ¡the ¡hierarchies ¡
- Is_a ¡
- Part_of ¡
- Located_in ¡
- These ¡now ¡are ¡tests ¡
- Of ¡the ¡representa-onal ¡adequacy ¡of ¡the ¡defini-on ¡
¡
29 ¡
Domain ¡Experts ¡and ¡Ontology ¡Designers ¡ ¡
¡
The ¡reasoner ¡provides ¡automa-c ¡inference: ¡ ¡
- Make ¡implicit ¡links ¡explicit ¡
- Help ¡resolve ¡representa-on ¡conflicts ¡
- Subsump-on ¡checking ¡
¡ ¡
30 ¡
DL ¡Formalism ¡and ¡Reasoner ¡
31 ¡
¡
¡ ¡ ¡
How ¡was ¡Meningi-s ¡represented? ¡
32 ¡
33 ¡
34 ¡
The ¡process ¡
- Scope ¡
– When ¡to ¡stop ¡ – Task ¡ – Purpose ¡ – Output ¡-‑ ¡terminology ¡
- Pre–representa-on ¡(Knowledge ¡Acquisi-on) ¡
– Collect ¡terms ¡ – Organize ¡terms ¡ – Produce ¡informal ¡concepts ¡(proto-‑representa-on) ¡
- Post–representa-on ¡(Knowledge ¡Representa-on) ¡
– Normalizing ¡terms ¡(e.g., ¡“symmetry ¡or ¡symmetric”?) ¡ – Hierarchy ¡(and ¡other ¡direct ¡rela-ons ¡between ¡terms) ¡ ¡ – Categorizing ¡terms ¡(e.g., ¡as ¡modifiers ¡or ¡self-‑standing) ¡ ¡ – Constraining ¡and ¡defining ¡terms ¡ – Formalize ¡Knowledge ¡
- Evaluate ¡
– Verifica-on ¡
35 ¡
36 ¡
¡ ¡ ¡The ¡process ¡does ¡not ¡guarantee ¡a ¡
successful ¡Knowledge ¡Representa-on ¡
Issues ¡with ¡the ¡Analysis ¡
- Unfortunately, ¡the ¡NCI ¡paper ¡
– Does ¡not ¡provide ¡rigorous ¡evidence ¡ – Does ¡not ¡provide ¡strong ¡arguments ¡
- Are ¡defini-ons ¡unconten-ous? ¡
– Does ¡not ¡provide ¡a ¡clear ¡model ¡ – Does ¡not ¡detail ¡the ¡cost ¡vs. ¡the ¡benefit ¡
- Even ¡theore-cally ¡
- These ¡are ¡hard! ¡
- Does ¡provide ¡a ¡plausible ¡star-ng ¡place ¡
Next ¡Time ¡
- Read ¡“What ¡is ¡a ¡Knowledge ¡Representa-on?” ¡