Definitions, Design, and Parts Bijan Parsia bparsia@cs.man.ac.uk Sean Bechhofer sean.bechhofer@manchester.ac.uk COMP60421 23 Nov. 2012 Monday, 26 November 2012 1
Definition Oriented Development Define define Monday, 26 November 2012 2
Remember, Movember! • http://mobro.co/bijanparsia • http://uk.movember.com/team/830989 Monday, 26 November 2012 3
Utility • You’ve learned a bit about ontologies – The languages – The services – The underlying logic – A bit about computation – A bit about how to model with them • The big question! – What are they good for? – (data integration, terminology development...) • The BIGGER question... – ...What is the marginal gain of using ontologies? • Here’s an attempt at answering this question – Much more work needs to be done! 4 Monday, 26 November 2012 4
“I thought to myself: I am wiser than this man; neither of us probably knows anything that is really good, but he thinks he has knowledge, when he has not, while I... do not think I have.” ― Plato, Apology 5 Monday, 26 November 2012 5
The Simple Development Cycle Conceptualize Verbalize ∃ P.C ⊑ ∀ P.D A ⊓ B ⊑ ∀ P.D Formalize ∃ P(A ⊔ B) ⊑ ¬D has knowledge has Knowledge Monday, 26 November 2012 6
The Simple Development Cycle Conceptualize ∃ P.C ⊑ ∀ P.D A ⊓ B ⊑ ∀ P.D ∃ P(A ⊔ B) ⊑ ¬D has knowledge e Communicate z i l a m r o F has Knowledge Monday, 26 November 2012 7
The Simple Development Cycle Conceptualize ∃ P.C ⊑ ∀ P.D A ⊓ B ⊑ ∀ P.D ∃ P(A ⊔ B) ⊑ ¬D has knowledge e Communicate I z n i l a f e m r r e o F n c e has Knowledge Monday, 26 November 2012 8
Definition Oriented Development • “Reduce” (certain kinds of) effort – Local focus on what terms mean • Verification – There are consequences to what we say – We can spot wrong links • Work on our part to detect problems • But inferred links are a subset of all links – The reasoner can tell us about broken definitions • We still need to understand them! • Improve interaction – The KR becomes “reactive” • Comes at a computational cost! Monday, 26 November 2012 9
Reduce which effort? • Target: Hierarchical controlled vocabularies – Aka taxonomies • Without (logically encoded) definitions Mediated – We must formulate the definitions by humans! – We must put terms “in their proper place” – We must assert every non-trivial “link” – We must check that these are the right links • Thus we must determine what all the right links are • We must also verify that the links we include are right • How much work? – 100 terms ≈ 10,000 (100 2 ) possible subsumptions! • Plus 100 definitions • Link checking isn’t enough — paths! – Depth adds complexity – Multiple inheritance adds significant complexity Monday, 26 November 2012 10
Three issues with term position • Where do they go? • The number of terms • The effort involved Monday, 26 November 2012 11
Case ¡Study: ¡ Na-onal ¡Cancer ¡Ins-tute ¡Thesaurus ¡(NCIt) Pu9ng ¡things ¡in ¡their ¡place Modified ¡from ¡slides ¡by Maria ¡Copeland h4p://www.cs.manchester.ac.uk/ugt/2011/COMP34512/slides/day7.pdf Monday, 26 November 2012 12
A ¡Case ¡Study The ¡NCI ¡Thesaurus ¡is ¡a ¡vocabulary ¡designed ¡to ¡meet ¡the ¡ needs ¡of ¡the ¡cancer ¡research ¡community ¡for ¡consistent, ¡ unambiguous ¡codes ¡and ¡defini;ons ¡for ¡basic ¡and ¡clinical ¡ concepts ¡used ¡in ¡cancer ¡research, ¡and ¡the ¡seman;c ¡links ¡ among ¡concepts ¡that ¡enable ¡traversal ¡of ¡rela;onships. Monday, 26 November 2012 13
In ¡A ¡Nutshell The ¡NCIt ¡is ¡a ¡controlled ¡vocabulary • About ¡cancer ¡research ü basic ¡and ¡clinical ¡concepts • Unambiguous ¡codes ¡(with ¡defini;ons) ü human ¡readable • Arranged ¡hierarchically Monday, 26 November 2012 14
¡ NCIt • At ¡delivery • Hierarchical ¡lists ¡of ¡terms ¡+ ¡defini;on ¡comments • (Akin ¡to ¡our ¡minimal ¡representa;on) • At ¡development • Formalized ¡defini;ons • (Akin ¡to ¡a ¡full ¡blown ¡representa;on) • Why ¡the ¡discrepancy? Monday, 26 November 2012 15
Delivery The ¡NCI ¡Thesaurus ¡is ¡designed, ¡first ¡and ¡foremost, ¡to ¡ be ¡a ¡thesaurus ¡– ¡“a ¡controlled ¡vocabulary ¡arranged ¡in ¡ a ¡known ¡order ¡and ¡structured ¡so ¡that ¡the ¡various ¡ rela;onships ¡among ¡terms ¡are ¡displayed ¡clearly ¡and ¡ iden;fied ¡by ¡ ¡standardized ¡rela;onship ¡indicators….Its ¡ primary ¡role ¡is ¡that ¡of ¡a ¡bridge ¡for ¡human ¡to ¡human ¡ communica;on ¡across ¡special;es ¡and ¡data ¡resources ¡ ”* * ¡h4p://bit.ly/zSxHpK Monday, 26 November 2012 16
Delivery • Data ¡entry • Tags ¡on ¡images • Keywords ¡on ¡papers • Data ¡retrieval • Query ¡expansion • Faceted/hierarchical ¡naviga;on Monday, 26 November 2012 17
Monday, 26 November 2012 18
Development ¡Challenges • Cancer ¡(research) ¡domain • Complex ¡and ¡diverse • Different ¡users ¡and ¡user ¡communi;es • Terms ¡and ¡term ¡sets ¡overlap • But ¡with ¡different ¡nuances • Shared ¡or ¡similar ¡concepts ¡with ¡shared, ¡similar, ¡or ¡ quite ¡different ¡terms • Domain ¡and ¡terminologies ¡always ¡changing Monday, 26 November 2012 19
NCIt: ¡EvoluUon 20 Monday, 26 November 2012 20
NCIt: ¡Facts • NCIt ¡published ¡monthly ¡in ¡OWL ¡since ¡2003 • ≈93 ¡versions ¡of ¡the ¡NCIt ¡ontology ¡ – (as ¡of ¡last ¡year...up ¡to ¡104 ¡or ¡so ¡now) • 49,647 ¡to ¡122,078 ¡logical ¡axioms • A ¡comparable ¡number ¡of ¡terms 21 Monday, 26 November 2012 21
NCIt: ¡Scope Contains ¡21 ¡hierarchical ¡trees ¡ • Neoplasms • Anatomy • Genes • Proteins • Drugs • Treatments • … 22 Monday, 26 November 2012 22
User ¡View 23 Monday, 26 November 2012 23
¡ Knowledge ¡Engineer ¡View 24 Monday, 26 November 2012 24
¡ How ¡do ¡you ¡get ¡there? 25 Monday, 26 November 2012 25
Data ¡Sources E mail ¡Requests B ulk ¡ D ata ¡ I mports D ata ¡A rchives R esearch ¡ I nsUtutes U se ¡ C ases EVS ¡P artners U niversiUes L egacy ¡ D ata Monday, 26 November 2012 26
NCIt ¡Process ¡for ¡Use ¡Cases Domain ¡Expert ¡examines ¡use ¡case ¡to ¡ The ¡collaboraUve ¡process ¡begins: User ¡submits ¡a ¡Use ¡Case check: ¡ -‑ ¡exisUng ¡coverage • ¡use ¡the ¡“pseudo ¡T-‑Box”* ¡ -‑ ¡expansion ¡of ¡knowledge ¡ • ¡use ¡graphical ¡representaUons • ¡use ¡spreadsheets ¡to ¡map ¡to ¡ ontology ¡ proto-‑representaUon * ¡“Pseudo-‑TBox” ¡is ¡an ¡odd ¡artefact ¡of ¡the ¡rather ¡strange ¡DL ¡system ¡they ¡were ¡using ¡at ¡the ¡Ume -‑-‑ ¡just ¡conceive ¡of ¡it ¡as ¡an ¡extremely ¡simplified ¡abstracUon ¡of ¡the ¡actual ¡ontology 27 Monday, 26 November 2012 27
NCIt ¡Process: ¡In ¡Detail 28 Monday, 26 November 2012 28
Pseudo-‑TBox ¡Approach • It ¡is ¡a ¡simplificaUon – Discussion ¡not ¡on ¡30,000+ ¡terms, – But ¡on ¡kinds ¡and ¡roles • Shows ¡coverage – Hierarchy ¡view: • They ¡can ¡explore • Recognize ¡concepts • Spot ¡gaps • PosiUoning ¡is ¡hard! – Seeing ¡structure ¡elicits ¡structure ¡comments Monday, 26 November 2012 29
PosiUon ¡Challenge Problem! ¡ “Not ¡infrequently ¡in ¡biomedicine, ¡there ¡is ¡no ¡canonical ¡ determina;on ¡of ¡a ¡concept's ¡correct ¡tree ¡posi;on…” ¡ Monday, 26 November 2012 30
PosiUon ¡Challenge Example “Meningococcal ¡meningi;s ¡may ¡be ¡classified ¡correctly ¡as ¡ both ¡a ¡disease ¡of ¡the ¡central ¡nervous ¡systems ¡and ¡a ¡ bacterial ¡disease” ¡ “There ¡are ¡always ¡things ¡the ¡experts ¡will ¡ques;on.” Monday, 26 November 2012 31
PosiUon ¡Challenge Conflict ¡ResoluUon ¡Tools “These ¡discussions ¡of ¡why ¡the ¡hierarchies ¡are ¡structured ¡as ¡ they ¡are ¡offer ¡the ¡opportunity ¡to ¡introduce ¡the ¡no;ons ¡ of ¡roles” ”Since ¡the ¡hierarchy ¡posi;on ¡of ¡defined ¡concepts ¡are ¡the ¡ result ¡of ¡the ¡concept's ¡role ¡restric;on” Monday, 26 November 2012 32
Recommend
More recommend