NLP resources: construc.on, standardiza.on, exploita.on - - PowerPoint PPT Presentation

nlp resources construc on standardiza on exploita on api
SMART_READER_LITE
LIVE PREVIEW

NLP resources: construc.on, standardiza.on, exploita.on - - PowerPoint PPT Presentation

NLP resources: construc.on, standardiza.on, exploita.on & API Karim Bouzoubaa outline Exploita.on NLP resources Construc.on


slide-1
SLIDE 1

¡ NLP ¡resources: ¡ ¡ construc.on, ¡standardiza.on, ¡ exploita.on ¡& ¡API ¡ ¡ ¡ ¡ Karim ¡Bouzoubaa ¡

slide-2
SLIDE 2
  • utline ¡
  • Exploita.on ¡ ¡
  • NLP ¡resources ¡
  • Construc.on ¡
  • Standardiza.on ¡
  • API ¡ ¡
slide-3
SLIDE 3

Exploita.on ¡

slide-4
SLIDE 4

Exploitation ¡

LRs ¡are ¡used ¡in ¡various ¡NLP ¡so7ware ¡tools: ¡

¡

  • morphological, ¡syntac@c ¡and ¡seman@c ¡analysis ¡
  • automa@c ¡transla@on ¡
  • automa@c ¡genera@on ¡of ¡texts ¡
  • spell-­‑checking ¡
  • automa@c ¡summariza@on ¡
  • handwri@ng ¡recogni@on ¡
  • reformula@on ¡and ¡paraphrasing ¡
  • informa@on ¡search ¡and ¡text ¡mining ¡

4 ¡

slide-5
SLIDE 5
  • utline ¡
  • Exploita.on ¡ ¡
  • NLP ¡resources ¡
  • Construc.on ¡
  • Standardiza.on ¡
  • API ¡ ¡
slide-6
SLIDE 6

NLP ¡ Resources ¡ ¡

slide-7
SLIDE 7

Resources ¡

Introduction – Definition Types Examples Evaluation criteria

slide-8
SLIDE 8

Introduc.on ¡-­‑ ¡Defini.on ¡

q The ¡key ¡to ¡NLT ¡development ¡is ¡the ¡Language ¡Resource ¡ q Resource ¡ produc@on ¡ takes ¡ a ¡ lot ¡ of ¡ effort ¡ and ¡ is ¡ very ¡

expensive ¡ ¡

Example: ¡ The ¡ Arabic ¡ standard ¡ LC-­‑STAR ¡ phone@c ¡ lexicon ¡ of ¡ the ¡ European ¡ Linguis@c ¡ Resource ¡ Associa@on ¡ (ELRA) ¡ with ¡ 110,271 ¡ entries ¡ costs ¡ 21250.00 ¡ EUR ¡ (for ¡ use ¡ in ¡ academic ¡research) ¡

8 ¡

Language resources are language-related data, accessible in an electronic format, and used for the development of NLP systems

slide-9
SLIDE 9
slide-10
SLIDE 10
  • 1. Corpus ¡
  • wriTen: ¡monolingual ¡texts, ¡mul@lingual ¡texts, ¡annoted ¡texts, ¡

treebanks ¡

  • speech: ¡reading ¡texts ¡aloud, ¡speeches, ¡dialogues, ¡radio ¡and ¡

television ¡broadcasts ¡

  • Mul@media: ¡images, ¡sounds ¡and ¡videos ¡
  • 2. Lexicon ¡
  • monolingual ¡and ¡mul@lingual ¡Dic@onaries ¡
  • Gaze@ers ¡(geographical ¡dic@onary) ¡
  • Terminologies ¡
  • ontologies ¡

Types ¡– ¡2 ¡categories ¡

slide-11
SLIDE 11

An ¡entry ¡in ¡the ¡lexicon ¡may ¡contain ¡: ¡ ¡

  • morphological, ¡ syntac@c, ¡ seman@c ¡ and ¡ pragma@c ¡

informa@on ¡

  • the ¡gramma@cal ¡category ¡(noun, ¡verb, ¡etc.), ¡ ¡
  • subcategory ¡proper@es ¡(transi@ve ¡verb ¡or ¡not, ¡masculine ¡
  • r ¡feminine) ¡
  • seman@c ¡ informa@on ¡ (animated ¡ name, ¡ verb ¡ requiring ¡ a ¡

human ¡subject ¡

Content ¡of ¡a ¡lexicon ¡

slide-12
SLIDE 12

12 ¡

Examples

slide-13
SLIDE 13

Oxford ¡ dic.onary ¡

slide-14
SLIDE 14

verbNet ¡

slide-15
SLIDE 15

q Formal ¡(regardless ¡of ¡content) ¡ § Size ¡ § Maintenance ¡(durability, ¡scalability) ¡ § Compa@bility ¡ q Func.onal ¡(language ¡criteria) ¡ § Lexicographic ¡annota@on ¡(existence ¡and ¡

relevance) ¡

§ Intrinsic ¡rules

Evalua@on ¡criteria

slide-16
SLIDE 16
  • utline ¡
  • Exploita.on ¡ ¡
  • NLP ¡resources ¡
  • Construc.on ¡
  • Standardiza.on ¡
  • API ¡ ¡
slide-17
SLIDE 17

Construc.on ¡

slide-18
SLIDE 18

Construc@on ¡

Produc.on ¡cycle ¡

Crea@ng ¡resources ¡ Example ¡(Contempory ¡Arabic) ¡ Reusing ¡ressources ¡ Example ¡of ¡free ¡resources ¡

Good ¡prac.ces ¡ ¡

Documenta@on ¡ Interoperability ¡ Viability ¡

slide-19
SLIDE 19

two approaches for developing LRs: ¡

q creating new resources q tuning existing resources ¡

19 ¡

crea.ng ¡resources ¡

slide-20
SLIDE 20

Collect ¡ "authen@c" ¡ data, ¡ of ¡ a ¡ general ¡ nature ¡ or ¡ belonging ¡ to ¡ a ¡ par@cular ¡ sector ¡

  • f ¡ ac@vity, ¡ directly ¡ in ¡ digital ¡ form ¡ or, ¡ in ¡

some ¡cases, ¡by ¡digi@zing ¡them. ¡

20 ¡

crea.ng ¡resources ¡

slide-21
SLIDE 21

Contemporary Arabic ¡

Example of creating resources ¡

slide-22
SLIDE 22

q The ¡opera@on ¡of ¡making ¡changes ¡to ¡a ¡resource ¡

for ¡the ¡purpose ¡of ¡performing ¡certain ¡func@ons ¡ and ¡ improving ¡ it ¡ in ¡ a ¡ different ¡ usage ¡ environment ¡from ¡the ¡original ¡one ¡

q Example: .... ¡

22 ¡

Resources’ ¡Reuse ¡

slide-23
SLIDE 23

Corpus ¡

q Corpus ¡of ¡Contemporary ¡Arabic ¡ q Khoja ¡POS ¡tagged ¡corpus ¡ q Quranic ¡Arabic ¡ q Collec@on ¡of ¡free ¡arabic ¡texts ¡and ¡books: ¡

  •  Almeshkat ¡ ¡
  •  Al-­‑Eman ¡

Lexicon ¡

q Buckwalter’s ¡list ¡of ¡Arabic ¡roots ¡ q Al-­‑Baheth ¡Al-­‑Arabi ¡

¡

23 ¡

Example ¡of ¡free ¡resources ¡

slide-24
SLIDE 24

In ¡order ¡to ¡contribute ¡to ¡the ¡crea@on ¡of ¡a ¡set ¡of ¡ sustainable ¡ RLs, ¡ some ¡ principles ¡ must ¡ be ¡ respected: ¡ ¡

  • Resource ¡documenta@on ¡
  • Interoperability ¡of ¡resources

24 ¡

Good ¡prac@ces ¡

slide-25
SLIDE 25

LRs ¡are ¡o7en ¡poorly ¡documented ¡or ¡undocumented ¡at ¡all. ¡ Documenta@on ¡should ¡be ¡as ¡comprehensive ¡as ¡possible, ¡ and ¡include ¡informa@on ¡on: ¡

  • the ¡format ¡of ¡the ¡data ¡
  • the ¡content ¡of ¡the ¡data ¡
  • the ¡produc@on ¡context ¡
  • the ¡possible ¡uses ¡ ¡

¡

25 ¡

Documenta.on ¡of ¡resources ¡

slide-26
SLIDE 26

q The ¡interoperability ¡of ¡LRs ¡is ¡the ¡ability ¡to ¡

  • perate ¡in ¡different ¡systems ¡

q The ¡formats ¡of ¡the ¡LRs ¡must ¡be ¡standard

26 ¡

Resources interoperability ¡

slide-27
SLIDE 27

Many ¡difficul@es ¡are ¡encountered ¡when ¡reusing ¡available ¡LRs ¡

Interoperability – documentation - reuse ¡

slide-28
SLIDE 28
  • Contribute ¡ to ¡ the ¡ development ¡ of ¡ LRs ¡ respec@ng ¡

interoperability ¡rules ¡

– Availability ¡ – Portability ¡ – Reusability ¡ – normaliza@on ¡

Interoperability – documentation - reuse ¡

slide-29
SLIDE 29
  • utline ¡
  • Exploita.on ¡ ¡
  • NLP ¡resources ¡
  • Construc.on ¡
  • Standardiza.on ¡
  • API ¡ ¡
slide-30
SLIDE 30

Standardiza.on ¡

slide-31
SLIDE 31

q How ¡to ¡integrate ¡exis@ng ¡resources ¡into ¡one's ¡own ¡

contexts? ¡

q How ¡to ¡separate ¡the ¡resources ¡from ¡the ¡tools ¡that ¡

manage ¡them?

why? ¡

slide-32
SLIDE 32

standardisation agencies: ¡

CNIS: China National Institute of Standardization ¡ FNOR: Agence Française de Normalisation ¡ DIN: Deutsches Institut für Normung ¡ ANSI: American National Standards Institute ¡ W3C: World Wide Web Consortium ¡ TEI: Text Encoding Initiative ¡ ISO: the International Organization for Standardization ¡

projects: ¡

LIRICS :Linguistic Infrastructure for Interoperable Resources and Systems ¡ EAGLES: Expert Advisory Group on Language Engineering Standards ¡ Multext : Multilingual Text Tools and Corpora ¡

research structures: ¡

CLARIN: Common Language Resources and Technology Infrastructure ¡ FLaReNet : Fostering Language Resources Network ¡ Alpage : Analyse Linguistique Profonde A Grande Echelle. ¡

¡

Panorama ¡

slide-33
SLIDE 33

Organization ¡

slide-34
SLIDE 34

Préparatoire ¡

new project of the WG ¡

Préliminaire ¡

Preliminary Work Item (PWI) ¡

Proposition ¡

New Work Item Proposal (NP) ¡

Commission ¡

Committee Draft (CD) ¡

Approbation ¡

Final Draft International Standard (FDIS) ¡

Enquête ¡

Draft International Standard (DIS) ¡

Publication ¡

International Standard (IS) ¡

standards proposition ¡

slide-35
SLIDE 35

LMF ¡

  • Modeling ¡Arabic ¡inflec@on ¡paradigms ¡according ¡to ¡the ¡LMF ¡standard ¡

– Aïda ¡Khemakhem ¡et ¡al. ¡ ¡2007 ¡

  • Automa@c ¡conversion ¡of ¡editorial ¡dic@onaries ¡to ¡LMF ¡

– Feten ¡Baccar ¡et ¡al. ¡2008, ¡Aïda ¡Khemakhem ¡et ¡al. ¡2009 ¡

  • Domain ¡ontology ¡genera@on ¡from ¡LMF ¡dic@onaries ¡

– Feten ¡Baccar ¡et ¡al. ¡2010 ¡

  • Proposed ¡standardized ¡representa@on ¡of ¡standard ¡Arabic ¡lexicons ¡

– Susanne ¡Salmon-­‑Alt ¡et ¡ ¡al ¡2013 ¡

  • Detec@on ¡of ¡anomalies ¡and ¡evalua@on ¡of ¡the ¡content ¡of ¡LMF ¡dic@onaries ¡

– Wafa ¡WALI ¡et ¡al. ¡2014 ¡

  • Realiza@on ¡of ¡a ¡system ¡of ¡produc@on ¡of ¡Arabic ¡dic@onaries ¡respec@ng ¡the ¡LMF ¡

standard ¡ – Mohammed ¡Reqqass ¡et ¡al. ¡2014 ¡

slide-36
SLIDE 36

LMF Example ¡

slide-37
SLIDE 37

LMF Example ¡

slide-38
SLIDE 38

TEI ¡

<TEI> <teiHeader> <name> NAFIS Arabic Stemming Gold Standard</name> ... ¡ </teiHeader> <text> <phr> <val>مﻢكﻚيﻲلﻞعﻊ دﺪجﺞلﻞاﺎبﺐ هﻪنﻦإﺈفﻒ سﺲاﺎسﺲأﺄ حﺢاﺎجﺞنﻦلﻞاﺎ</val> <w rend="مﻢكﻚيﻲلﻞعﻊ"> <choice n="14"> <seg> <m type="prefix"></m> <form type="base"> <m type="root">يﻲلﻞعﻊ</m> <m type="stem">يﻲَلﻞَعﻊ</m> </form> <m type="suffix">مﻢكﻚ</m> </seg> <seg> <m type="prefix"></m> <form type="base"> <m type="root">يﻲلﻞعﻊ</m> <m type="stem">َيﻲِلﻞعﻊ</m> </form> <m type="suffix">مﻢكﻚ</m></seg> ... </choice> </w> </phr> ... </text> </TEI>