nlp resources construc on standardiza on exploita on api
play

NLP resources: construc.on, standardiza.on, exploita.on - PowerPoint PPT Presentation

NLP resources: construc.on, standardiza.on, exploita.on & API Karim Bouzoubaa outline Exploita.on NLP resources Construc.on


  1. ¡ NLP ¡resources: ¡ ¡ construc.on, ¡standardiza.on, ¡ exploita.on ¡& ¡API ¡ ¡ ¡ ¡ Karim ¡Bouzoubaa ¡

  2. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  3. Exploita.on ¡

  4. Exploitation ¡ LRs ¡are ¡used ¡in ¡various ¡NLP ¡so7ware ¡tools: ¡ ¡ morphological, ¡syntac@c ¡and ¡seman@c ¡analysis ¡ • automa@c ¡transla@on ¡ • automa@c ¡genera@on ¡of ¡texts ¡ • spell-­‑checking ¡ • automa@c ¡summariza@on ¡ • handwri@ng ¡recogni@on ¡ • reformula@on ¡and ¡paraphrasing ¡ • informa@on ¡search ¡and ¡text ¡mining ¡ • 4 ¡

  5. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  6. NLP ¡ Resources ¡ ¡

  7. Resources ¡ Introduction – Definition Types Examples Evaluation criteria

  8. Introduc.on ¡-­‑ ¡Defini.on ¡ q The ¡key ¡to ¡NLT ¡development ¡is ¡the ¡Language ¡Resource ¡ q Resource ¡ produc@on ¡ takes ¡ a ¡ lot ¡ of ¡ effort ¡ and ¡ is ¡ very ¡ expensive ¡ ¡ Example: ¡ The ¡ Arabic ¡ standard ¡ LC-­‑STAR ¡ phone@c ¡ lexicon ¡ of ¡ the ¡ European ¡ Linguis@c ¡ Resource ¡ Associa@on ¡ (ELRA) ¡ with ¡ 110,271 ¡ entries ¡ costs ¡ 21250.00 ¡ EUR ¡ (for ¡ use ¡ in ¡ academic ¡research) ¡ Language resources are language-related data, accessible in an electronic format, and used for the development of NLP systems 8 ¡

  9. Types ¡– ¡2 ¡categories ¡ 1. Corpus ¡ • wriTen: ¡monolingual ¡texts, ¡mul@lingual ¡texts, ¡annoted ¡texts, ¡ treebanks ¡ • speech: ¡reading ¡texts ¡aloud, ¡speeches, ¡dialogues, ¡radio ¡and ¡ television ¡broadcasts ¡ • Mul@media: ¡images, ¡sounds ¡and ¡videos ¡ 2. Lexicon ¡ • monolingual ¡and ¡mul@lingual ¡Dic@onaries ¡ • Gaze@ers ¡(geographical ¡dic@onary) ¡ • Terminologies ¡ • ontologies ¡

  10. Content ¡of ¡a ¡lexicon ¡ An ¡entry ¡in ¡the ¡lexicon ¡may ¡contain ¡: ¡ ¡ • morphological, ¡ syntac@c, ¡ seman@c ¡ and ¡ pragma@c ¡ informa@on ¡ • the ¡gramma@cal ¡category ¡(noun, ¡verb, ¡etc.), ¡ ¡ o subcategory ¡proper@es ¡(transi@ve ¡verb ¡or ¡not, ¡masculine ¡ or ¡feminine) ¡ • seman@c ¡ informa@on ¡ (animated ¡ name, ¡ verb ¡ requiring ¡ a ¡ human ¡subject ¡

  11. Examples 12 ¡

  12. Oxford ¡ dic.onary ¡

  13. verbNet ¡

  14. Evalua@on ¡criteria q Formal ¡(regardless ¡of ¡content) ¡ § Size ¡ § Maintenance ¡(durability, ¡scalability) ¡ § Compa@bility ¡ q Func.onal ¡(language ¡criteria) ¡ § Lexicographic ¡annota@on ¡(existence ¡and ¡ relevance) ¡ § Intrinsic ¡rules

  15. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  16. Construc.on ¡

  17. Construc@on ¡ Produc.on ¡cycle ¡ Crea@ng ¡resources ¡ Example ¡(Contempory ¡Arabic) ¡ Reusing ¡ressources ¡ Example ¡of ¡free ¡resources ¡ Good ¡prac.ces ¡ ¡ Documenta@on ¡ Interoperability ¡ Viability ¡

  18. crea.ng ¡resources ¡ two approaches for developing LRs: ¡ q creating new resources q tuning existing resources ¡ 19 ¡

  19. crea.ng ¡resources ¡ Collect ¡ "authen@c" ¡ data, ¡ of ¡ a ¡ general ¡ nature ¡ or ¡ belonging ¡ to ¡ a ¡ par@cular ¡ sector ¡ of ¡ ac@vity, ¡ directly ¡ in ¡ digital ¡ form ¡ or, ¡ in ¡ some ¡cases, ¡by ¡digi@zing ¡them. ¡ 20 ¡

  20. Example of creating resources ¡ Contemporary Arabic ¡

  21. Resources’ ¡Reuse ¡ q The ¡opera@on ¡of ¡making ¡changes ¡to ¡a ¡resource ¡ for ¡the ¡purpose ¡of ¡performing ¡certain ¡func@ons ¡ and ¡ improving ¡ it ¡ in ¡ a ¡ different ¡ usage ¡ environment ¡from ¡the ¡original ¡one ¡ q Example : .... ¡ 22 ¡

  22. Example ¡of ¡free ¡resources ¡ Corpus ¡ q Corpus ¡of ¡Contemporary ¡Arabic ¡ q Khoja ¡POS ¡tagged ¡corpus ¡ q Quranic ¡Arabic ¡ q Collec@on ¡of ¡free ¡arabic ¡texts ¡and ¡books: ¡ - Almeshkat ¡ ¡ - Al-­‑Eman ¡ Lexicon ¡ q Buckwalter’s ¡list ¡of ¡Arabic ¡roots ¡ q Al-­‑Baheth ¡Al-­‑Arabi ¡ 23 ¡ ¡

  23. Good ¡prac@ces ¡ In ¡order ¡to ¡contribute ¡to ¡the ¡crea@on ¡of ¡a ¡set ¡of ¡ sustainable ¡ RLs, ¡ some ¡ principles ¡ must ¡ be ¡ respected: ¡ ¡ • Resource ¡documenta@on ¡ • Interoperability ¡of ¡resources 24 ¡

  24. Documenta.on ¡of ¡resources ¡ LRs ¡are ¡o7en ¡poorly ¡documented ¡or ¡undocumented ¡at ¡all. ¡ Documenta@on ¡should ¡be ¡as ¡comprehensive ¡as ¡possible, ¡ and ¡include ¡informa@on ¡on: ¡ • the ¡format ¡of ¡the ¡data ¡ • the ¡content ¡of ¡the ¡data ¡ • the ¡produc@on ¡context ¡ • the ¡possible ¡uses ¡ ¡ 25 ¡ ¡

  25. Resources interoperability ¡ q The ¡interoperability ¡of ¡LRs ¡is ¡the ¡ability ¡to ¡ operate ¡in ¡different ¡systems ¡ q The ¡formats ¡of ¡the ¡LRs ¡must ¡be ¡standard 26 ¡

  26. Interoperability – documentation - reuse ¡ Many ¡difficul@es ¡are ¡encountered ¡when ¡reusing ¡available ¡LRs ¡

  27. Interoperability – documentation - reuse ¡ • Contribute ¡ to ¡ the ¡ development ¡ of ¡ LRs ¡ respec@ng ¡ interoperability ¡rules ¡ – Availability ¡ – Portability ¡ – Reusability ¡ – normaliza@on ¡

  28. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  29. Standardiza.on ¡

  30. why? ¡ q How ¡to ¡integrate ¡exis@ng ¡resources ¡into ¡one's ¡own ¡ contexts? ¡ q How ¡to ¡separate ¡the ¡resources ¡from ¡the ¡tools ¡that ¡ manage ¡them?

  31. Panorama ¡ standardisation agencies: ¡ CNIS : China National Institute of Standardization ¡ FNOR : Agence Française de Normalisation ¡ DIN : Deutsches Institut für Normung ¡ ANSI : American National Standards Institute ¡ W3C : World Wide Web Consortium ¡ TEI : Text Encoding Initiative ¡ ISO : the International Organization for Standardization ¡ projects: ¡ LIRICS :Linguistic Infrastructure for Interoperable Resources and Systems ¡ EAGLES : Expert Advisory Group on Language Engineering Standards ¡ Multext : Multilingual Text Tools and Corpora ¡ research structures: ¡ CLARIN : Common Language Resources and Technology Infrastructure ¡ FLaReNet : Fostering Language Resources Network ¡ Alpage : Analyse Linguistique Profonde A Grande Echelle. ¡ ¡

  32. Organization ¡

  33. standards proposition ¡ Publication ¡ International Standard (IS) ¡ Approbation ¡ Final Draft International Standard (FDIS) ¡ Enquête ¡ Draft International Standard (DIS) ¡ Commission ¡ Committee Draft (CD) ¡ Préparatoire ¡ new project of the WG ¡ Proposition ¡ New Work Item Proposal (NP) ¡ Préliminaire ¡ Preliminary Work Item (PWI) ¡

  34. LMF ¡ Modeling ¡Arabic ¡inflec@on ¡paradigms ¡according ¡to ¡the ¡LMF ¡standard ¡ • – Aïda ¡Khemakhem ¡et ¡al. ¡ ¡2007 ¡ Automa@c ¡conversion ¡of ¡editorial ¡dic@onaries ¡to ¡LMF ¡ • – Feten ¡Baccar ¡et ¡al. ¡2008, ¡Aïda ¡Khemakhem ¡et ¡al. ¡2009 ¡ Domain ¡ontology ¡genera@on ¡from ¡LMF ¡dic@onaries ¡ • – Feten ¡Baccar ¡et ¡al. ¡2010 ¡ Proposed ¡standardized ¡representa@on ¡of ¡standard ¡Arabic ¡lexicons ¡ • – Susanne ¡Salmon-­‑Alt ¡et ¡ ¡al ¡2013 ¡ Detec@on ¡of ¡anomalies ¡and ¡evalua@on ¡of ¡the ¡content ¡of ¡LMF ¡dic@onaries ¡ • – Wafa ¡WALI ¡et ¡al. ¡2014 ¡ Realiza@on ¡of ¡a ¡system ¡of ¡produc@on ¡of ¡Arabic ¡dic@onaries ¡respec@ng ¡the ¡LMF ¡ • standard ¡ – Mohammed ¡Reqqass ¡et ¡al. ¡2014 ¡

  35. LMF Example ¡

  36. LMF Example ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend