recent advances in multiflex a morphological generator of
play

Recent Advances in MULTIFLEX, a Morphological Generator of - PowerPoint PPT Presentation

Recent Advances in MULTIFLEX, a Morphological Generator of Multi-Word Units Agata Savary November 17, 2008 Morfeusz/Multiflex Platform Aim: description of morphology and variation of compounds Information on the language level: classes,


  1. Recent Advances in MULTIFLEX, a Morphological Generator of Multi-Word Units Agata Savary November 17, 2008

  2. Morfeusz/Multiflex Platform ◮ Aim: description of morphology and variation of compounds ◮ Information on the language level: classes, categories and values of the IPIPAN tagset ◮ Generating inflected forms of single words with Morfeusz ◮ Combining (by a graph ) inflected forms of single words to create inflected forms of compounds ◮ Unification and value inheritance for a compact description

  3. Example 1: Maria Skłodowska-Curie Maria Skłodowska-Curie, Marii Skłodowskiej-Curie, . . . Skłodowska-Curie, Skłodowskiej-Curie, . . . Maria Skłodowska, Marii Skłodowskiej, . . . Maria Curie, Marii Curie, . . . Skłodowska, Skłodowskiej, . . .

  4. Annotation of components and inflection graph Maria Skłodowska - Curie $1 $2 $3 $4 $5 lemma: Maria lemma: Skłodowska class: subst class: subst homonym: 0 homonym: 0 Nb: sg Nb: sg Case : nom Case : nom Gen: f Gen: f <$1:Case=$c> <$2> <$3:Case=$c> <$4> <$5> <Gen=$1.Gen;Nb=$1.Nb;Case=$c>

  5. Annotated forms Maria Skłodowska-Curie Maria Skłodowska-Curie:subst:sg: nom :f Marii Skłodowskiej-Curie Maria Skłodowska-Curie:subst:sg: gen :f Marii Skłodowskiej-Curie Maria Skłodowska-Curie:subst:sg: dat :f Skłodowską-Curie Maria Skłodowska-Curie:subst:sg: inst :f Skłodowskiej Maria Skłodowska-Curie:subst:sg: loc :f

  6. Example 2: ulica Marii Skłodowskiej-Curie ulica Marii Skłodowskiej-Curie, ulicy Marii Skłodowskiej-Curie, . . . ; ulica Marii Skłodowskiej, ulicy Marii Skłodowskiej, . . . ; ulica Marii Curie, ulicy Marii Curie, . . . ; ulica Skłodowskiej-Curie, ulicy Skłodowskiej-Curie, . . . ; ulica Skłodowskiej, ulicy Skłodowskiej, . . . ; Marii Skłodowskiej-Curie ; Marii Skłodowskiej ; Marii Curie ; Skłodowskiej-Curie ; Skłodowskiej

  7. Flat description of variants: ulica Marii Skłodowskiej-Curie ulica Marii Skłodowskiej - Curie $1 $2 $3 $4 $5 $6 $7 lemma: ulica class: subst homonym: 0 Nb: sg Case : nom Gen: f <$5> <$6> <$7> <$1:Case=$c> <$2> <$3> <$4> <Gen=$1.Gen;Nb=$1.Nb;Case=$c>

  8. New solution : embedded description of ulica Marii Skłodowskiej-Curie ulica Marii Skłodowskiej-Curie $1 $2 $3 lemma: ulica lemma: Maria Skłodowska-Curie class: subst class: subst homonym: 0 homonym: 0 Nb: sg Nb: sg Case : nom Case : gen Gen: f Gen: f <$1:Case=$c> <$2> <$3:Case=gen> <Gen=$1.Gen;Nb=$1.Nb;Case=$c>

  9. Morphology of numerals in the IPIPAN tagset Two kinds of “traditional” numerals : ◮ Cardinal numerals ( num ) - a class on its own ◮ have a fixed number ◮ inflect for case, gender, and accomodability ◮ complex morpho-syntactic behaviour ◮ Ordinal numerals - behave morphologically as adjectives ◮ have a fixed number ◮ inflect for case, gender, and degree Problem: how to describe multi-word numerals ? - their number is infinite - their are spelled with letters or digits (dwudziesty vs. 20.) + their vocabulary is small + their rules of creation are very regular

  10. Ordinal numerals - what we wish ◮ A canonical form for each numeral: { dziesięcio-tysięczny, 10-cio-tysięczny, 10-tysięczny, 10000., 10 000. } ⇒ 10000 ◮ A complete annotation: 10000:adj:sg:m1:nom , etc. (?) ◮ Morphological analysis: dziesięcio-tysięczny ⇒ 10000:adj:sg:m1.m2.m3:nom ◮ Morphological generation: 10000:adj:sg:m1:nom ⇒ { dziesięcio-tysięczny, 10-cio-tysięczny, 10-tysięczny, 10000., 10 000. }

  11. Graph-based description: ordinal numerals 0-99 (simplified) Info inside the boxes: textual variants Info under the boxes: canonical forms

  12. Sub-graph: LiczPorz1-9

  13. Sub-graph: LiczPorz10-19

  14. Sub-graph: LiczPorz20-99

  15. Perspective: using graphs for “inflection” of compound numerals in MULTIFLEX ulica 11 Listopada 1918 roku $1 $2 $3 $4 $5 $6 $7 $8 $9 lemma: 11 lemma: 1918 lemma: ulica class: adj class: adj class: subst homonym: 0 homonym: 0 homonym: 0 Nb: sg Nb: sg Nb: sg Case: gen Case: gen Case : nom Gen: m3 Gen: m3 Gen: f Deg: pos Deg: pos

  16. “Inflected forms” to be generated ulica 11 Listopada 1918 roku ulica 11 Listopada 1918 11 Listopada 1918 roku ulica Jednastego Listopada 1918 roku ulica 11-ego Listopada 1918 roku ulica 11 Listopada Tysiąc Dziewięćset Osiemnastego roku ? ulica 11 Listopada Osiemnastego roku etc.

  17. One step further ulica 11 Listopada 1918 roku $1 $2 $3 lemma: ulica lemma: 11.11.1918 class: subst class: subst? homonym: 0 homonym: 0 Nb: sg Nb: sg Case : nom Case: gen Gen: f Gen: m3 Graphs describe possible dates and their variants: 11.11.1918 11/11/1918 11 listopada 1918 11 listopada osiemnastego roku jedenasty listopada osiemnastego roku etc.

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend