Recent Advances in MULTIFLEX, a Morphological Generator of - - PowerPoint PPT Presentation

recent advances in multiflex a morphological generator of
SMART_READER_LITE
LIVE PREVIEW

Recent Advances in MULTIFLEX, a Morphological Generator of - - PowerPoint PPT Presentation

Recent Advances in MULTIFLEX, a Morphological Generator of Multi-Word Units Agata Savary November 17, 2008 Morfeusz/Multiflex Platform Aim: description of morphology and variation of compounds Information on the language level: classes,


slide-1
SLIDE 1

Recent Advances in MULTIFLEX, a Morphological Generator of Multi-Word Units

Agata Savary November 17, 2008

slide-2
SLIDE 2

Morfeusz/Multiflex Platform

◮ Aim: description of morphology and variation of

compounds

◮ Information on the language level: classes, categories and

values of the IPIPAN tagset

◮ Generating inflected forms of single words with Morfeusz ◮ Combining (by a graph) inflected forms of single words to

create inflected forms of compounds

◮ Unification and value inheritance for a compact description

slide-3
SLIDE 3

Example 1: Maria Skłodowska-Curie

Maria Skłodowska-Curie, Marii Skłodowskiej-Curie, . . . Skłodowska-Curie, Skłodowskiej-Curie, . . . Maria Skłodowska, Marii Skłodowskiej, . . . Maria Curie, Marii Curie, . . . Skłodowska, Skłodowskiej, . . .

slide-4
SLIDE 4

Annotation of components and inflection graph

Maria Skłodowska

  • Curie

$1 $2 $3 $4 $5 lemma: Maria class: subst homonym: 0 Nb: sg Case : nom Gen: f lemma: Skłodowska class: subst homonym: 0 Nb: sg Case : nom Gen: f <Gen=$1.Gen;Nb=$1.Nb;Case=$c>

<$1:Case=$c> <$2> <$3:Case=$c> <$4> <$5>

slide-5
SLIDE 5

Annotated forms

Maria Skłodowska-Curie Maria Skłodowska-Curie:subst:sg:nom:f Marii Skłodowskiej-Curie Maria Skłodowska-Curie:subst:sg:gen:f Marii Skłodowskiej-Curie Maria Skłodowska-Curie:subst:sg:dat:f Skłodowską-Curie Maria Skłodowska-Curie:subst:sg:inst:f Skłodowskiej Maria Skłodowska-Curie:subst:sg:loc:f

slide-6
SLIDE 6

Example 2: ulica Marii Skłodowskiej-Curie

ulica Marii Skłodowskiej-Curie, ulicy Marii Skłodowskiej-Curie, . . . ; ulica Marii Skłodowskiej, ulicy Marii Skłodowskiej, . . . ; ulica Marii Curie, ulicy Marii Curie, . . . ; ulica Skłodowskiej-Curie, ulicy Skłodowskiej-Curie, . . . ; ulica Skłodowskiej, ulicy Skłodowskiej, . . . ; Marii Skłodowskiej-Curie; Marii Skłodowskiej; Marii Curie; Skłodowskiej-Curie; Skłodowskiej

slide-7
SLIDE 7

Flat description of variants: ulica Marii Skłodowskiej-Curie

ulica Marii Skłodowskiej - Curie $1 $2 $3 $4 $5 $6 $7 lemma: ulica class: subst homonym: 0 Nb: sg Case : nom Gen: f <Gen=$1.Gen;Nb=$1.Nb;Case=$c>

<$1:Case=$c> <$2> <$3> <$4> <$5> <$6> <$7>

slide-8
SLIDE 8

New solution : embedded description of ulica Marii Skłodowskiej-Curie

ulica Marii Skłodowskiej-Curie $1 $2 $3 lemma: ulica class: subst homonym: 0 Nb: sg Case : nom Gen: f lemma: Maria Skłodowska-Curie class: subst homonym: 0 Nb: sg Case : gen Gen: f <Gen=$1.Gen;Nb=$1.Nb;Case=$c>

<$1:Case=$c> <$2> <$3:Case=gen>

slide-9
SLIDE 9

Morphology of numerals in the IPIPAN tagset

Two kinds of “traditional” numerals :

◮ Cardinal numerals (num) - a class on its own

◮ have a fixed number ◮ inflect for case, gender, and accomodability ◮ complex morpho-syntactic behaviour

◮ Ordinal numerals - behave morphologically as adjectives

◮ have a fixed number ◮ inflect for case, gender, and degree

Problem: how to describe multi-word numerals ?

  • their number is infinite
  • their are spelled with letters or digits (dwudziesty vs. 20.)

+ their vocabulary is small + their rules of creation are very regular

slide-10
SLIDE 10

Ordinal numerals - what we wish

◮ A canonical form for each numeral:

{dziesięcio-tysięczny, 10-cio-tysięczny, 10-tysięczny, 10000., 10 000.} ⇒ 10000

◮ A complete annotation: 10000:adj:sg:m1:nom, etc. (?) ◮ Morphological analysis:

dziesięcio-tysięczny ⇒ 10000:adj:sg:m1.m2.m3:nom

◮ Morphological generation:

10000:adj:sg:m1:nom ⇒ {dziesięcio-tysięczny, 10-cio-tysięczny, 10-tysięczny, 10000., 10 000.}

slide-11
SLIDE 11

Graph-based description: ordinal numerals 0-99 (simplified)

Info inside the boxes: textual variants Info under the boxes: canonical forms

slide-12
SLIDE 12

Sub-graph: LiczPorz1-9

slide-13
SLIDE 13

Sub-graph: LiczPorz10-19

slide-14
SLIDE 14

Sub-graph: LiczPorz20-99

slide-15
SLIDE 15

Perspective: using graphs for “inflection” of compound numerals in MULTIFLEX

ulica 11 Listopada 1918 roku $1 $2 $3 $4 $5 $6 $7 $8 $9 lemma: ulica class: subst homonym: 0 Nb: sg Case : nom Gen: f lemma: 11 class: adj homonym: 0 Nb: sg Case: gen Gen: m3 Deg: pos lemma: 1918 class: adj homonym: 0 Nb: sg Case: gen Gen: m3 Deg: pos

slide-16
SLIDE 16

“Inflected forms” to be generated

ulica 11 Listopada 1918 roku ulica 11 Listopada 1918 11 Listopada 1918 roku ulica Jednastego Listopada 1918 roku ulica 11-ego Listopada 1918 roku ulica 11 Listopada Tysiąc Dziewięćset Osiemnastego roku ? ulica 11 Listopada Osiemnastego roku etc.

slide-17
SLIDE 17

One step further

ulica 11 Listopada 1918 roku $1 $2 $3 lemma: ulica class: subst homonym: 0 Nb: sg Case : nom Gen: f lemma: 11.11.1918 class: subst? homonym: 0 Nb: sg Case: gen Gen: m3

Graphs describe possible dates and their variants: 11.11.1918 11/11/1918 11 listopada 1918 11 listopada osiemnastego roku jedenasty listopada osiemnastego roku etc.