Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn - - PowerPoint PPT Presentation

morfologick analyz tor slovensk ho jazyka
SMART_READER_LITE
LIVE PREVIEW

Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn - - PowerPoint PPT Presentation

Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn stav . tra SA V Bratislava Gramatika W mnoina vetkch slov v jazyku L W vytvorenie podmnon lexm z kadej lexmy vyberieme


slide-1
SLIDE 1

Morfologický analyzátor slovenského jazyka

Radovan Garabík Jazykovedný ústav Ľ. Štúra SA V Bratislava

slide-2
SLIDE 2

Gramatika

  • W – množina všetkých slov v jazyku
  • vytvorenie podmnožín – lexém

L⊂W

  • z každej lexémy vyberieme jedno slovo

l∊L a nazveme ho lemma

  • každému slovu w∊W priradíme množinu

gramatických kategó rií Gw = {g1, g2, g3, …} ∊ G

slide-3
SLIDE 3
  • bijektívne zobrazenie G

↦ T mapujúce gramatické kategórie na reťazce

  • funkcia fG: l

w → z lemmy vytvára slovo

slide-4
SLIDE 4

1. 2. 3. 4. 5. 6. 7. S Substantives S A F U Paradigm substantive adjective mixed incomplete m i f n Gender

  • masc. animate
  • masc. inanimate

feminine neutrum s p

  • Number

singular plural unknown 1 2 3 4 5 6 7

  • Case

nominative genitive dative accusative vocative locative instrumental unspecified A Adjectives A F U Paradigm adjective mixed incomplete m i f n

  • Gender
  • masc. animate
  • masc. inanimate

feminine neutrum unspecified s p

  • Number

singular plural unknown 1 2 3 4 5 6 7

  • Case

nominative genitive dative accusative vocative locative instrumental unspecified x y z Grade positive/irrelevant comparative superlative P Pronouns S A P F U D Paradigm substantive adjective pronoun mixed incomplete adverbial m i f n

  • h

Gender

  • masc. animate
  • masc. inanimate

feminine neutrum unspecified general s p

  • Number

singular plural unknown 1 2 3 4 5 6 7

  • Case

nominative genitive dative accusative vocative locative instrumental unspecified g Agglutinated agglutinated N Numerals S A N F U D X Paradigm substantive adjective numeral mixed incomplete adverbial solitaire use m i f n

  • Gender
  • masc. animate
  • masc. inanimate

feminine neutrum unspecified s p

  • Number

singular plural unknown 1 2 3 4 5 6 7

  • Case

nominative genitive dative accusative vocative locative instrumental unspecified V Verbs I K M Form infinitive indicative imperative d e j Aspect perfective imperfective ambivalent s p Number singular plural a b c Person first second third m i f Gender

  • masc. animate
  • masc. inanimate

feminine + – Negation affirmative negative

slide-5
SLIDE 5

1. 2. 3. 4. 5. 6. 7. H L B transgressive l-participle futurum n

  • h

neutrum unspecified general G Participles k t Type active passive m i f n

  • Gender
  • masc. animate
  • masc. inanimate

feminine neutrum unspecified s p

  • Number

singular plural unknown 1 2 3 4 5 6 7

  • Case

nominative genitive dative accusative vocative locative instrumental unspecified x y z Grade positive/irrelevant comparative superlative D Adverbs x y z Grade positive/irrelevant comparative superlative E Prepositions v u Form vocalised non-vocalised 2 3 4 6 7

  • Binds with

genitive dative accusative locative instrumental unspecified O Conjunctions Y contains conditional morpheme by T Particles Y contains conditional morpheme by

J Interjection R Reflexive particle/pronoun sa, si Y Morpheme by Z Punctuation W Abbreviation Q Unknown POS type # Not a word % Citation element (e.g. foreign language word) Digits :r Proper noun :q Incorrect spelling

slide-6
SLIDE 6

Levenštejnove operácie

e = (o, s, d); o {replace, delete, insert} ∊ transformácia reťazca S→D: (e1, e2, e3 ....) Levenštejnova vzdialenosť: ρ(s1, s2) – minimálny počet levenštejnových ope rácií potrebných na transformáciu s1→ s2 fe=((e1, e2, e3 ....), D) funkcia fe ≡ fG aplikovaná na lemmu l: skloňujeme l podľa vzoru f

slide-7
SLIDE 7

Implementácia

šablóny vzorov

ucho ucho_2 # ucho: orgán sluchu, arch. tvar G pl. SSns1: ucho SSns2: ucha SSns3: uchu SSns4: ucho SSns5: ucho SSns6: uchu SSns7: uchom SSnp1: uši SSnp2: ušú uší SSnp3: ušiam SSnp4: uši SSnp5: uši SSnp7: ušami SSnp6: ušiach

slide-8
SLIDE 8
  • príslušnosť slov ku vzoro

m

abbé: abbé abiturient: chlap ablegát: chlap abonent: chlap absces: med absentér: chlap absint: med absolutista: futbalista absolutizmus: rytmus absolvent: chlap abstinent: chlap abstrakcionista: futbalista

slide-9
SLIDE 9

Vychytávky

  • levenštejnová ope

rácia: pozícia, typ

  • pozície pre levenštejnové operácie

počítame odzadu slova ( prípony)

  • NFKD normalizácia
  • dlaň, loď: lode, dlane
slide-10
SLIDE 10

Napĺňanie vzorov

  • cvičení lingvisti
  • moderný progresívny systém na báze CLI
  • nové slovo: skloňovanie podľa

existujúceho vzoru

slide-11
SLIDE 11

Prístup k údajom

  • cdb tabuľky:
  • lemma→forms
  • lemma→tag+form
  • form→lemma(s)
  • form→tag+lemma
slide-12
SLIDE 12
  • python API
  • napodobenie slovníka (

dictionary)

  • C API
  • rýchlosť
  • 1 GHz Pentium M
  • generuje 1 000 000 slov za

sekundu

  • analyzuje 300 000 slov za sekundu
slide-13
SLIDE 13

Stav

  • 878 vzorov
  • 54243 slov v základno

m tvare

  • 1614840 (alebo 607519) slovných tva

rov

  • chýba: negácia, supe

rlatív, číslovky

slide-14
SLIDE 14

Pokrytie

  • 18.50% interpunkcia
  • zo zvyšku:
  • 3.19% ne-
  • 1.00% naj-
  • 92.50% sa nachádza v databáze
  • z toho:
  • 26.00% jednoznačne určená le

mma a gramatické kategórie z tvaru, okrem toho:

slide-15
SLIDE 15
  • 61.45% jednoznačne určená le

mma, ale nie gramatické kategórie, čiže:

  • 81.44% jednoznačne určená le

mma

slide-16
SLIDE 16

Obmedzenia

  • zložené slová
  • derivačná morfológia
  • prefixy
  • dezambiguácia
  • neznáme slová
  • vlastné mená