Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn - - PowerPoint PPT Presentation
Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn - - PowerPoint PPT Presentation
Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn stav . tra SA V Bratislava Gramatika W mnoina vetkch slov v jazyku L W vytvorenie podmnon lexm z kadej lexmy vyberieme
Gramatika
- W – množina všetkých slov v jazyku
- vytvorenie podmnožín – lexém
L⊂W
- z každej lexémy vyberieme jedno slovo
l∊L a nazveme ho lemma
- každému slovu w∊W priradíme množinu
gramatických kategó rií Gw = {g1, g2, g3, …} ∊ G
- bijektívne zobrazenie G
↦ T mapujúce gramatické kategórie na reťazce
- funkcia fG: l
w → z lemmy vytvára slovo
1. 2. 3. 4. 5. 6. 7. S Substantives S A F U Paradigm substantive adjective mixed incomplete m i f n Gender
- masc. animate
- masc. inanimate
feminine neutrum s p
- Number
singular plural unknown 1 2 3 4 5 6 7
- Case
nominative genitive dative accusative vocative locative instrumental unspecified A Adjectives A F U Paradigm adjective mixed incomplete m i f n
- Gender
- masc. animate
- masc. inanimate
feminine neutrum unspecified s p
- Number
singular plural unknown 1 2 3 4 5 6 7
- Case
nominative genitive dative accusative vocative locative instrumental unspecified x y z Grade positive/irrelevant comparative superlative P Pronouns S A P F U D Paradigm substantive adjective pronoun mixed incomplete adverbial m i f n
- h
Gender
- masc. animate
- masc. inanimate
feminine neutrum unspecified general s p
- Number
singular plural unknown 1 2 3 4 5 6 7
- Case
nominative genitive dative accusative vocative locative instrumental unspecified g Agglutinated agglutinated N Numerals S A N F U D X Paradigm substantive adjective numeral mixed incomplete adverbial solitaire use m i f n
- Gender
- masc. animate
- masc. inanimate
feminine neutrum unspecified s p
- Number
singular plural unknown 1 2 3 4 5 6 7
- Case
nominative genitive dative accusative vocative locative instrumental unspecified V Verbs I K M Form infinitive indicative imperative d e j Aspect perfective imperfective ambivalent s p Number singular plural a b c Person first second third m i f Gender
- masc. animate
- masc. inanimate
feminine + – Negation affirmative negative
1. 2. 3. 4. 5. 6. 7. H L B transgressive l-participle futurum n
- h
neutrum unspecified general G Participles k t Type active passive m i f n
- Gender
- masc. animate
- masc. inanimate
feminine neutrum unspecified s p
- Number
singular plural unknown 1 2 3 4 5 6 7
- Case
nominative genitive dative accusative vocative locative instrumental unspecified x y z Grade positive/irrelevant comparative superlative D Adverbs x y z Grade positive/irrelevant comparative superlative E Prepositions v u Form vocalised non-vocalised 2 3 4 6 7
- Binds with
genitive dative accusative locative instrumental unspecified O Conjunctions Y contains conditional morpheme by T Particles Y contains conditional morpheme by
J Interjection R Reflexive particle/pronoun sa, si Y Morpheme by Z Punctuation W Abbreviation Q Unknown POS type # Not a word % Citation element (e.g. foreign language word) Digits :r Proper noun :q Incorrect spelling
Levenštejnove operácie
e = (o, s, d); o {replace, delete, insert} ∊ transformácia reťazca S→D: (e1, e2, e3 ....) Levenštejnova vzdialenosť: ρ(s1, s2) – minimálny počet levenštejnových ope rácií potrebných na transformáciu s1→ s2 fe=((e1, e2, e3 ....), D) funkcia fe ≡ fG aplikovaná na lemmu l: skloňujeme l podľa vzoru f
Implementácia
šablóny vzorov
ucho ucho_2 # ucho: orgán sluchu, arch. tvar G pl. SSns1: ucho SSns2: ucha SSns3: uchu SSns4: ucho SSns5: ucho SSns6: uchu SSns7: uchom SSnp1: uši SSnp2: ušú uší SSnp3: ušiam SSnp4: uši SSnp5: uši SSnp7: ušami SSnp6: ušiach
- príslušnosť slov ku vzoro
m
abbé: abbé abiturient: chlap ablegát: chlap abonent: chlap absces: med absentér: chlap absint: med absolutista: futbalista absolutizmus: rytmus absolvent: chlap abstinent: chlap abstrakcionista: futbalista
Vychytávky
- levenštejnová ope
rácia: pozícia, typ
- pozície pre levenštejnové operácie
počítame odzadu slova ( prípony)
- NFKD normalizácia
- dlaň, loď: lode, dlane
Napĺňanie vzorov
- cvičení lingvisti
- moderný progresívny systém na báze CLI
- nové slovo: skloňovanie podľa
existujúceho vzoru
Prístup k údajom
- cdb tabuľky:
- lemma→forms
- lemma→tag+form
- form→lemma(s)
- form→tag+lemma
- python API
- napodobenie slovníka (
dictionary)
- C API
- rýchlosť
- 1 GHz Pentium M
- generuje 1 000 000 slov za
sekundu
- analyzuje 300 000 slov za sekundu
Stav
- 878 vzorov
- 54243 slov v základno
m tvare
- 1614840 (alebo 607519) slovných tva
rov
- chýba: negácia, supe
rlatív, číslovky
Pokrytie
- 18.50% interpunkcia
- zo zvyšku:
- 3.19% ne-
- 1.00% naj-
- 92.50% sa nachádza v databáze
- z toho:
- 26.00% jednoznačne určená le
mma a gramatické kategórie z tvaru, okrem toho:
- 61.45% jednoznačne určená le
mma, ale nie gramatické kategórie, čiže:
- 81.44% jednoznačne určená le
mma
Obmedzenia
- zložené slová
- derivačná morfológia
- prefixy
- dezambiguácia
- neznáme slová
- vlastné mená