morfologick analyz tor slovensk ho jazyka
play

Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn - PowerPoint PPT Presentation

Morfologick analyztor slovenskho jazyka Radovan Garabk Jazykovedn stav . tra SA V Bratislava Gramatika W mnoina vetkch slov v jazyku L W vytvorenie podmnon lexm z kadej lexmy vyberieme


  1. Morfologický analyzátor slovenského jazyka Radovan Garabík Jazykovedný ústav Ľ. Štúra SA V Bratislava

  2. Gramatika ● W – množina všetkých slov v jazyku L ⊂ W ● vytvorenie podmnožín – lexém ● z každej lexémy vyberieme jedno slovo l ∊ L a nazveme ho lemma ● každému slovu w ∊ W priradíme množinu gramatických kategó rií G w = {g 1 , g 2 , g 3 , …} ∊ G

  3. ↦ T mapujúce ● bijektívne zobrazenie G gramatické kategórie na reťazce → z lemmy vytvára slovo ● funkcia f G : l w

  4. 1. 2. 3. 4. 5. 6. 7. S Substantives Paradigm Gender Number Case S substantive m masc. animate s singular 1 nominative A adjective i masc. inanimate p plural 2 genitive F mixed f feminine o unknown 3 dative U incomplete n neutrum 4 accusative 5 vocative 6 locative 7 instrumental o unspecified A Adjectives Paradigm Gender Number Case Grade A adjective m masc. animate s singular 1 nominative x positive/irrelevant F mixed i masc. inanimate p plural 2 genitive y comparative U incomplete f feminine o unknown 3 dative z superlative n neutrum 4 accusative o unspecified 5 vocative 6 locative 7 instrumental o unspecified P Pronouns Paradigm Gender Number Case Agglutinated S substantive m masc. animate s singular 1 nominative g agglutinated A adjective i masc. inanimate p plural 2 genitive P pronoun f feminine o unknown 3 dative F mixed n neutrum 4 accusative U incomplete o unspecified 5 vocative D adverbial h general 6 locative 7 instrumental o unspecified N Numerals Paradigm Gender Number Case S substantive m masc. animate s singular 1 nominative A adjective i masc. inanimate p plural 2 genitive N numeral f feminine o unknown 3 dative F mixed n neutrum 4 accusative U incomplete o unspecified 5 vocative D adverbial 6 locative X solitaire use 7 instrumental o unspecified V Verbs Form Aspect Number Person Gender Negation I infinitive d perfective s singular a first m masc. animate + affirmative K indicative e imperfective p plural b second i masc. inanimate – negative M imperative j ambivalent c third f feminine

  5. 1. 2. 3. 4. 5. 6. 7. H transgressive n neutrum L l -participle o unspecified B futurum h general G Participles Type Gender Number Case Grade k active m masc. animate s singular 1 nominative x positive/irrelevant t passive i masc. inanimate p plural 2 genitive y comparative f feminine o unknown 3 dative z superlative n neutrum 4 accusative o unspecified 5 vocative 6 locative 7 instrumental o unspecified D Adverbs Grade x positive/irrelevant y comparative z superlative E Prepositions Form Binds with v vocalised 2 genitive u non-vocalised 3 dative 4 accusative 6 locative 7 instrumental o unspecified O Conjunctions Y contains conditional morpheme by T Particles Y contains conditional morpheme by J Interjection # Not a word R Reflexive particle/pronoun sa, si % Citation element (e.g. foreign language word) Y Morpheme by 0 Digits Z Punctuation :r Proper noun W Abbreviation :q Incorrect spelling Q Unknown POS type

  6. Levenštejnove operácie e = (o, s, d); o {replace, delete, insert} ∊ transformácia reťazca S→D: (e 1 , e 2 , e 3 ....) Levenštejnova vzdialenosť: ρ(s 1 , s 2 ) – minimálny počet levenštejnových ope rácií potrebných na transformáciu s 1 → s 2 f e =((e 1 , e 2 , e 3 ....), D) funkcia f e ≡ f G aplikovaná na lemmu l : skloňujeme l podľa vzoru f

  7. Implementácia šablóny vzorov ucho ucho_2 # ucho: orgán sluchu, arch. tvar G pl. SSns1: ucho SSns2: ucha SSns3: uchu SSns4: ucho SSns5: ucho SSns6: uchu SSns7: uchom SSnp1: uši SSnp2: ušú uší SSnp3: ušiam SSnp4: uši SSnp5: uši SSnp7: ušami SSnp6: ušiach

  8. ● príslušnosť slov ku vzoro m abbé: abbé abiturient: chlap ablegát: chlap abonent: chlap absces: med absentér: chlap absint: med absolutista: futbalista absolutizmus: rytmus absolvent: chlap abstinent: chlap abstrakcionista: futbalista

  9. Vychytávky ● levenštejnová ope rácia: pozícia, typ ● pozície pre levenštejnové operácie počítame odzadu slova ( prípony) ● NFKD normalizácia ● dlaň, loď: lode, dlane

  10. Napĺňanie vzorov ● cvičení lingvisti ● moderný progresívny systém na báze CLI ● nové slovo: skloňovanie podľa existujúceho vzoru

  11. Prístup k údajom • cdb tabuľky: • lemma→forms • lemma→tag+form • form→lemma(s) • form→tag+lemma

  12. • python API • napodobenie slovníka ( dictionary) • C API • rýchlosť • 1 GHz Pentium M • generuje 1 000 000 slov za sekundu • analyzuje 300 000 slov za sekundu

  13. Stav ● 878 vzorov ● 54243 slov v základno m tvare ● 1614840 (alebo 607519) slovných tva rov ● chýba: negácia, supe rlatív, číslovky

  14. Pokrytie ● 18.50% interpunkcia ● zo zvyšku: ● 3.19% ne- ● 1.00% naj- ● 92.50% sa nachádza v databáze ● z toho: ● 26.00% jednoznačne určená le mma a gramatické kategórie z tvaru, okrem toho:

  15. ● 61.45% jednoznačne určená le mma, ale nie gramatické kategórie, čiže: ● 81.44% jednoznačne určená le mma

  16. Obmedzenia • zložené slová • derivačná morfológia • prefixy • dezambiguácia • neznáme slová • vlastné mená

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend