Natural Language Processing Morphology Artificial Intelligence - - PowerPoint PPT Presentation
Natural Language Processing Morphology Artificial Intelligence - - PowerPoint PPT Presentation
Natural Language Processing Morphology Artificial Intelligence Lecture 7 Karim Bouzoubaa Content Introduction Why? Morphological processes Types of Morphemes Morphology in NLP computational morphology Tools
Content
- Introduction
- Why?
- Morphological processes
- Types of Morphemes
- Morphology in NLP – computational morphology
- Tools
Introduction
- Morphology ¡is ¡the ¡domain ¡of ¡linguis5cs ¡that
¡ analyzes ¡the ¡internal ¡structure ¡of ¡words ¡
- According ¡ to ¡ the ¡ classical ¡ approach ¡ in
¡ linguis5cs, ¡ words ¡ are ¡ formed ¡ of ¡ morphemes, ¡which ¡are ¡the ¡minimal ¡(that ¡is, ¡ non-‑decomposable) ¡ linguis5c ¡ units ¡ that ¡ carry ¡meaning ¡
why?
- Many ¡ language ¡ processing ¡ applica5ons ¡ need ¡ to
¡ extract ¡the ¡informa5on ¡encoded ¡in ¡the ¡words ¡
– Parsers ¡ which ¡ analyze ¡ sentence ¡ structure ¡ need ¡ to ¡ know/check ¡agreement ¡between ¡
- subjects ¡and ¡verbs ¡
- Adjec5ves ¡and ¡nouns ¡
– Informa5on ¡retrieval ¡systems ¡benefit ¡from ¡know ¡what ¡ the ¡stem ¡of ¡a ¡word ¡is ¡ – Machine ¡transla5on ¡systems ¡need ¡to ¡analyze ¡words ¡to ¡ their ¡ components ¡ and ¡ generate ¡ words ¡ with ¡ specific ¡ features ¡in ¡the ¡target ¡language ¡
computational morphology
computational morphology - analysis
computational morphology - generation
Morphological processes
- Three ¡ main ¡ morphological ¡ processes, ¡ used
¡ in ¡many ¡languages, ¡can ¡be ¡dis5nguished: ¡
– Inflec5on ¡(قاصلإ) ¡ – Deriva5on ¡(قاقتشا) ¡ – Compounding ¡(بيكرت) ¡
inflection
- Phenomena of declination and conjugation
(change of number, gender, time, person, mode and case). It does not change the POS
- f a word
- Horse
Horses
- Eat
eating
- Likes
liked
inflection
- Inflection does not induce a grammatical category change
- The various words linked by inflection (or inflected forms)
are by lemmatization, represented by a single form, the lemma, which corresponds for the English language
- to the infinitive of the verbs
- to the masculine singular of the adjectives
- and to the singular for the nouns
Word Eating Liked strongs schools Lemma eat like strong school
inflection
- For the Arabic language, the stem represents the
word without the prefix and the suffix, and the lemma corresponds to the singular of the stem for the nouns and for the verbs with the past form conjugated to the third person of the singular of their stems
Derivation
- Formation of new words thanks to the addition of
affixes to the root
- Derivational morphology produces a new word with
usually a different part-of-speech category.
– e.g., make a verb from a noun.
- The new word is said to be derived from the old word
– happy (Adj) ⇒ happi+ness (Noun) – nation/national/nationalise/ – nationalist/nationalism/
Derivation
- In French, we can distinguish three derivational
- perations:
– derivation by prefixation [prefix + root] (precancer = [pre- cancer]) – derivation by suffixation [root+ suffix] (cancerous = [cancer + them]) – para synthetic training [prefix + root+ suffix] (intravenous = [intra + vein + euse])
Derivation
- In Arabic, the derivation is done by applying models to
the roots
Composition
- Combina5on ¡ of ¡ two ¡ or ¡ more ¡ bases ¡ to ¡ form ¡ a ¡ new
¡ word ¡
- For ¡ example, ¡ you ¡ can ¡ add ¡ a ¡ free ¡ morpheme ¡ to
¡ another ¡free ¡morpheme ¡(eg ¡blackboard, ¡underflow, ¡overflow) ¡
- In ¡Arabic, ¡the ¡composi5on ¡is ¡present ¡essen5ally ¡in ¡the
¡ proper ¡names ¡(ملعلا ¡ءامسأ). ¡
Types of morphemes
- The ¡stem: ¡it ¡corresponds ¡to ¡what ¡remains ¡of ¡the ¡word ¡once ¡the
¡ flexional ¡ affixes ¡ removed. ¡ It ¡ does ¡ not ¡ therefore ¡ necessarily ¡ cons5tute ¡ an ¡ atomic ¡ en5ty ¡ and ¡ can ¡ be ¡ further ¡ decomposed ¡ into ¡deriva5onal ¡and ¡radical ¡affixes ¡
- The ¡lemma: ¡it ¡carries ¡the ¡main ¡meaning ¡of ¡the ¡word ¡
- The ¡root: ¡is ¡an ¡abstract ¡en5ty, ¡bearing ¡common ¡sense ¡to ¡all ¡the
¡ words ¡formed ¡from ¡this ¡root ¡
- The ¡words ¡base, ¡radical ¡and ¡root ¡refer ¡to ¡very ¡similar ¡no5ons ¡
Types of morphemes
- Affix ¡(دئازلا): ¡By ¡adding ¡to ¡a ¡root ¡or ¡radical, ¡it ¡creates ¡a
¡ new ¡word ¡while ¡changing ¡the ¡meaning ¡or ¡func5on ¡
– Prefix ¡(قباسلا) : ¡Affix ¡who ¡stands ¡before ¡the ¡radical ¡ – Suffix ¡(قحللا): ¡Affix ¡who ¡places ¡himself ¡aRer ¡the ¡radical ¡ – Infix ¡(لخاد) : ¡Affix ¡that ¡can ¡be ¡placed ¡in ¡the ¡middle ¡of ¡the ¡ radical, ¡following ¡phonological ¡rules ¡of ¡placement ¡
Types of morphemes
Root Lemma
(prefix)
Computational morphology
Computational morphology
Computational morphology
Morphology in NLP
- Stemming: ¡it ¡consists ¡in ¡segmen5ng ¡the ¡word ¡in ¡ ¡
– prefix ¡+ ¡stem ¡+ ¡suffix ¡
- Lemma5zing: ¡ it ¡ brings ¡ back ¡ the ¡ (inflec5onal)
¡ variants ¡ of ¡ the ¡ same ¡ word ¡ to ¡ their ¡ canonical ¡ form ¡which ¡is ¡the ¡lemma ¡
- Roo5ng: ¡it ¡aims ¡to ¡search ¡for ¡the ¡roots ¡of ¡words. ¡
¡
Morphology in NLP
- Morpho-‑syntac5c ¡analysis: ¡it ¡consists ¡of ¡analyzing ¡each
¡ word ¡to ¡associate ¡various ¡types ¡of ¡informa5on ¡such ¡as ¡ its ¡gramma5cal ¡category, ¡its ¡morphological ¡features ¡as ¡ well ¡as ¡the ¡corresponding ¡lemma ¡
Morphology in NLP
- Stemming: ¡it ¡consists ¡in ¡segmen5ng ¡the ¡word ¡in ¡ ¡
– prefix ¡+ ¡stem ¡+ ¡suffix ¡
- Lemma5zing: ¡ it ¡ brings ¡ back ¡ the ¡ (inflec5onal)
¡ variants ¡ of ¡ the ¡ same ¡ word ¡ to ¡ their ¡ canonical ¡ form ¡which ¡is ¡the ¡lemma ¡
- Roo5ng: ¡it ¡aims ¡to ¡search ¡for ¡the ¡roots ¡of ¡words. ¡
¡
ambiguity
disambiguation
disambiguation
implementation
- implementa5on ¡ approaches ¡ for ¡ computa5onal
¡ morphology: ¡
– List ¡all ¡word-‑forms ¡as ¡a ¡database ¡ – Heuris5c/rule ¡based ¡affix ¡stripping ¡ – Finite ¡state ¡approaches ¡
demo
- h W p s : / / w w w . y o u t u b e . c o m / w a t c h ?
v=yGKTphqxR9Q ¡
- hWp://www.nltk.org/howto/stem.html ¡
- www.gate.ac.uk ¡ ¡
- hWp://arabic.emi.ac.ma:8080/SafarWeb_V2/ ¡
- hWp://arabic.emi.ac.ma/safar/ ¡