Natural Language Processing Morphology Artificial Intelligence - - PowerPoint PPT Presentation

natural language processing morphology artificial
SMART_READER_LITE
LIVE PREVIEW

Natural Language Processing Morphology Artificial Intelligence - - PowerPoint PPT Presentation

Natural Language Processing Morphology Artificial Intelligence Lecture 7 Karim Bouzoubaa Content Introduction Why? Morphological processes Types of Morphemes Morphology in NLP computational morphology Tools


slide-1
SLIDE 1

Natural Language Processing Morphology Artificial Intelligence Lecture 7 Karim Bouzoubaa

slide-2
SLIDE 2

Content

  • Introduction
  • Why?
  • Morphological processes
  • Types of Morphemes
  • Morphology in NLP – computational morphology
  • Tools
slide-3
SLIDE 3

Introduction

  • Morphology ¡is ¡the ¡domain ¡of ¡linguis5cs ¡that

¡ analyzes ¡the ¡internal ¡structure ¡of ¡words ¡

  • According ¡ to ¡ the ¡ classical ¡ approach ¡ in

¡ linguis5cs, ¡ words ¡ are ¡ formed ¡ of ¡ morphemes, ¡which ¡are ¡the ¡minimal ¡(that ¡is, ¡ non-­‑decomposable) ¡ linguis5c ¡ units ¡ that ¡ carry ¡meaning ¡

slide-4
SLIDE 4

why?

  • Many ¡ language ¡ processing ¡ applica5ons ¡ need ¡ to

¡ extract ¡the ¡informa5on ¡encoded ¡in ¡the ¡words ¡

– Parsers ¡ which ¡ analyze ¡ sentence ¡ structure ¡ need ¡ to ¡ know/check ¡agreement ¡between ¡

  • subjects ¡and ¡verbs ¡
  • Adjec5ves ¡and ¡nouns ¡

– Informa5on ¡retrieval ¡systems ¡benefit ¡from ¡know ¡what ¡ the ¡stem ¡of ¡a ¡word ¡is ¡ – Machine ¡transla5on ¡systems ¡need ¡to ¡analyze ¡words ¡to ¡ their ¡ components ¡ and ¡ generate ¡ words ¡ with ¡ specific ¡ features ¡in ¡the ¡target ¡language ¡

slide-5
SLIDE 5

computational morphology

slide-6
SLIDE 6

computational morphology - analysis

slide-7
SLIDE 7

computational morphology - generation

slide-8
SLIDE 8

Morphological processes

  • Three ¡ main ¡ morphological ¡ processes, ¡ used

¡ in ¡many ¡languages, ¡can ¡be ¡dis5nguished: ¡

– Inflec5on ¡(قاصلإ) ¡ – Deriva5on ¡(قاقتشا) ¡ – Compounding ¡(بيكرت) ¡

slide-9
SLIDE 9

inflection

  • Phenomena of declination and conjugation

(change of number, gender, time, person, mode and case). It does not change the POS

  • f a word
  • Horse

Horses

  • Eat

eating

  • Likes

liked

slide-10
SLIDE 10

inflection

  • Inflection does not induce a grammatical category change
  • The various words linked by inflection (or inflected forms)

are by lemmatization, represented by a single form, the lemma, which corresponds for the English language

  • to the infinitive of the verbs
  • to the masculine singular of the adjectives
  • and to the singular for the nouns

Word Eating Liked strongs schools Lemma eat like strong school

slide-11
SLIDE 11

inflection

  • For the Arabic language, the stem represents the

word without the prefix and the suffix, and the lemma corresponds to the singular of the stem for the nouns and for the verbs with the past form conjugated to the third person of the singular of their stems

slide-12
SLIDE 12

Derivation

  • Formation of new words thanks to the addition of

affixes to the root

  • Derivational morphology produces a new word with

usually a different part-of-speech category.

– e.g., make a verb from a noun.

  • The new word is said to be derived from the old word

– happy (Adj) ⇒ happi+ness (Noun) – nation/national/nationalise/ – nationalist/nationalism/

slide-13
SLIDE 13

Derivation

  • In French, we can distinguish three derivational
  • perations:

– derivation by prefixation [prefix + root] (precancer = [pre- cancer]) – derivation by suffixation [root+ suffix] (cancerous = [cancer + them]) – para synthetic training [prefix + root+ suffix] (intravenous = [intra + vein + euse])

slide-14
SLIDE 14

Derivation

  • In Arabic, the derivation is done by applying models to

the roots

slide-15
SLIDE 15

Composition

  • Combina5on ¡ of ¡ two ¡ or ¡ more ¡ bases ¡ to ¡ form ¡ a ¡ new

¡ word ¡

  • For ¡ example, ¡ you ¡ can ¡ add ¡ a ¡ free ¡ morpheme ¡ to

¡ another ¡free ¡morpheme ¡(eg ¡blackboard, ¡underflow, ¡overflow) ¡

  • In ¡Arabic, ¡the ¡composi5on ¡is ¡present ¡essen5ally ¡in ¡the

¡ proper ¡names ¡(ملعلا ¡ءامسأ). ¡

slide-16
SLIDE 16

Types of morphemes

  • The ¡stem: ¡it ¡corresponds ¡to ¡what ¡remains ¡of ¡the ¡word ¡once ¡the

¡ flexional ¡ affixes ¡ removed. ¡ It ¡ does ¡ not ¡ therefore ¡ necessarily ¡ cons5tute ¡ an ¡ atomic ¡ en5ty ¡ and ¡ can ¡ be ¡ further ¡ decomposed ¡ into ¡deriva5onal ¡and ¡radical ¡affixes ¡

  • The ¡lemma: ¡it ¡carries ¡the ¡main ¡meaning ¡of ¡the ¡word ¡
  • The ¡root: ¡is ¡an ¡abstract ¡en5ty, ¡bearing ¡common ¡sense ¡to ¡all ¡the

¡ words ¡formed ¡from ¡this ¡root ¡

  • The ¡words ¡base, ¡radical ¡and ¡root ¡refer ¡to ¡very ¡similar ¡no5ons ¡
slide-17
SLIDE 17

Types of morphemes

  • Affix ¡(دئازلا): ¡By ¡adding ¡to ¡a ¡root ¡or ¡radical, ¡it ¡creates ¡a

¡ new ¡word ¡while ¡changing ¡the ¡meaning ¡or ¡func5on ¡

– Prefix ¡(قباسلا) : ¡Affix ¡who ¡stands ¡before ¡the ¡radical ¡ – Suffix ¡(قحللا): ¡Affix ¡who ¡places ¡himself ¡aRer ¡the ¡radical ¡ – Infix ¡(لخاد) : ¡Affix ¡that ¡can ¡be ¡placed ¡in ¡the ¡middle ¡of ¡the ¡ radical, ¡following ¡phonological ¡rules ¡of ¡placement ¡

slide-18
SLIDE 18

Types of morphemes

Root Lemma

(prefix)

slide-19
SLIDE 19

Computational morphology

slide-20
SLIDE 20

Computational morphology

slide-21
SLIDE 21

Computational morphology

slide-22
SLIDE 22

Morphology in NLP

  • Stemming: ¡it ¡consists ¡in ¡segmen5ng ¡the ¡word ¡in ¡ ¡

– prefix ¡+ ¡stem ¡+ ¡suffix ¡

  • Lemma5zing: ¡ it ¡ brings ¡ back ¡ the ¡ (inflec5onal)

¡ variants ¡ of ¡ the ¡ same ¡ word ¡ to ¡ their ¡ canonical ¡ form ¡which ¡is ¡the ¡lemma ¡

  • Roo5ng: ¡it ¡aims ¡to ¡search ¡for ¡the ¡roots ¡of ¡words. ¡

¡

slide-23
SLIDE 23

Morphology in NLP

  • Morpho-­‑syntac5c ¡analysis: ¡it ¡consists ¡of ¡analyzing ¡each

¡ word ¡to ¡associate ¡various ¡types ¡of ¡informa5on ¡such ¡as ¡ its ¡gramma5cal ¡category, ¡its ¡morphological ¡features ¡as ¡ well ¡as ¡the ¡corresponding ¡lemma ¡

slide-24
SLIDE 24

Morphology in NLP

  • Stemming: ¡it ¡consists ¡in ¡segmen5ng ¡the ¡word ¡in ¡ ¡

– prefix ¡+ ¡stem ¡+ ¡suffix ¡

  • Lemma5zing: ¡ it ¡ brings ¡ back ¡ the ¡ (inflec5onal)

¡ variants ¡ of ¡ the ¡ same ¡ word ¡ to ¡ their ¡ canonical ¡ form ¡which ¡is ¡the ¡lemma ¡

  • Roo5ng: ¡it ¡aims ¡to ¡search ¡for ¡the ¡roots ¡of ¡words. ¡

¡

slide-25
SLIDE 25

ambiguity

slide-26
SLIDE 26

disambiguation

slide-27
SLIDE 27

disambiguation

slide-28
SLIDE 28

implementation

  • implementa5on ¡ approaches ¡ for ¡ computa5onal

¡ morphology: ¡

– List ¡all ¡word-­‑forms ¡as ¡a ¡database ¡ – Heuris5c/rule ¡based ¡affix ¡stripping ¡ – Finite ¡state ¡approaches ¡

slide-29
SLIDE 29

demo

  • h W p s : / / w w w . y o u t u b e . c o m / w a t c h ?

v=yGKTphqxR9Q ¡

  • hWp://www.nltk.org/howto/stem.html ¡
  • www.gate.ac.uk ¡ ¡
  • hWp://arabic.emi.ac.ma:8080/SafarWeb_V2/ ¡
  • hWp://arabic.emi.ac.ma/safar/ ¡