Expressions polylexicales dans la linguistique computationnelle: on - - PowerPoint PPT Presentation

expressions polylexicales dans la linguistique
SMART_READER_LITE
LIVE PREVIEW

Expressions polylexicales dans la linguistique computationnelle: on - - PowerPoint PPT Presentation

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Expressions polylexicales dans la linguistique computationnelle: on nest pas sorti de lauberge Agata Savary Universit de Tours, France Seminaire


slide-1
SLIDE 1

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Expressions polylexicales dans la linguistique computationnelle: on n’est pas sorti de l’auberge

Agata Savary

Université de Tours, France

Seminaire LIFAT, 4 juillet 2019

1/20

slide-2
SLIDE 2

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Expressions polylexicales (EN: multiword expressions, MWEs)

Qu’y a-t-il ‘quel est le problème’ de spécial avec les expressions mises en exergue ‘mises en évidence’? Si vous avez tant besoin de couper l’herbe sous le pied de quelqu’un, je vous proposerais de vous en prendre au rédacteur-en-chef, Monsieur Jean-Marc Petit.

2/20

slide-3
SLIDE 3

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Expressions polylexicales

Définition Combinaisons de plusieurs mots qui possèdent des propriétés irrégulières au niveau du lexique, de la grammaire, de la sémantique, etc. Sémantique non-compositionnelle Le sens global n’est pas déductible de manière régulière à partir des sens des composants, et des liens syntaxiques qui les relient. couper l’herbe sous le pied de quelqu’un ‘empêcher quelqu’un de réussir’ s’en prendre à quelqu’un ‘prendre quelqu’un pour cible, lui attribuer une faute’ Propriété difficile à tester. On simule ce test par d’autres tests de "surface".

3/20

slide-4
SLIDE 4

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Les casse-pieds ‘qui ennuient/dérangent’ de la linguistique computationnelle

Pervasiveness Jusqu’à 40% des mots d’un texte appartiennent à des expressions polylexicales. [4, 7] Si vous avez tant besoin de couper l’herbe sous le pied de quelqu’un, je vous proposerais de vous en prendre au rédacteur-en-chef, Monsieur Jean-Marc Petit. Ici: 17 composants d’EP sur 30 mot du texte → 57% Non-compositionalité Méthodes informatiques sont compositionnelles Phénomènes complexes sont décomposés en problèmes plus simples. Sous problèmes reçoivent des solutions autonomes, qui sont ensuites composées pour fournir solutions globales. EP sont sémantiquement non-compositionnelles, donc posent problème pour le tâches du TAL orientées sémantiquement.

4/20

slide-5
SLIDE 5

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Traduction automatique

Traductions mot-à-mot ne captent pas le sens idiomatique.

5/20

slide-6
SLIDE 6

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Fouille d’opinion

La tâche Prédire automatiquement la valence (positive, neutre ou négative) de l’opinion exprimée par un texte Je soutiens les gilets jaunes. Je suis très respectueux de leur cause. Il ne faut pas accepter ce geste. Rien ne le justifie ! Cela s’appelle une agression. Simple technique Les mots simples sont annotés avec une valence élémentaire: respectueux → 1, agression → -2, justifier → 1 Des règles locales modifient la valence élémentaire: très, grand doublent la valence; très respectueux → 1*2 = 2 La négation inverse la valence: rien ne le justifie → -1*1=-1 Non-compositionnalité Texte Valence calculée Valence réelle bras0 d’honneur1 1

  • 2

avoir un coup0 de foudre−1

  • 1

2

6/20

slide-7
SLIDE 7

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Solutions

Identifier automatiquement les EP dans le texte. Leur appliquer des traitements spéciaux: traduction automatique reformuler une EP avant la traduction il boit comme un trou → il est alcoolique → he is an alcoholic fouille d’opinion attribuer une valence à une EP en entier avoir un [coup de foudre]2

7/20

slide-8
SLIDE 8

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Focus sur les EP verbales

Expressions polylexicales verbales (EPV) EPV = expression polylexicale dont la tête (le mot dominant) est un verbe (EN) verbal multiword expressions (VMWEs) Défis posés par les EPV Discontinuités: prendre les choses trop à coeur Variabilité: elle a tourné la page de son mariage vs. plusieurs pages de sa vie seront tournées Ambiguité: lecture littérale vs. idiomatique elle tourne la page de son mariage vs. elle tourne la dernière page du livre Recouvrement: vous présentez1 ou avez récemment présenté2 un saignement1,2 Mots graphiques vs. mots syntaxiques

ES abstener|se ‘s’abstenir’ vs. me abstengo

Langues variées ⇒ comportements variés, traditions linguistic divergentes

8/20

slide-9
SLIDE 9

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

EPV: état de l’art en TAL

Modélisation des EPV par annotation en corpus Corpus PARSEME [8] Identification automatique des EPV PARSEME shared task on automatic identification of verbal MWEs [5]

9/20

slide-10
SLIDE 10

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Annotation d’EP en corpus

10/20

slide-11
SLIDE 11

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Corpus PARSEME d’EPV

Coopération internationale réseau scientifique européen PARSEME: 20 équipes nationales ANR PARSEME-FR - émanation française de ce réseau terminologie et méthodologie unifiées (guide d’annotation) corpus de 20 langues, 6 millions de mots, 80 mille EP annotées Familles de langues Balto-slaves: bulgare (BG), croate (HR), lituanien (LT), polonais (PL), slovène (SL) Germaniques: allemand (DE), anglais (EN) Romanes: espagnol (ES), français (FR), italien (IT), portugais brésilien (PT), roumain (RO) Autres: arabe (AR), basque (EU), farsi (FA), grec (EL), hébreu (HE), hindi (HI), hongrois (HU), turc (TR)

11/20

slide-12
SLIDE 12

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Format

CUPT: extension du format CoNLL-U

1 Vous il

PRON

_ _ 2 nsubj _ _ * 2 présentez présenter

VERB

_ _ 0 root _ _ 1:LVC.full 3 ou

  • u

CCONJ _ _ 6 cc

_ _ * 4 avez avoir

AUX

_ _ 6 aux _ _ * 5 récemment récemment ADV _ _ 6 advmod _ _ * 6 présenté présenter

VERB

_ _ 2 conj _ _ 2:LVC.full 7 un un

DET

_ _ 8 det _ _ * 8 saignement saignement NOUN _ _ 2 obj _ _ 1;2 vous présenter1

  • u avez récemment

présenté2 un saignement1,2

nsubj root cc aux advmod conj det

  • bj

12/20

slide-13
SLIDE 13

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

MWE identification (MWEI) [3]

INPUT: text OUTPUT: text annotated with MWEs

13/20

slide-14
SLIDE 14

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

PARSEME shared task on automatic identification of VMWEs [9, 5]

Goal Automatically identify all VMWE occurrences in running text. Two tracks Closed: only use the provided training/dev data Open: use the provided data + any external resource corpora, lexicons, grammars, language models, word embeddings, . . . Evaluation dimensions Precision, recall and F1-measure Per-language scores vs. cross-lingual macro-averages Precise-span measure vs. partial-match measure General measure (all VMWEs) vs. phenomenon-specific measure (e.g. unseen VMWEs)

14/20

slide-15
SLIDE 15

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

MWE identification by sequential tagging

BIO tagging The prime minister paid an important visit to the president . O B I B O O I O O O O BIO tagging with nesting The prime minister paid a few important visits to the president . O B I B b i O I O O O O b and i stand for begin and inside of nested MWEs Sequential tagging Decoding (finding the most probable sequence of tags) can be done by a sequential tagger (a model trained on annotated data), based on: Hidden Markov Model (+ Viterbi algorithm) Conditional Random Fields bi-directional Long Short Term Memory networks

15/20

slide-16
SLIDE 16

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Parsing-based MWE identification

Technique 1: sequential tagging with parsing features The parsing data (e.g. the dependency labels) are used as features in CRF The parsing data are attached to word embeddings on input of a neural net Discontinuities in VMWEs are handled by [6] self-attentiona and a graph convolutional networkb which takes on input all the words syntactically connected to the current word

aSelf-attention = an attention mechanism relating different positions of a single

sequence in order to compute a representation of the same sequence. Here: it attends to long-range relations.

bA convolutional NN = a NN in which neuron in one layer is connected to only a

subset of neurons in the preceding layer. Here: a graph CNN should leverage dependency parse information.

16/20

slide-17
SLIDE 17

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Parsing-based MWE identification

Technique 2: sequential tagging of tree traversals The sentence is read not linearly but following the traversal of the syntactic tree CRF-based sequential IO (B is omitted) tagging is applied to this traversal

Joe paid a short visit .

nsubj root punct

  • bj

det amod

=

paid Joe visit a short ⇒

paid Joe visit a short ⇒ I O I O O Technique 3: candidate extraction + parsing-based classification [varIDE, Blois] Words from seen VMWEs are used to identify VMWE candidates (disregarding syntax) The candidates are classified based on various morpho-syntactic features (including dependencies)

17/20

slide-18
SLIDE 18

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Some results (more

  • nline )

Best cross-lingual macro-average scores submission track P R F1 TRAVERSAL closed 67.58 44.97 54.00 SHOMA

  • pen

66.08 51.82 58.09 Top scores for the languages with the optimal corpora (in size and completeness) BG PL PT RO #VMWEs 6.7K 5.2K 5.5K 5.9K unseen ratio .33 .28 .28 .05 Best non-NN F1 .63 .67 .62 .83 Best NN F1 .66 .64 .68 .87

18/20

slide-19
SLIDE 19

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Unseen data: Hard nuts to crack

Seen data A VMWE from the corpus is considered seen if a VMWE with the same multi-set of lemmas is annotated at least once in the training corpus. Scores for languages with the biggest corpora and full lemma annotation System VMWEs BG PL PT IRV LVC VID All IRV LVC VID All IRV LVC VID All TRAVERSAL seen .89 .63 .55 .76 .92 .76 .57 .85 .89 .77 .69 .78 unseen .26 .06 .07 .13 .26 .20 .04 .17 .12 .25 .07 .20 SHOMA seen .92 .65 .58 .78 .90 .69 .58 .82 .86 .88 .84 .87 unseen .59 .21 .10 .31 .24 .19 .04 .18 .42 .35 .08 .31 Named Entity Recognition results for comparison (English) [1] On CoNLL-2003 unseena data: from 0.81 to 0.94

aThere: unseen data = surface forms present only in the test 19/20

slide-20
SLIDE 20

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Future work

Explicitly address the strong sensitivity of MWEI to unseen data (e.g. via eval. measures and shared subtasks) Couple MWE identification with MWE discovery, via NLP-applicable syntactic lexicons of MWEs Mid-term objective Unified multilingual reference datasets with MWE-annotated corpora (extended to new, non-verbal MWE categories) and NLP-oriented MWE lexicons.

20/20

slide-21
SLIDE 21

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Bibliography I

Augenstein, I., Derczynski, L., and Bontcheva, K. Generalisation in named entity recognition: A quantitative analysis. Computer Speech & Language 44 (2017), 61 – 83. Campos, D., Matos, S., and Oliveira, J. L. Biomedical named entity recognition: A survey of machine-learning tools. In Theory and Applications for Advanced Text Mining, S. Sakurai, Ed. IntechOpen, Rijeka, 2012,

  • ch. 8.

Constant, M., Eryiğit, G., Monti, J., van der Plas, L., Ramisch, C., Rosner, M., and Todirascu, A. Multiword Expression Processing: A Survey. Computational Linguistics 43, 4 (2017), 837–892. Gross, M., and Senellart, J. Nouvelles bases statistiques pour les mots du français. In Proceedings of JADT’98, Nice 1998 (1998), pp. 335–349. Ramisch, C., Cordeiro, S. R., Savary, A., Vincze, V., Barbu Mititelu, V., Bhatia, A., Buljan, M., Candito, M., Gantar, P., Giouli, V., Güngör, T., Hawwari, A., Iñurrieta, U., Kovalevskait˙ e, J., Krek, S., Lichte, T., Liebeskind, C., Monti, J., Parra Escartín, C., QasemiZadeh, B., Ramisch, R., Schneider, N., Stoyanova, I., Vaidya, A., and Walsh, A. Edition 1.1 of the PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions. In Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018) (2018), Association for Computational Linguistics,

  • pp. 222–240.
slide-22
SLIDE 22

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Bibliography II

Rohanian, O., Taslimipoor, S., Kouchaki, S., Ha, L. A., and Mitkov, R. Bridging the gap: Attending to discontinuity in identification of multiword expressions. CoRR abs/1902.10667 (2019). Sag, I. A., Baldwin, T., Bond, F., Copestake, A., and Flickinger, D. Multiword Expresions: A Pain in the Neck for NLP. In Proceedings of CICLING’02 (2002), Springer. Savary, A., Candito, M., Mititelu, V. B., Bejček, E., Cap, F., Čéplö, S., Cordeiro, S. R., Eryiğit, G., Giouli, V., van Gompel, M., HaCohen-Kerner, Y., Kovalevskait˙ e, J., Krek, S., Liebeskind, C., Monti, J., Escartín, C. P., van der Plas, L., QasemiZadeh, B., Ramisch, C., Sangati, F., Stoyanova, I., and Vincze, V. PARSEME multilingual corpus of verbal multiword expressions. In Multiword expressions at length and in depth: Extended papers from the MWE 2017 workshop,

  • S. Markantonatou, C. Ramisch, A. Savary, and V. Vincze, Eds. Language Science Press., Berlin,

2018, pp. 87–147. Savary, A., Ramisch, C., Cordeiro, S., Sangati, F., Vincze, V., QasemiZadeh, B., Candito, M., Cap, F., Giouli, V., Stoyanova, I., and Doucet, A. The PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions. In Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017) (Valencia, Spain, April 2017), Association for Computational Linguistics, pp. 31–47. Tjong Kim Sang, E. F. Introduction to the conll-2002 shared task: Language-independent named entity recognition. In Proceedings of the 6th Conference on Natural Language Learning - Volume 20 (Stroudsburg, PA, USA, 2002), COLING-02, Association for Computational Linguistics, pp. 1–4.

slide-23
SLIDE 23

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Bibliography III

Tjong Kim Sang, E. F., and De Meulder, F. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003 (2003), pp. 142–147. Yadav, V., and Bethard, S. A survey on recent advances in named entity recognition from deep learning models. In Proceedings of the 27th International Conference on Computational Linguistics (Santa Fe, New Mexico, USA, Aug. 2018), Association for Computational Linguistics, pp. 2145–2158.

slide-24
SLIDE 24

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Why are MWEs so much harder to identify?

Idiosyncrasy NEs: idiosyncrasy of tokens trigger words (lake, association, Mr.) graphical features (uppercase, digits) MWEs: idiosyncrasy of types no/few trigger words no graphical features Semantic similarity NEs: semantic similarity of component words if we have seen association an NE component, organisation, counsel, etc. are simpler to predict as (unseen) MWE components MWEs: weak semantic similarity between component words of different MWEs Other challenges NEs: continuity, slight variation VMWEs: discontinuity, strong variation

slide-25
SLIDE 25

Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up

Définition formelle par le test de figement

On définit une expression polylexicale par opposition à’une expression "régulière" ou "libre" de la même structure syntaxique.

Construction régulière Expression polylexicale Propriété livre bleu ≈1livre cyan ≈ bouquin bleu cordon bleu vs. #cordon cyan vs. #corde bleue Figement lexical manger des salades ≈ manger une salade raconter des salades vs. #raconter une salade Figement morphologique il a fait la soupe ≈ la soupe a été faite par lui il a fait la tête vs. #la tête a été faite par lui Figement syntaxique

’≈’: glissement de sens prévisible à partir du remplacement lexical