Approche dapprentissage automatique pour lannotation automatique - - PowerPoint PPT Presentation

approche d apprentissage automatique pour l annotation
SMART_READER_LITE
LIVE PREVIEW

Approche dapprentissage automatique pour lannotation automatique - - PowerPoint PPT Presentation

Approche dapprentissage automatique pour lannotation automatique des vnements Dr. Rim Faiz IHEC de Carthage Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 28 octobre 2006 Plan Introduction Quelques mthodes dannotation


slide-1
SLIDE 1

Approche d’apprentissage automatique pour l’annotation automatique des événements

  • Dr. Rim Faiz

IHEC de Carthage

Rim.Faiz@ihec.rnu.tn

Colloque LaLICC 27 – 28 octobre 2006

slide-2
SLIDE 2

2

Plan

Introduction Quelques méthodes d’annotation Approche d’annotation des événements Etapes du processus d’annotation Exemples Perspectives

slide-3
SLIDE 3

3

Introduction

Prolifération des articles de Presse sur le Web Diversité de leurs sources (Reuters, Aljazeera,

CNN,…)

Un traitement automatique de leurs contenus devient de

plus en plus nécessaire.

Quotidiennement des milliers d’articles sont produits dans

le monde entier concernant un événement donné.

Nous proposons de développer une approche qui

annote automatiquement ces articles de Presse.

slide-4
SLIDE 4

4

Annotation

Annotation : information graphique ou textuelle

attachée à un document et le plus souvent placée dans ce même document (Desmontils et Jacquin, 2002).

Dans notre cas, l’annotation est une description des

principaux événements que contient un article de Presse.

Nous proposons un processus permettant d’extraire

tous les événements ensuite de les grouper avant de générer l’annotation.

slide-5
SLIDE 5

Quelques méthodes d’annotation

slide-6
SLIDE 6

6

Annotation pour le web sémantique

  • C. Roussey, S. Calabretto et J-M Pinon (2002,

2004)

SyDoM : un outil d’annotation pour le web

sémantique.

Traiter des pages web en formats XML Expliciter les connaissances associées à une

page web par le biais d’annotations

Permet la recherche multilingue

slide-7
SLIDE 7

7

Annotation sémantique de pages web

S.Tenier, A. Napoli, X. Polanco et Y.Toussaint, (2006)

  • Classifier des pages concernant des équipes de

recherche, afin de pouvoir déterminer par exemple qui travaille où, sur quoi et avec qui (utilisation d’une

  • ntologie du domaine).
  • Cela consiste a

1.

l’identification de la structure syntaxique caractérisant l’élément pertinent dans la page web.

2.

l’identification du concept le plus spécifique (en termes de subsumption) dans l’ontologie dont l’instance sera utilisée pour annoter cet élément.

slide-8
SLIDE 8

8

Annotation automatique de documents

  • L. Abrouk, A. Gouaïch et C. Raïssi, (2006)

Approche pour l’annotation des documents qui

consiste à se baser sur les références citées afin de propager leurs annotations sur le document cible.

L’approche permet d’annoter directement une

ressource sans connaissance préalable de son contenu selon un regroupement thématique construit à partir d’un classifieur flou non supervisé.

slide-9
SLIDE 9

9

Annotea

  • J. Kahan et M.-R. Koivunen (2001)

Annotea fait partie des tentatives du Semantic

Web.

Les annotations sont stockées sur des serveurs en

tant que méta-données et présentées à l'utilisateur par le biais d'un client capable d'interagir avec le serveur en utilisant le protocole HTTP.

slide-10
SLIDE 10

10

Annotation et indexation discursives de textes

J.P. Desclés et al. (2005-2006)

EXCOM/MOCXE

Notion de points de vue (extraction, filtrage,

catégorisation d’information)

Fouille de textes par catégorie sémantique Recherche d’information discursives et sémantiques

slide-11
SLIDE 11

11

Constat

Annotation des documents (documents web, articles

scientifiques, documents multimédias, services web,…)

Annotation des informations temporelles

La détection de dates et de marqueurs temporels Le repérage d’événements (Event Extraction) Datation d’événements Détermination de l’ordre des événements dans un

texte

slide-12
SLIDE 12

12

Annotation de relations temporelles

  • P. Muller et X. Tannier (2004)

Annotation automatique d’informations temporelles

dans des textes (dépêches d’agence)

Particulièrement les relations entre événements

introduits par les verbes dans chaque clause.

Proposition de deux mesures d’évaluation de

l’annotation : finesse et cohérence.

slide-13
SLIDE 13

13

Constat

Annotation des événements ?

Annotation de relations entres les événements Annotation sous forme de méta-données sur les

événements du document (article de Presse)

Notre approche d’annotation des événements

consiste à :

Extraire les événements (phrases événementielles). Grouper celles qui font référence à un même événement

dans un cluster.

Déduire l’annotation sous différentes formes.

slide-14
SLIDE 14

14

Articles bruts TAL

Ph1 ; Ph2 ; … …… Ph1 ; Ph2 ; … …… Ph1 ; Ph2 ; … …… PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … ……

Classification

PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … …… PEV1 ; PEv2 ; … ……

slide-15
SLIDE 15

15

Clustering

PEV1 ; PEv2 ; … …… PEV1 PEv3 PEV7 PEV2 PEv4 PEV6 PEV5 PEv9 PEV10 PEV1 ; PEv2 ; … …… PEV1 PEv3 PEV7 PEV2 PEv4 PEV6 PEV5 PEv9 PEV10 PEV1 ; PEv2 ; … …… PEV1 PEv3 PEV7 PEV2 PEv4 PEV6 PEV5 PEv9 PEV10 PEV1 ; PEv2 ; … …… Description PEV1 ; PEv2 ; … …… Description PEV1 ; PEv2 ; … …… Description

Annotation Keyword: Killed Location: Baghdad Time/date: 2 p.m Person: U.S. soldier Iraqi leader denies civil war as 50 people die.

Deserter, war, Iraq

BD

slide-16
SLIDE 16

16

Première étape : segmentation

Applications des techniques de TAL aux

textes pour extraire les phrases.

Segmentation du texte en phrases (exp.

SegATex, LaLICC, G. Mourad, 2001).

Identification des phrases en utilisation le module

de Lingua::EN::Sentence de Perl.

slide-17
SLIDE 17

17

Deuxième étape : Classification

Un modèle de classification est construit automatiquement

en se basant sur un ensemble d’apprentissage (training set).

Prédire si une phrase contient un événement ou non

Comparaison des PCC (Pourcentage des Classes bien

Classées) issus de différents algorithmes de classification par arbre de décision.

Choisir le modèle de données résultant qui dispose du plus

grand PCC .

Le résultat de cette étape est l’ensemble des phrases

référant à des événements.

slide-18
SLIDE 18

18

Deuxième étape : Sélection des attributs

Nous utilisons les attributs qui se rapportent aux

événements tels que définis par Naughton et al. (2006).

Ces attributs sont les suivants :

longueur de la phrase, position de la phrase dans le document, nombre de lettres capitales, nombre de caractères (stopwords), nombre de noms de villes (city/town), nombre de marques numériques dans la phrase, Nombre de termes calendaires.

slide-19
SLIDE 19

19

Deuxième étape : training set

L’ensemble de l’apprentissage (training set) est

annoté par des experts.

Pour chaque article de Presse, les événements sont

annotés comme suit :

Les annotateurs sont amenés à assigner des étiquettes à

chaque phrase représentant un événement.

Si une phrase se rapporte à un événement, ils lui

assignent l'étiquette «yes» sinon «no» .

slide-20
SLIDE 20

20

Deuxième étape : Expérimentation

RandomTree : construire plusieurs arbres puis choisir celui dont le score est maximal en se basant sur la matrice de distance et la corrélation entre les données. J48 : implémentation de C4.5 JR Quinlan (1993).

  • Choisir pour chaque niveau le nœud de l’arbre comme l’attribut

qui différencie mieux les instances.

  • Diviser le training set en sous-groupes afin de refléter les valeurs

de l’attribut du noeud choisi.

  • Répéter le même traitement pour le sous groupe jusqu’à

l’obtention de sous groupes homogènes (toutes les instances ou la majorité ont le même attribut de décision) ADTree : construction d'arbres de décision étendus aux cas multi- classes et multi-labels.

slide-21
SLIDE 21

21

RandomTree

RandomTree ========== NbNumérique < 1 | NbStopwords < 5 | | Long < 172 | | | NbCity < 1 | | | | Long < 118 | | | | | NbMot < 9 : no (6/0) | | | | | NbMot >= 9 | | | | | | NbCapitale < 2 | | | | | | | NbMot < 11 | | | | | | | | Long < 56 : yes (1/0) | | | | | | | | Long >= 56 : no (1/0) | | | | | | | NbMot >= 11 : no (3/0) | | | | | | NbCapitale >= 2 : no (4/0) | | | | Long >= 118 | | | | | NbStopwords < 2 : yes (1/0) | | | | | NbStopwords >= 2 : no (1/0) | | | NbCity >= 0.5 | | | | NbCapitale < 1 : yes (2/0) | | | | NbCapitale >= 1 : no (4/0) | | Long >= 172 : yes (1/0) | NbStopwords >= 5 : yes (1/0) NbNumérique >= 1 : yes (10/0)

Weka 3-4 Correctly Classified Instances 23 65.7143 % Incorrectly Classified Instances 12 34.2857 % Kappa statistic 0.2953 Mean absolute error 0.3429 Root mean squared error 0.5855 Relative absolute error 68.8027 % Root relative squared error 117.0862 % Total Number of Instances 35 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.5 0.211 0.667 0.5 0.571 yes 0.789 0.5 0.652 0.789 0.714 no === Confusion Matrix === a b <-- classified as 8 8 | a = yes 4 15 | b = no

slide-22
SLIDE 22

22

RandomTree

NbCapitale < 7 | NbCity < 1 | | NbNumérique < 1 | | | NbMot < 22 | | | | NbStopwords < 2 | | | | | NbCapitale < 2 | | | | | | NbMot < 11 | | | | | | | Position < 0.87 : no (3/0) | | | | | | | Position >= 0.87 : yes (1/0) | | | | | | NbMot >= 11 : no (3/0) | | | | | NbCapitale >= 2 : no (3/0) | | | | NbStopwords >= 2 : no (5/0) | | | NbMot >= 22 | | | | Position < 0.57 : no (1/0) | | | | Position >= 0.57 : yes (1/0) | | NbNumérique >= 1 : yes (1/0) | NbCity >= 0.5 | | NbCalendrier < 1 | | | NbNumérique < 1 | | | | Position < 0.32 : no (2/0) | | | | Position >= 0.32 | | | | | NbStopwords <2 | | | | | | Long < 56 : yes (1/0) | | | | | | Long >= 56 : no (2/0) | | | | | NbStopwords >= 2 : yes (2/0) | | | NbNumérique >= 1 : yes (2/0) | | NbCalendrier >= 1 : yes (5/0) NbCapitale >= 7 : yes (3/0)

Weka 3-4 Correctly Classified Instances 24 68.5714 % Incorrectly Classified Instances 11 31.4286 % Kappa statistic 0.3636 Mean absolute error 0.3143 Root mean squared error 0.5606 Relative absolute error 63.0691 % Root relative squared error 112.1015 % Total Number of Instances 35 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.625 0.263 0.667 0.625 0.645 yes 0.737 0.375 0.7 0.737 0.718 no === Confusion Matrix === a b <-- classified as 10 6 | a = yes 5 14 | b = no

slide-23
SLIDE 23

23

J48

NbNumérique <= 0 | NbCity <= 0 | | Position <= 0.86: no (15.0) | | Position > 0.86: yes (2.0) | NbCity > 0 | | NbCapitale <= 1: yes (2.0) | | NbCapitale > 1 | | | NbCapitale <= 4: no (3.0) | | | NbCapitale > 4: yes (3.0/1.0) NbNumérique > 0: yes (10.0)

Weka 3-4 Correctly Classified Instances 25 71.4286 % Incorrectly Classified Instances 10 28.5714 % Kappa statistic 0.4186 Mean absolute error 0.2716 Root mean squared error 0.4859 Relative absolute error 54.4961 % Root relative squared error 97.1658 % Total Number of Instances 35 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.625 0.211 0.714 0.625 0.667 yes 0.789 0.375 0.714 0.789 0.75 no === Confusion Matrix === a b <-- classified as 10 6 | a = yes 4 15 | b = no

slide-24
SLIDE 24

24

ADTree

(1)NbNumérique < 1: 0.584 | (2)Position < 0.385: 0.964 | (2)Position >= 0.385: -0.29 | | (5)NbMot < 10: 0.586 | | (5)NbMot >= 10: -0.311 | | | (8)Long < 148: -0.396 | | | (8)Long >= 148: 0.104 (1)NbNumérique >=1: -1.668 (3)NbCity < 1: 0.381 | (4)Position < 0.885: 1.424 | (4)Position >= 0.885: -1.262 (3)NbCity >= 1: -0.543 | (6)NbStopwords < 2: 0.279 | | (7)Position < 0.615: -0.366 | | (7)Position >= 0.615: 0.543 | (6)NbStopwords >= 2: -0.47 Legend: -ve = yes, +ve = no

Weka 3-4 Correctly Classified Instances 26 74.2857 % Incorrectly Classified Instances 9 25.7143 % Kappa statistic 0.4741 Mean absolute error 0.2901 Root mean squared error 0.4188 Relative absolute error 58.215 % Root relative squared error 83.7538 % Total Number of Instances 35 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.625 0.158 0.769 0.625 0.69 yes 0.842 0.375 0.727 0.842 0.78 no === Confusion Matrix === a b <-- classified as 10 6 | a = yes 3 16 | b = no

slide-25
SLIDE 25

25

Troisième étape : Clustering

Nous regroupons les phrases référant aux mêmes

événements par l’application de l’algorithme ‘Hierarchical Agglomerative Clustering (HAC)’,

HAC assigne initialement chaque objet à un

cluster, puis fusionne à plusieurs reprises les clusters jusqu'à ce qu’un des critères d'arrêt soit satisfait (Manning and Schutze, 1999).

slide-26
SLIDE 26

26

Troisième étape (suite)

HAC utilise une mesure de similarité entre les

  • bjets, pour notre cas, nous utilisons une mesure

de similarité entre les phrases.

Nous adoptons le critère d'arrêt qui est le seuil de

similarité qui consiste à appliquer l'algorithme HAC jusqu’à l’obtention de la similarité < seuil.

L’application de HAC tient compte de la position

des phrases dans le document.

β

slide-27
SLIDE 27

27

Méthodes de mesure de similarité

Choix de deux méthodes (dans notre étude) Automate à états finis (Zha, 2002), (J. Carthy

et al., 2006)

TF-IDF Clustering (M. Naughton and

  • N. Kushmerick and J. Carthy, 2006)
slide-28
SLIDE 28

28

Automate à états finis

En utilisant l’agorithme MDI (Thollard, Dupont et

De La Higuera, 2000) nous formons un automate a état fini (FSA) des séquences, où:

Les états correspondent aux étiquettes d'événements. Les transitions correspondent aux phrases adjacentes

qui mentionnent la paire d'événements.

Les paramètres de l’automate sont dégagés par

apprentissage sur le document.

slide-29
SLIDE 29

29

tf–idf

tf–idf weight (term frequency–inverse document

frequency) est utilisé en DM et RI pour évaluer le poids d’un terme dans un corpus.

tf exprime la fréquence d’un terme ti dans un

document

  • ni la fréquence de terme ti
  • Somme nk est la somme totale des termes
slide-30
SLIDE 30

30

idf

idf est l’importance générale du terme

avec

|D| : nombre total des documents dans le corpus

  • : nombre de documents contenant ti
slide-31
SLIDE 31

31

TF-IDF Clustering

Soit S1, S2 deux phrases. Mesure de la similarité entre S1 et S2 comme suit :

t 1 2 1 1 1 t t 2 2 1 2 1 1

SIM( , ) =

j j j j j j j

s s s s s s

= = =

+

  • Avec Sij le poids de terme ti

dans le cluster j Ce poids est définie par tf(ti,c) : fréquence du terme ti dans le cluster c N : nombre de Cluster df(ti) : nombre de cluster contenant le terme ti

N W(t, c) = tf ( , c) × ln df( )

i i

t t

slide-32
SLIDE 32

32

Constat

La première méthode (Automate à états finis) est trop

paramétrable.

La deuxième méthode est efficace mais ne tient pas

compte de la position de la phrase dans le document.

Extension de tf-idf :

nous représentons la position d’une phrase dans un article

comme suit:

Nous utilisons une ontologie afin de tenir compte des

phrases qui utilisent d’autres termes pour exprimer le même événement.

( )

  • r d r e

p h N p h

slide-33
SLIDE 33

33

FSIM

t 1 2 1 1 1 t t 2 2 1 2 1 1

SIM(c , c ) =

j j j j j j j

ct ct ct ct

= = =

+

  • Nous prenons en considération dans notre fonction de

la position et de la similarité entre les phrases.

n (n - 1) 2

Pour n cluster nous avons Combinaison possible entre eux = 1+2+3+ …+n

1 2 1 2 1 2

FSIM(c , c ) = ×SIM( , ) + (1- ) ×cos( , ) ct ct ct ct α α

slide-34
SLIDE 34

34

Exemple

Iraqi leader denies civil war as 50 people die. On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

slide-35
SLIDE 35

35

Exemple (suite)

C1 Iraqi leader denies civil war as 50 people die. C2 On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. C3 One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. C4 U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m C5 In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. C6 Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15. FSIM (C1, C2) = 1.07 FSIM (C1, C3) = 0.12 FSIM (C1, C4) = 0.1 FSIM (C1, C5) = 0.05 FSIM (C1, C6) = 0.02 FSIM (C2, C3) = 0.08 FSIM (C2, C4) = 0.1 FSIM (C2, C5) = 0.32 FSIM (C2, C6) = 0.36 FSM (C3, C4) = 0.84 FSIM (C3, C5) = 0.28 FSIM (C3, C6) = 0.23 FSIM (C4, C5) = 0.19 FSIM (C4, C6) = 0.15 FSIM (C5, C6) = 0.79

slide-36
SLIDE 36

36

Exemple (suite)

Iraqi leader denies civil war as 50 people die. CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. C3 One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. C4 U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m C5 In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. C6 Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15. FSIM (CA, C3) = 0.27 FSIM (CA, C4) = 0.21 FSIM (CA, C5) = 0.12 FSIM (CA, C3) = 0.16 FSM (C3, C4) = 0.73 FSIM (C3, C5) = 0.19 FSIM (C3, C6) = 0.11 FSIM (C4, C5) = 0.13 FSIM (C4, C6) = 0.15 FSIM (C5, C6) = 0.63

slide-37
SLIDE 37

37

Exemple (suite)

Iraqi leader denies civil war as 50 people die. CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m C5 In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. C6 Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15. FSIM (CA, CB) = 0.14 FSIM (CA, C5) = 0.07 FSIM (CA, C6) = 0.09 FSIM (CB, C5) = 0.03 FSIM (CB, C5) = 0.05 FSIM (C5, C6) = 0.56

slide-38
SLIDE 38

38

Exemple (suite)

Iraqi leader denies civil war as 50 people die. CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m CC In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15. FSIM (CA, CB) = 0.11 FSIM (CA, CC) = 0.07 FSIM (CB, CC) = 0.09

slide-39
SLIDE 39

39

Quatrième étape annotation

  • En se basant sur les clusters, leurs

positions dans l’article.

  • nous générons une description qui combine les

événements et qui constituera l’annotation de l’article sous trois types d’annotations :

  • Phrase qui annote le cluster.
  • Structurer l’annotation sous une forme standard et

éventuellement stoker les événements dans des bases de données.

  • Extraire les concepts qui représentent les

événements dans l’article (travaux futurs).

slide-40
SLIDE 40

40

Quatrième étape: 1er type d’annotation

La phrase qui annote le mieux le cluster est celle

qui contient les valeurs maximales des attributs.

Il n’y a pas beaucoup de perte d’information

puisque la phrase qui annote le cluster est l’une parmi un ensemble de phrases similaires.

Une telle annotation peut être indexée pour

améliorer la recherche d’information sur de tels articles, comme elle peut servir pour un résumé automatique.

slide-41
SLIDE 41

41

Exemple

Iraqi leader denies civil war as 50 people die. CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m CC In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15. Iraqi leader denies civil war as 50 people die. One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

slide-42
SLIDE 42

42

Quatrième étape: 2ème type d’annotation

Structurer l’annotation contenant les attributs suivants : Keyword: Killed Location: Eastern Baghdad Time/date: 2 p.m Person: One U.S. soldier

slide-43
SLIDE 43

43

Exemple (2ème type d’annotation)

Iraqi leader denies civil war as 50 people die. CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating. In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday. CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m. U.S. commander wounded since 1 p.m "This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."

  • Sen. Carl Levin, a Michigan Democrat, disagreed with al-

Maliki's assessment of the state of affairs in Iraq, saying the country was "on the verge of civil war right now," if not already involved in one. Levin, the ranking Democrat on the Senate Armed Services Committee, called for the United States to set a date to begin withdrawing its forces. U.S. commander wounded since 1 p.m CC In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said. Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15. Keyword: Killed Location: Iraq Time/date : on a day Person: 50 people Keyword: Killed Location: Eastern Baghdad Time/date: 2 p.m Person: One U.S. soldier Keyword: dead and wounded Location: Baghdad Time/date: Sunday Person: One U.S. soldier

slide-44
SLIDE 44

44

Perspectives

Autres techniques de classification pour la

deuxième phase (exp., SVM)

Fusion des événements Traitement des phrases multi-événements