Approche dapprentissage automatique pour lannotation automatique - PowerPoint PPT Presentation

Approche d’apprentissage automatique pour l’annotation automatique des événements Dr. Rim Faiz IHEC de Carthage Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 – 28 octobre 2006

Plan � Introduction � Quelques méthodes d’annotation � Approche d’annotation des événements � Etapes du processus d’annotation � Exemples � Perspectives 2

Introduction � Prolifération des articles de Presse sur le Web � Diversité de leurs sources (Reuters, Aljazeera, CNN,…) � Un traitement automatique de leurs contenus devient de plus en plus nécessaire. � Quotidiennement des milliers d’articles sont produits dans le monde entier concernant un événement donné. � Nous proposons de développer une approche qui annote automatiquement ces articles de Presse. 3

Annotation � Annotation : information graphique ou textuelle attachée à un document et le plus souvent placée dans ce même document ( Desmontils et Jacquin, 2002 ). � Dans notre cas, l’annotation est une description des principaux événements que contient un article de Presse. � Nous proposons un processus permettant d’extraire tous les événements ensuite de les grouper avant de générer l’annotation. 4

Quelques méthodes d’annotation

Annotation pour le web sémantique C. Roussey, S. Calabretto et J-M Pinon (2002, 2004) � SyDoM : un outil d’annotation pour le web sémantique. � Traiter des pages web en formats XML � Expliciter les connaissances associées à une page web par le biais d’annotations � Permet la recherche multilingue 6

Annotation sémantique de pages web S.Tenier, A. Napoli, X. Polanco et Y.Toussaint, (2006) Classifier des pages concernant des équipes de � recherche, afin de pouvoir déterminer par exemple qui travaille où, sur quoi et avec qui (utilisation d’une ontologie du domaine). Cela consiste a � l’identification de la structure syntaxique caractérisant 1. l’élément pertinent dans la page web. l’identification du concept le plus spécifique (en termes de 2. subsumption) dans l’ontologie dont l’instance sera utilisée pour annoter cet élément. 7

Annotation automatique de documents L. Abrouk, A. Gouaïch et C. Raïssi, (2006) � Approche pour l’annotation des documents qui consiste à se baser sur les références citées afin de propager leurs annotations sur le document cible. � L’approche permet d’annoter directement une ressource sans connaissance préalable de son contenu selon un regroupement thématique construit à partir d’un classifieur flou non supervisé. 8

Annotea J. Kahan et M.-R. Koivunen (2001) � Annotea fait partie des tentatives du Semantic Web . � Les annotations sont stockées sur des serveurs en tant que méta-données et présentées à l'utilisateur par le biais d'un client capable d'interagir avec le serveur en utilisant le protocole HTTP. 9

Annotation et indexation discursives de textes J.P. Desclés et al. (2005-2006) � EXCOM/MOCXE � Notion de points de vue (extraction, filtrage, catégorisation d’information) � Fouille de textes par catégorie sémantique � Recherche d’information discursives et sémantiques 10

Constat � Annotation des documents (documents web, articles scientifiques, documents multimédias, services web,…) � Annotation des informations temporelles � La détection de dates et de marqueurs temporels � Le repérage d’événements ( Event Extraction ) � Datation d’événements � Détermination de l’ordre des événements dans un texte 11

Annotation de relations temporelles P. Muller et X. Tannier (2004) � Annotation automatique d’informations temporelles dans des textes (dépêches d’agence) � Particulièrement les relations entre événements introduits par les verbes dans chaque clause. � Proposition de deux mesures d’évaluation de l’annotation : finesse et cohérence . 12

Constat � Annotation des événements ? � Annotation de relations entres les événements � Annotation sous forme de méta-données sur les événements du document (article de Presse) � Notre approche d’annotation des événements consiste à : � Extraire les événements ( phrases événementielles ). � Grouper celles qui font référence à un même événement dans un cluster. � Déduire l’annotation sous différentes formes. 13

�� TAL Classification PEV1 ; PEV1 ; Ph1 ; PEV1 ; Articles PEv2 ; PEv2 ; Ph2 ; PEv2 ; bruts … … … … …… …… …… …… Ph1 ; PEV1 ; PEV1 ; PEV1 ; Ph2 ; PEv2 ; PEv2 ; PEv2 ; … … … … …… …… …… …… Ph1 ; PEV1 ; PEV1 ; PEV1 ; Ph2 ; PEv2 ; … PEv2 ; PEv2 ; … … … …… …… …… …… 14

�� Annotation Iraqi leader denies civil Clustering war as 50 people die. Description PEV1 PEV2 PEV1 ; PEv3 PEv4 PEV1 ; PEV7 PEV6 BD PEv2 ; … PEv2 ; Keyword : Killed … …… PEV5 …… PEv9 Location : Baghdad PEV10 Description Time/date : 2 p.m PEV1 PEV2 Person : U.S. soldier PEV1 ; PEV1 ; PEv3 PEv4 PEV7 PEV6 PEv2 ; PEv2 ; … … …… …… PEV5 PEv9 PEV10 Description PEV1 PEV2 PEV1 ; PEv3 PEv4 Deserter, war, Iraq PEV1 ; PEV7 PEV6 PEv2 ; … PEv2 ; …… PEV5 … PEv9 …… PEV10 15

Première étape : segmentation � Applications des techniques de TAL aux textes pour extraire les phrases. � Segmentation du texte en phrases (exp. SegATex, LaLICC, G. Mourad, 2001). � Identification des phrases en utilisation le module de Lingua::EN::Sentence de Perl. 16

Deuxième étape : Classification � Un modèle de classification est construit automatiquement en se basant sur un ensemble d’apprentissage ( training set ). � Prédire si une phrase contient un événement ou non � Comparaison des PCC ( Pourcentage des Classes bien Classées ) issus de différents algorithmes de classification par arbre de décision. � Choisir le modèle de données résultant qui dispose du plus grand PCC . � Le résultat de cette étape est l’ensemble des phrases référant à des événements. 17

Deuxième étape : Sélection des attributs � Nous utilisons les attributs qui se rapportent aux événements tels que définis par Naughton et al. (2006). � Ces attributs sont les suivants : � longueur de la phrase, � position de la phrase dans le document, � nombre de lettres capitales, � nombre de caractères (stopwords), � nombre de noms de villes (city/town), � nombre de marques numériques dans la phrase, � Nombre de termes calendaires. 18

Deuxième étape : training set � L’ensemble de l’apprentissage ( training set ) est annoté par des experts. � Pour chaque article de Presse, les événements sont annotés comme suit : � Les annotateurs sont amenés à assigner des étiquettes à chaque phrase représentant un événement. � Si une phrase se rapporte à un événement, ils lui assignent l'étiquette «yes» sinon «no» . 19

Deuxième étape : Expérimentation RandomTree : construire plusieurs arbres puis choisir celui dont le score est maximal en se basant sur la matrice de distance et la corrélation entre les données. J48 : implémentation de C4.5 JR Quinlan (1993). Choisir pour chaque niveau le nœud de l’arbre comme l’attribut � qui différencie mieux les instances. Diviser le training set en sous-groupes afin de refléter les valeurs � de l’attribut du noeud choisi. Répéter le même traitement pour le sous groupe jusqu’à � l’obtention de sous groupes homogènes (toutes les instances ou la majorité ont le même attribut de décision) ADTree : construction d'arbres de décision étendus aux cas multi- classes et multi-labels. 20

RandomTree RandomTree ========== Weka 3-4 NbNumérique < 1 Correctly Classified Instances 23 65.7143 % | NbStopwords < 5 Incorrectly Classified Instances 12 34.2857 % | | Long < 172 Kappa statistic 0.2953 | | | NbCity < 1 Mean absolute error 0.3429 | | | | Long < 118 Root mean squared error 0.5855 | | | | | NbMot < 9 : no (6/0) | | | | | NbMot >= 9 Relative absolute error 68.8027 % | | | | | | NbCapitale < 2 Root relative squared error 117.0862 % | | | | | | | NbMot < 11 Total Number of Instances 35 | | | | | | | | Long < 56 : yes (1/0) === Detailed Accuracy By Class === | | | | | | | | Long >= 56 : no (1/0) TP Rate FP Rate Precision Recall F-Measure Class | | | | | | | NbMot >= 11 : no (3/0) 0.5 0.211 0.667 0.5 0.571 yes | | | | | | NbCapitale >= 2 : no (4/0) 0.789 0.5 0.652 0.789 0.714 no | | | | Long >= 118 | | | | | NbStopwords < 2 : yes (1/0) === Confusion Matrix === | | | | | NbStopwords >= 2 : no (1/0) a b <-- classified as | | | NbCity >= 0.5 8 8 | a = yes | | | | NbCapitale < 1 : yes (2/0) 4 15 | b = no | | | | NbCapitale >= 1 : no (4/0) | | Long >= 172 : yes (1/0) | NbStopwords >= 5 : yes (1/0) 21 NbNumérique >= 1 : yes (10/0)

Approche dapprentissage automatique pour lannotation automatique - PowerPoint PPT Presentation

Approche dapprentissage automatique pour lannotation automatique des vnements Dr. Rim Faiz IHEC de Carthage Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 28 octobre 2006 Plan Introduction Quelques mthodes dannotation

Apprentissage Automatique et Fouille de donnes textuelles Jean-Michel RENDERS Xerox Research

Annotation Processing in a Kotlin World Zac Sweers @pandanomic Annotation Processing in a

Une approche unifiante pour programmer s urement avec de la syntaxe du premier ordre contenant

Analyse Relationnelle de Concepts: Une approche pour fouiller des ensembles de donnes

Vers un apprentissage subquadratique pour les m elanges darbres F. Schnitzler 1 P. Leray 2

ISO TC67 WG10 ISO TC252 WG2 Normalisation internationale pour les installations et

Annotation and Evaluation Diana Maynard, Niraj Aswani University of Sheffield University of

Lecture 2 Annotation tools & Segmentation Summary of Part 1 Annotation theory

Systematic Annotation Mark Voorhies 4/5/2012 Mark Voorhies Systematic Annotation Review RTFM

Assessing annotation Assessing annotation consistency in the Gene consistency in the Gene

Introduction Detecting Errors in Effects of Annotation Errors Detecting Errors in Corpus

Web Annotations Building the Experience Annotation An annotation is something added. It is not

Deployer l'Internet-des-objets faible cot et avec une approche open-source Prof. Congduc

pour le dveloppement ? Serge Tomasi, Directeur Adjoint Direction de la Coopration pour le

Descripteurs divers niveaux de concepts pour la classification concepts pour la classification

Project Simple Annotation Pipeline - Ranjit Kumaresan Simple Annotation Pipeline Run a gene

Deux ou trois choses que je sais delles Antonio Galves Chains with variable memory Deux ou

Prs rt t rst

Performance Measurement Work Group Meeting: PAU Future Directions 03/28/2018 PAU Discussion

Helicopter Parents: Examining the Helicopter Parents Impact of Highly Involved Parents on

Ernest Hemingway 09.30.10 || English 1302: Composition II || D. Glen Smith, instructor Ernest

Jake Calcutt Dec. 19, 2019 Jake Calcutt 2 The ProtoDUNE beamline provides a momentum measurement

Flow Splitting in Tng, a Next-Generation Transport Architecture Bryan Ford Janardhan Iyengar

The Future of Behavioral Health in the Workplace, 2020 and Beyond Daniel N. Jolivet, Ph.D.,

Approche dapprentissage automatique pour lannotation automatique - PowerPoint PPT Presentation

Approche dapprentissage automatique pour lannotation automatique des vnements Dr. Rim Faiz IHEC de Carthage Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 28 octobre 2006 Plan Introduction Quelques mthodes dannotation

Apprentissage Automatique et Fouille de donnes textuelles Jean-Michel RENDERS Xerox Research

Annotation Processing in a Kotlin World Zac Sweers @pandanomic Annotation Processing in a

Une approche unifiante pour programmer s urement avec de la syntaxe du premier ordre contenant

Analyse Relationnelle de Concepts: Une approche pour fouiller des ensembles de donnes

Vers un apprentissage subquadratique pour les m elanges darbres F. Schnitzler 1 P. Leray 2

ISO TC67 WG10 ISO TC252 WG2 Normalisation internationale pour les installations et

Annotation and Evaluation Diana Maynard, Niraj Aswani University of Sheffield University of

Lecture 2 Annotation tools &amp; Segmentation Summary of Part 1 Annotation theory

Systematic Annotation Mark Voorhies 4/5/2012 Mark Voorhies Systematic Annotation Review RTFM

Assessing annotation Assessing annotation consistency in the Gene consistency in the Gene

Introduction Detecting Errors in Effects of Annotation Errors Detecting Errors in Corpus

Web Annotations Building the Experience Annotation An annotation is something added. It is not

Deployer l'Internet-des-objets faible cot et avec une approche open-source Prof. Congduc

pour le dveloppement ? Serge Tomasi, Directeur Adjoint Direction de la Coopration pour le

Descripteurs divers niveaux de concepts pour la classification concepts pour la classification

Project Simple Annotation Pipeline - Ranjit Kumaresan Simple Annotation Pipeline Run a gene

Deux ou trois choses que je sais delles Antonio Galves Chains with variable memory Deux ou

Prs rt t rst

Performance Measurement Work Group Meeting: PAU Future Directions 03/28/2018 PAU Discussion

Helicopter Parents: Examining the Helicopter Parents Impact of Highly Involved Parents on

Ernest Hemingway 09.30.10 || English 1302: Composition II || D. Glen Smith, instructor Ernest

Jake Calcutt Dec. 19, 2019 Jake Calcutt 2 The ProtoDUNE beamline provides a momentum measurement

Flow Splitting in Tng, a Next-Generation Transport Architecture Bryan Ford Janardhan Iyengar

The Future of Behavioral Health in the Workplace, 2020 and Beyond Daniel N. Jolivet, Ph.D.,

Lecture 2 Annotation tools & Segmentation Summary of Part 1 Annotation theory