approche d apprentissage automatique pour l annotation
play

Approche dapprentissage automatique pour lannotation automatique - PowerPoint PPT Presentation

Approche dapprentissage automatique pour lannotation automatique des vnements Dr. Rim Faiz IHEC de Carthage Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 28 octobre 2006 Plan Introduction Quelques mthodes dannotation


  1. Approche d’apprentissage automatique pour l’annotation automatique des événements Dr. Rim Faiz IHEC de Carthage Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 – 28 octobre 2006

  2. Plan � Introduction � Quelques méthodes d’annotation � Approche d’annotation des événements � Etapes du processus d’annotation � Exemples � Perspectives 2

  3. Introduction � Prolifération des articles de Presse sur le Web � Diversité de leurs sources (Reuters, Aljazeera, CNN,…) � Un traitement automatique de leurs contenus devient de plus en plus nécessaire. � Quotidiennement des milliers d’articles sont produits dans le monde entier concernant un événement donné. � Nous proposons de développer une approche qui annote automatiquement ces articles de Presse. 3

  4. Annotation � Annotation : information graphique ou textuelle attachée à un document et le plus souvent placée dans ce même document ( Desmontils et Jacquin, 2002 ). � Dans notre cas, l’annotation est une description des principaux événements que contient un article de Presse. � Nous proposons un processus permettant d’extraire tous les événements ensuite de les grouper avant de générer l’annotation. 4

  5. Quelques méthodes d’annotation

  6. Annotation pour le web sémantique C. Roussey, S. Calabretto et J-M Pinon (2002, 2004) � SyDoM : un outil d’annotation pour le web sémantique. � Traiter des pages web en formats XML � Expliciter les connaissances associées à une page web par le biais d’annotations � Permet la recherche multilingue 6

  7. Annotation sémantique de pages web S.Tenier, A. Napoli, X. Polanco et Y.Toussaint, (2006) Classifier des pages concernant des équipes de � recherche, afin de pouvoir déterminer par exemple qui travaille où, sur quoi et avec qui (utilisation d’une ontologie du domaine). Cela consiste a � l’identification de la structure syntaxique caractérisant 1. l’élément pertinent dans la page web. l’identification du concept le plus spécifique (en termes de 2. subsumption) dans l’ontologie dont l’instance sera utilisée pour annoter cet élément. 7

  8. Annotation automatique de documents L. Abrouk, A. Gouaïch et C. Raïssi, (2006) � Approche pour l’annotation des documents qui consiste à se baser sur les références citées afin de propager leurs annotations sur le document cible. � L’approche permet d’annoter directement une ressource sans connaissance préalable de son contenu selon un regroupement thématique construit à partir d’un classifieur flou non supervisé. 8

  9. Annotea J. Kahan et M.-R. Koivunen (2001) � Annotea fait partie des tentatives du Semantic Web . � Les annotations sont stockées sur des serveurs en tant que méta-données et présentées à l'utilisateur par le biais d'un client capable d'interagir avec le serveur en utilisant le protocole HTTP. 9

  10. Annotation et indexation discursives de textes J.P. Desclés et al. (2005-2006) � EXCOM/MOCXE � Notion de points de vue (extraction, filtrage, catégorisation d’information) � Fouille de textes par catégorie sémantique � Recherche d’information discursives et sémantiques 10

  11. Constat � Annotation des documents (documents web, articles scientifiques, documents multimédias, services web,…) � Annotation des informations temporelles � La détection de dates et de marqueurs temporels � Le repérage d’événements ( Event Extraction ) � Datation d’événements � Détermination de l’ordre des événements dans un texte 11

  12. Annotation de relations temporelles P. Muller et X. Tannier (2004) � Annotation automatique d’informations temporelles dans des textes (dépêches d’agence) � Particulièrement les relations entre événements introduits par les verbes dans chaque clause. � Proposition de deux mesures d’évaluation de l’annotation : finesse et cohérence . 12

  13. Constat � Annotation des événements ? � Annotation de relations entres les événements � Annotation sous forme de méta-données sur les événements du document (article de Presse) � Notre approche d’annotation des événements consiste à : � Extraire les événements ( phrases événementielles ). � Grouper celles qui font référence à un même événement dans un cluster. � Déduire l’annotation sous différentes formes. 13

  14. ������ ������������������������� TAL Classification PEV1 ; PEV1 ; Ph1 ; PEV1 ; Articles PEv2 ; PEv2 ; Ph2 ; PEv2 ; bruts … … … … …… …… …… …… Ph1 ; PEV1 ; PEV1 ; PEV1 ; Ph2 ; PEv2 ; PEv2 ; PEv2 ; … … … … …… …… …… …… Ph1 ; PEV1 ; PEV1 ; PEV1 ; Ph2 ; PEv2 ; … PEv2 ; PEv2 ; … … … …… …… …… …… 14

  15. ������ ������������������������� Annotation Iraqi leader denies civil Clustering war as 50 people die. Description PEV1 PEV2 PEV1 ; PEv3 PEv4 PEV1 ; PEV7 PEV6 BD PEv2 ; … PEv2 ; Keyword : Killed … …… PEV5 …… PEv9 Location : Baghdad PEV10 Description Time/date : 2 p.m PEV1 PEV2 Person : U.S. soldier PEV1 ; PEV1 ; PEv3 PEv4 PEV7 PEV6 PEv2 ; PEv2 ; … … …… …… PEV5 PEv9 PEV10 Description PEV1 PEV2 PEV1 ; PEv3 PEv4 Deserter, war, Iraq PEV1 ; PEV7 PEV6 PEv2 ; … PEv2 ; …… PEV5 … PEv9 …… PEV10 15

  16. Première étape : segmentation � Applications des techniques de TAL aux textes pour extraire les phrases. � Segmentation du texte en phrases (exp. SegATex, LaLICC, G. Mourad, 2001). � Identification des phrases en utilisation le module de Lingua::EN::Sentence de Perl. 16

  17. Deuxième étape : Classification � Un modèle de classification est construit automatiquement en se basant sur un ensemble d’apprentissage ( training set ). � Prédire si une phrase contient un événement ou non � Comparaison des PCC ( Pourcentage des Classes bien Classées ) issus de différents algorithmes de classification par arbre de décision. � Choisir le modèle de données résultant qui dispose du plus grand PCC . � Le résultat de cette étape est l’ensemble des phrases référant à des événements. 17

  18. Deuxième étape : Sélection des attributs � Nous utilisons les attributs qui se rapportent aux événements tels que définis par Naughton et al. (2006). � Ces attributs sont les suivants : � longueur de la phrase, � position de la phrase dans le document, � nombre de lettres capitales, � nombre de caractères (stopwords), � nombre de noms de villes (city/town), � nombre de marques numériques dans la phrase, � Nombre de termes calendaires. 18

  19. Deuxième étape : training set � L’ensemble de l’apprentissage ( training set ) est annoté par des experts. � Pour chaque article de Presse, les événements sont annotés comme suit : � Les annotateurs sont amenés à assigner des étiquettes à chaque phrase représentant un événement. � Si une phrase se rapporte à un événement, ils lui assignent l'étiquette «yes» sinon «no» . 19

  20. Deuxième étape : Expérimentation RandomTree : construire plusieurs arbres puis choisir celui dont le score est maximal en se basant sur la matrice de distance et la corrélation entre les données. J48 : implémentation de C4.5 JR Quinlan (1993). Choisir pour chaque niveau le nœud de l’arbre comme l’attribut � qui différencie mieux les instances. Diviser le training set en sous-groupes afin de refléter les valeurs � de l’attribut du noeud choisi. Répéter le même traitement pour le sous groupe jusqu’à � l’obtention de sous groupes homogènes (toutes les instances ou la majorité ont le même attribut de décision) ADTree : construction d'arbres de décision étendus aux cas multi- classes et multi-labels. 20

  21. RandomTree RandomTree ========== Weka 3-4 NbNumérique < 1 Correctly Classified Instances 23 65.7143 % | NbStopwords < 5 Incorrectly Classified Instances 12 34.2857 % | | Long < 172 Kappa statistic 0.2953 | | | NbCity < 1 Mean absolute error 0.3429 | | | | Long < 118 Root mean squared error 0.5855 | | | | | NbMot < 9 : no (6/0) | | | | | NbMot >= 9 Relative absolute error 68.8027 % | | | | | | NbCapitale < 2 Root relative squared error 117.0862 % | | | | | | | NbMot < 11 Total Number of Instances 35 | | | | | | | | Long < 56 : yes (1/0) === Detailed Accuracy By Class === | | | | | | | | Long >= 56 : no (1/0) TP Rate FP Rate Precision Recall F-Measure Class | | | | | | | NbMot >= 11 : no (3/0) 0.5 0.211 0.667 0.5 0.571 yes | | | | | | NbCapitale >= 2 : no (4/0) 0.789 0.5 0.652 0.789 0.714 no | | | | Long >= 118 | | | | | NbStopwords < 2 : yes (1/0) === Confusion Matrix === | | | | | NbStopwords >= 2 : no (1/0) a b <-- classified as | | | NbCity >= 0.5 8 8 | a = yes | | | | NbCapitale < 1 : yes (2/0) 4 15 | b = no | | | | NbCapitale >= 1 : no (4/0) | | Long >= 172 : yes (1/0) | NbStopwords >= 5 : yes (1/0) 21 NbNumérique >= 1 : yes (10/0)

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend