Weakly-Supervised Acquisition of Labeled Class Instances for - PowerPoint PPT Presentation

Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction Partha Pratim Talukdar (UPenn) Joseph Reisinger (UT Austin) Marius Pa¸ sca (Google) Deepak Ravichandran (Google) Rahul Bhagat (USC) Fernando Pereira (Google) Work done at Google during Summer 2008. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Motivation • (Class, Instance) pairs ( e.g. (pain killer, aspirin) ) can be useful in many applications e.g. web search. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Motivation • (Class, Instance) pairs ( e.g. (pain killer, aspirin) ) can be useful in many applications e.g. web search. • Given an entity/instance, it is often desirable to know its type. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Motivation • (Class, Instance) pairs ( e.g. (pain killer, aspirin) ) can be useful in many applications e.g. web search. • Given an entity/instance, it is often desirable to know its type. • A limited number of classes are not enough: Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Motivation • (Class, Instance) pairs ( e.g. (pain killer, aspirin) ) can be useful in many applications e.g. web search. • Given an entity/instance, it is often desirable to know its type. • A limited number of classes are not enough: • Web search queries include active volcanoes like Kilauea , zoonotic diseases like monkeypox etc., demonstrating general user interest in them. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Motivation • (Class, Instance) pairs ( e.g. (pain killer, aspirin) ) can be useful in many applications e.g. web search. • Given an entity/instance, it is often desirable to know its type. • A limited number of classes are not enough: • Web search queries include active volcanoes like Kilauea , zoonotic diseases like monkeypox etc., demonstrating general user interest in them. • Covering one class at a time (as in standard Named Entity Extraction) is resource intensive and not sufficient. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Motivation • (Class, Instance) pairs ( e.g. (pain killer, aspirin) ) can be useful in many applications e.g. web search. • Given an entity/instance, it is often desirable to know its type. • A limited number of classes are not enough: • Web search queries include active volcanoes like Kilauea , zoonotic diseases like monkeypox etc., demonstrating general user interest in them. • Covering one class at a time (as in standard Named Entity Extraction) is resource intensive and not sufficient. • Need open domain extraction involving large number of classes and large number of instances. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Previous Work Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Previous Work • Named Entity Extraction: small number of classes, extensive supervision. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Previous Work • Named Entity Extraction: small number of classes, extensive supervision. • (Van Durme and Pasca, AAAI 08): open domain extraction, high precision, low recall: precision drops fast with increasing recall. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Previous Work • Named Entity Extraction: small number of classes, extensive supervision. • (Van Durme and Pasca, AAAI 08): open domain extraction, high precision, low recall: precision drops fast with increasing recall. • Our starting point: extractions from (Van Durme and Pasca, 2008). Class Size Examples of Instances Book Publishers 70 Crown Publishing, Kluwer Academic, Prentice Hall, Puffin, . . . Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: • Extract additional instances for existing classes . Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: • Extract additional instances for existing classes . • Identify additional class labels for existing instances . Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: • Extract additional instances for existing classes . • Identify additional class labels for existing instances . • Handle initial pairs from diverse sources and methods. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: • Extract additional instances for existing classes . • Identify additional class labels for existing instances . • Handle initial pairs from diverse sources and methods. • Require minimal human supervision. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: • Extract additional instances for existing classes . • Identify additional class labels for existing instances . • Handle initial pairs from diverse sources and methods. • Require minimal human supervision. • Do all these in a scalable manner. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Objectives Starting with such automatically extracted (class, instance) pairs: • Extract additional instances for existing classes . • Identify additional class labels for existing instances . • Handle initial pairs from diverse sources and methods. • Require minimal human supervision. • Do all these in a scalable manner. • Increase coverage (recall) at comparable quality (precision)! Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Where do we get instances from? Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Where do we get instances from? • A8: Extractions from unstructured text by (Van Durme and Pasca, AAAI 08). Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Where do we get instances from? • A8: Extractions from unstructured text by (Van Durme and Pasca, AAAI 08). • WebTables (Cafarella et al., VLDB 2008) Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Where do we get instances from? • A8: Extractions from unstructured text by (Van Durme and Pasca, AAAI 08). • WebTables (Cafarella et al., VLDB 2008) • 154M HTML tables extracted from the web. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Where do we get instances from? • A8: Extractions from unstructured text by (Van Durme and Pasca, AAAI 08). • WebTables (Cafarella et al., VLDB 2008) • 154M HTML tables extracted from the web. • Rich source of instances, already segmented by webpage creators. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Where do we get instances from? • A8: Extractions from unstructured text by (Van Durme and Pasca, AAAI 08). • WebTables (Cafarella et al., VLDB 2008) • 154M HTML tables extracted from the web. • Rich source of instances, already segmented by webpage creators. • Structured text. Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Assigning class labels to WebTable instances WebTable A8 Year Artist Albums musician . . . . . . Johnny Cash Bob Dylan . . Bob Dylan . . . . . . Johnny Cash . . . Bob Dylan . . . . Score (musician, Johnny Cash) = 0.87 Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Putting together tuples from first phase extractors Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Putting together tuples from first phase extractors • A graph based representation is used: each tuple from A8 and WebTable is a weighted edge, with nodes representing classes and instances. Bob Dylan 0.95 musician 0.87 0.82 Johnny Cash 0.73 singer 0.75 Billy Joel Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Initialization: Seed Labels Marked musician 1.0 Bob Dylan 0.95 Seed Labels musician 0.87 0.82 Johnny Cash 0.73 singer singer 1.0 0.75 Billy Joel Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Label Propagation: Adsorption (Baluja et al., 2008) Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction

Weakly-Supervised Acquisition of Labeled Class Instances for - PowerPoint PPT Presentation

Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction Partha Pratim Talukdar (UPenn) Joseph Reisinger (UT Austin) Marius Pa sca (Google) Deepak Ravichandran (Google) Rahul Bhagat (USC) Fernando

free 18-May-17 Towards Weakly Supervised Image Understanding 1/50 Towards Weakly Supervised

Weakly Supervised Classification Weakly Supervised Classification and Robust Learning and Robust

Margin-based Semi-supervised Learning Using Apollonius circle MONA EMADI AND JAFAR TANHA T TC S

LID Challenge: Weakly Supervised Semantic Segmentation 3d place solution NoPeopleAllowed: The 3

Dual-Gradients Localization framework for Weakly Supervised Object Localization Chuangchuang Tan

Weakly-Supervised Temporal Localization via Occurrence Count Learning Julien Schroeter

Learning to Rank with Learning to Rank with Partially-Labeled Data Partially-Labeled Data Kevin

Learning to Rank Learning to Rank with Partially-Labeled Data with Partially-Labeled Data Kevin

Searches for New Light Weakly Coupled Particles around DESY Intensity Frontier Workshop IF5:

Universal homogeneous constraint structures and the hom-equivalence classes of weakly

Automatic Face Recognition in Weakly Constrained Environments Fabien Cardinaux cardinau@idiap.ch

Midterm review CS 446 1. Lecture review (Lec1.) Basic setting: supervised learning Training data

Shoestring: Graph-Based Semi- Supervised Classification with Severely Limited Labeled Data Wanyu

Recognizing object instances 3. Recognizing object instances Kristen Grauman UT-Austin Image

PCA CS 446 Supervised learning So far, weve done supervised learning: Given (( x i , y i )) ,

4CSLL5 Parameter Estimation (Supervised and Unsupervised) Supervised Maximum Likelihood

9/14/2019 DISCLOSURE Faculty: Erin Michos, MD Aspirin in Primary CVD Prevention: DISCLOSURE: I

Disclosures No Conflicts of Interest No Financial Disclosures Credit to Dr. Lucas Zier (UCSF)

Rivaroxaban with or without aspirin in stable cardiovascular disease John Eikelboom, on behalf of

Ticagrelor With AspIrin or ALone In HiGH-Risk Patients After Coronary InTervention Roxana

COLORECTAL CANCER STRATEGIES FOR DETECTION & PREVENTION Of the precancerous and cancerous

SMCQL: Secure Querying for Federated Databases Raluca Ada Popa Oct 1, 2019 Some slides are

A Visual Analytics Approach to Comparing Cohorts of Event Sequences Sana Malik, Fan Du, Megan

NEO TRIAL A Phase II, Open-Label, Randomized, Multi-Centre Study, of Neoadjuvant Olaparib in

Weakly-Supervised Acquisition of Labeled Class Instances for - PowerPoint PPT Presentation

Weakly-Supervised Acquisition of Labeled Class Instances for Open-Domain Information Extraction Partha Pratim Talukdar (UPenn) Joseph Reisinger (UT Austin) Marius Pa sca (Google) Deepak Ravichandran (Google) Rahul Bhagat (USC) Fernando

free 18-May-17 Towards Weakly Supervised Image Understanding 1/50 Towards Weakly Supervised

Weakly Supervised Classification Weakly Supervised Classification and Robust Learning and Robust

Margin-based Semi-supervised Learning Using Apollonius circle MONA EMADI AND JAFAR TANHA T TC S

LID Challenge: Weakly Supervised Semantic Segmentation 3d place solution NoPeopleAllowed: The 3

Dual-Gradients Localization framework for Weakly Supervised Object Localization Chuangchuang Tan

Weakly-Supervised Temporal Localization via Occurrence Count Learning Julien Schroeter

Learning to Rank with Learning to Rank with Partially-Labeled Data Partially-Labeled Data Kevin

Learning to Rank Learning to Rank with Partially-Labeled Data with Partially-Labeled Data Kevin

Searches for New Light Weakly Coupled Particles around DESY Intensity Frontier Workshop IF5:

Universal homogeneous constraint structures and the hom-equivalence classes of weakly

Automatic Face Recognition in Weakly Constrained Environments Fabien Cardinaux cardinau@idiap.ch

Midterm review CS 446 1. Lecture review (Lec1.) Basic setting: supervised learning Training data

Shoestring: Graph-Based Semi- Supervised Classification with Severely Limited Labeled Data Wanyu

Recognizing object instances 3. Recognizing object instances Kristen Grauman UT-Austin Image

PCA CS 446 Supervised learning So far, weve done supervised learning: Given (( x i , y i )) ,

4CSLL5 Parameter Estimation (Supervised and Unsupervised) Supervised Maximum Likelihood

9/14/2019 DISCLOSURE Faculty: Erin Michos, MD Aspirin in Primary CVD Prevention: DISCLOSURE: I

Disclosures No Conflicts of Interest No Financial Disclosures Credit to Dr. Lucas Zier (UCSF)

Rivaroxaban with or without aspirin in stable cardiovascular disease John Eikelboom, on behalf of

Ticagrelor With AspIrin or ALone In HiGH-Risk Patients After Coronary InTervention Roxana

COLORECTAL CANCER STRATEGIES FOR DETECTION &amp; PREVENTION Of the precancerous and cancerous

SMCQL: Secure Querying for Federated Databases Raluca Ada Popa Oct 1, 2019 Some slides are

A Visual Analytics Approach to Comparing Cohorts of Event Sequences Sana Malik, Fan Du, Megan

NEO TRIAL A Phase II, Open-Label, Randomized, Multi-Centre Study, of Neoadjuvant Olaparib in

COLORECTAL CANCER STRATEGIES FOR DETECTION & PREVENTION Of the precancerous and cancerous