STS for Machine Translation Evaluation STS Workshop, NYC March - PowerPoint PPT Presentation

Monolingual STS Multilingual STS STS for Evaluation My 2 cents STS for Machine Translation Evaluation STS Workshop, NYC March 12-13 2012 Lucia Specia University of Sheffield l.specia@sheffield.ac.uk Lucia Specia STS for Machine Translation Evaluation

Monolingual STS Multilingual STS STS for Evaluation My 2 cents Outline 1 Monolingual STS MT Evaluation against references TINE 2 Multilingual STS MT Evaluation without references Adequacy estimation - assimilation purposes 3 STS for Evaluation One metric fits evaluation for all applications? One metric fits all applications? 4 My 2 cents STS from an application perspective Lucia Specia STS for Machine Translation Evaluation

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Monolingual STS Meteor - inexact lexical/phrase matching Lucia Specia STS for Machine Translation Evaluation 1 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Monolingual STS Meteor - inexact lexical/phrase matching Pado et al. - textual entailment features Lucia Specia STS for Machine Translation Evaluation 1 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Monolingual STS Meteor - inexact lexical/phrase matching Pado et al. - textual entailment features Gimenez & Marquez - matching of semantic labels Lucia Specia STS for Machine Translation Evaluation 1 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Monolingual STS Meteor - inexact lexical/phrase matching Pado et al. - textual entailment features Gimenez & Marquez - matching of semantic labels Meant - matching of semantic roles (predicates and their arguments) Lucia Specia STS for Machine Translation Evaluation 1 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Monolingual STS Meteor - inexact lexical/phrase matching Pado et al. - textual entailment features Gimenez & Marquez - matching of semantic labels Meant - matching of semantic roles (predicates and their arguments) TINE - matching of semantic roles (predicates and their arguments), but automatically Lucia Specia STS for Machine Translation Evaluation 1 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Tine Is Not Entailment R : The lack of snow is putting [people] A 0 off booking [ski holidays] A 1 in [hotels and guest houses] AM − LOC . H : The lack of snow discourages [people] A 0 from ordering [ski stays] A 1 in [hotels and boarding houses] AM − LOC . Lucia Specia STS for Machine Translation Evaluation 2 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents Tine Is Not Entailment R : The lack of snow is putting [people] A 0 off booking [ski holidays] A 1 in [hotels and guest houses] AM − LOC . H : The lack of snow discourages [people] A 0 from ordering [ski stays] A 1 in [hotels and boarding houses] AM − LOC . Lexical matching component L & semantic component A : � α L ( H , R ) + β A ( H , R ) � T ( H , R ) = max α + β R ∈ R Lucia Specia STS for Machine Translation Evaluation 2 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents This Is Not Entailment L : BLEU ; S : matching of verbs and their arguments : � v ∈ V verb score ( H v , R v ) A ( H , R ) = | V r | 1. Align verbs using ontologies (VerbNet and VerbOcean): v h and v r are aligned if they share a class in VerbNet or hold a relation in VerbOcean Lucia Specia STS for Machine Translation Evaluation 3 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents This Is Not Entailment 2. Match arguments with same semantic roles: � a ∈ A h ∩ A r arg score ( H a , R a ) verb score ( H v , R v ) = | A r | Lucia Specia STS for Machine Translation Evaluation 4 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents This Is Not Entailment 3. Expand arguments using distributional semantics and match them using cosine similarity: arg score ( H a , R a ) Lucia Specia STS for Machine Translation Evaluation 5 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents This Is Not Entailment 3. Expand arguments using distributional semantics and match them using cosine similarity: arg score ( H a , R a ) TINE did slightly better than BLEU at segment level . Lucia Specia STS for Machine Translation Evaluation 5 / 17

Monolingual STS Multilingual STS MT Evaluation against references STS for Evaluation TINE My 2 cents This Is Not Entailment 3. Expand arguments using distributional semantics and match them using cosine similarity: arg score ( H a , R a ) TINE did slightly better than BLEU at segment level . Lexical component extremely important. Lucia Specia STS for Machine Translation Evaluation 5 / 17

Monolingual STS Multilingual STS MT Evaluation without references STS for Evaluation Adequacy estimation - assimilation purposes My 2 cents Quality Estimation No access to reference translation - MT system in use : post-editing, dissemination, assimilation, etc Lucia Specia STS for Machine Translation Evaluation 6 / 17

Monolingual STS Multilingual STS MT Evaluation without references STS for Evaluation Adequacy estimation - assimilation purposes My 2 cents Quality Estimation No access to reference translation - MT system in use : post-editing, dissemination, assimilation, etc Semantics particularly important for estimating adequacy Lucia Specia STS for Machine Translation Evaluation 6 / 17

Monolingual STS Multilingual STS MT Evaluation without references STS for Evaluation Adequacy estimation - assimilation purposes My 2 cents Example 1 Target: Chang-e III is expected to launch after 2013 Source: 嫦娥三号预计 2013 年前后发射 Reference: Chang-e III is expected to launch around 2013 By Google Translate Lucia Specia STS for Machine Translation Evaluation 7 / 17

Monolingual STS Multilingual STS MT Evaluation without references STS for Evaluation Adequacy estimation - assimilation purposes My 2 cents Example 2 Target: Continued high floods subside . Guang'an old city has been soaked 2 days 2 nights Source: 四川广安洪水持续高位不退老城区已被泡 2 天 2 夜 Reference: The continuing floods in Guang'an - Sichuan have not subsided . The old city has been flooded for 2 days and 2 nights. By Google Translate Lucia Specia STS for Machine Translation Evaluation 8 / 17

Monolingual STS Multilingual STS MT Evaluation without references STS for Evaluation Adequacy estimation - assimilation purposes My 2 cents Example 3 Target: site security should be included in sex education curriculum for students Source: 场地安全性教育应纳入学生的课程 Reference: site security requirements should be included in the education curriculum for students By Google Translate Lucia Specia STS for Machine Translation Evaluation 9 / 17

Monolingual STS Multilingual STS MT Evaluation without references STS for Evaluation Adequacy estimation - assimilation purposes My 2 cents Most common problems words translated incorrectly incorrect relationship: words/constituents/clauses missing/untranslated/repeated/added words incorrect word order inflectional/voice error Lucia Specia STS for Machine Translation Evaluation 10 / 17

Monolingual STS Multilingual STS One metric fits evaluation for all applications? STS for Evaluation One metric fits all applications? My 2 cents MT quality evaluation How does the metrics vary depending on how the references are produced? Standard references - semantic component only, segment-level correlation: 0.21 Post-edited translations - semantic component only, segment-level correlation: 0.55 Lucia Specia STS for Machine Translation Evaluation 11 / 17

Monolingual STS Multilingual STS One metric fits evaluation for all applications? STS for Evaluation One metric fits all applications? My 2 cents MT quality evaluation vs intrinsic evaluation TINE on WMT data: correlation: 0.30 TINE on Microsoft video data: correlation: 0.43 TINE on Microsoft paraphrase data: correlation: 0.30 Lucia Specia STS for Machine Translation Evaluation 12 / 17

Monolingual STS Multilingual STS One metric fits evaluation for all applications? STS for Evaluation One metric fits all applications? My 2 cents MT quality estimation and evaluation Can we use the same approach as reference-based evaluation , but bilingual ? Lucia Specia STS for Machine Translation Evaluation 13 / 17

STS for Machine Translation Evaluation STS Workshop, NYC March - PowerPoint PPT Presentation

Monolingual STS Multilingual STS STS for Evaluation My 2 cents STS for Machine Translation Evaluation STS Workshop, NYC March 12-13 2012 Lucia Specia University of Sheffield l.specia@sheffield.ac.uk Lucia Specia STS for Machine

Statistical Machine Translation Nadir Durrani 21-November-2014 Machine Translation

History & Evaluation CMSC 470 Marine Carpuat T odays topics Machine Translation

Introd u ction to machine translation MAC H IN E TR AN SL ATION IN P YTH ON Th u shan

Machine Translation Machine Translation February 13, 2008 Andreas Eisele UdS Computerlinguistik

Neural Machine Translation Gongbo Tang 8 October 2018 Outline Neural Machine Translation 1

11-731 Machine Translation Speech 2 Speech Translation Speech Translation Three part systems

Machine Translation Philipp Koehn 28 April 2020 Philipp Koehn Artificial Intelligence: Machine

Statistical Machine Translation Statistical Machine Translation p Lecture 2 Theory and Praxis of

Computer Aided Translation Philipp Koehn 30 April 2015 Philipp Koehn Machine Translation:

Computer Aided Translation Philipp Koehn 15 November 2018 Philipp Koehn Machine Translation:

Machine Translation: Going Deep Philipp Koehn 4 June 2015 Philipp Koehn Machine Translation:

Machine Translation Philipp Koehn 1 December 2015 Philipp Koehn Artificial Intelligence:

Neural Machine Translation II Refinements Philipp Koehn 17 October 2017 Philipp Koehn Machine

Representing Huge Translation Models Statistical Machine Translation parallel text + alignment

Dependency Dependency- -Based Automatic Evaluation Based Automatic Evaluation Dependency

Chapter 8 Evaluation Statistical Machine Translation Evaluation How good is a given machine

Next Generation Ocean Prediction: Preparing for SWOT Joseph M. DAddezio 1 Gregg A. Jacobs 1 ,

dynamic cosmic web Florent Leclercq Institut dAstrophysique de Paris Institut Lagrange de

Census Leticia Fernandez U.S. Census Bureau July 22, 2014 DC-AAPOR/WSS Summer Conference This

Linking linking Weak forms Linking Weak forms Elision (sound cut)

Predictive Efficacy of a New Association Football League Format in Polish Ekstraklasa Jan Lasek 1

British Irish Commercial Bar Association 6 th April 2017 Manchester City Football Club City

Randomness in Competitions Eli Ben-Naim Complex Systems Group & Center for Nonlinear Studies

Meeting in Meeting in Rome Rome 2 29 9 30 30 September September 201

STS for Machine Translation Evaluation STS Workshop, NYC March - PowerPoint PPT Presentation

Monolingual STS Multilingual STS STS for Evaluation My 2 cents STS for Machine Translation Evaluation STS Workshop, NYC March 12-13 2012 Lucia Specia University of Sheffield l.specia@sheffield.ac.uk Lucia Specia STS for Machine

Statistical Machine Translation Nadir Durrani 21-November-2014 Machine Translation

History &amp; Evaluation CMSC 470 Marine Carpuat T odays topics Machine Translation

Introd u ction to machine translation MAC H IN E TR AN SL ATION IN P YTH ON Th u shan

Machine Translation Machine Translation February 13, 2008 Andreas Eisele UdS Computerlinguistik

Neural Machine Translation Gongbo Tang 8 October 2018 Outline Neural Machine Translation 1

11-731 Machine Translation Speech 2 Speech Translation Speech Translation Three part systems

Machine Translation Philipp Koehn 28 April 2020 Philipp Koehn Artificial Intelligence: Machine

Statistical Machine Translation Statistical Machine Translation p Lecture 2 Theory and Praxis of

Computer Aided Translation Philipp Koehn 30 April 2015 Philipp Koehn Machine Translation:

Computer Aided Translation Philipp Koehn 15 November 2018 Philipp Koehn Machine Translation:

Machine Translation: Going Deep Philipp Koehn 4 June 2015 Philipp Koehn Machine Translation:

Machine Translation Philipp Koehn 1 December 2015 Philipp Koehn Artificial Intelligence:

Neural Machine Translation II Refinements Philipp Koehn 17 October 2017 Philipp Koehn Machine

Representing Huge Translation Models Statistical Machine Translation parallel text + alignment

Dependency Dependency- -Based Automatic Evaluation Based Automatic Evaluation Dependency

Chapter 8 Evaluation Statistical Machine Translation Evaluation How good is a given machine

Next Generation Ocean Prediction: Preparing for SWOT Joseph M. DAddezio 1 Gregg A. Jacobs 1 ,

dynamic cosmic web Florent Leclercq Institut dAstrophysique de Paris Institut Lagrange de

Census Leticia Fernandez U.S. Census Bureau July 22, 2014 DC-AAPOR/WSS Summer Conference This

Linking linking Weak forms Linking Weak forms Elision (sound cut)

Predictive Efficacy of a New Association Football League Format in Polish Ekstraklasa Jan Lasek 1

British Irish Commercial Bar Association 6 th April 2017 Manchester City Football Club City

Randomness in Competitions Eli Ben-Naim Complex Systems Group &amp; Center for Nonlinear Studies

Meeting in Meeting in Rome Rome 2 29 9 30 30 September September 201

History & Evaluation CMSC 470 Marine Carpuat T odays topics Machine Translation

Randomness in Competitions Eli Ben-Naim Complex Systems Group & Center for Nonlinear Studies