Class-Based Language Modeling for Translating into Morphologically - - PowerPoint PPT Presentation

class based language modeling for translating into
SMART_READER_LITE
LIVE PREVIEW

Class-Based Language Modeling for Translating into Morphologically - - PowerPoint PPT Presentation

Class-Based Language Modeling for Translating into Morphologically Rich Languages Arianna Bisazza & Christof Monz Phrase-based SMT Disto. scores word S1 word S2 word S3 word


slide-1
SLIDE 1

Class-Based Language Modeling for Translating into Morphologically Rich Languages

Arianna Bisazza & Christof Monz

slide-2
SLIDE 2

Phrase-based SMT

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 2 ¡

wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡wordS1 ¡ ¡ ¡wordS2 ¡ ¡ ¡wordS3 ¡ ¡ ¡ ¡wordS4 ¡ ¡wordS5 ¡ ¡ ¡ ¡wordS6 ¡ ¡ ¡wordS7 ¡ ¡ ¡ ¡ ¡

LM ¡scores ¡

  • Disto. ¡scores ¡

SRC: ¡ ¡TRG: ¡

slide-3
SLIDE 3

Phrase-based SMT

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 3 ¡

wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡ ¡ ¡wordT3 ¡ ¡ ¡wordT4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡

LM ¡scores ¡

¡ ¡ ¡wordS1 ¡ ¡ ¡wordS2 ¡ ¡ ¡wordS3 ¡ ¡ ¡ ¡wordS4 ¡ ¡wordS5 ¡ ¡ ¡ ¡wordS6 ¡ ¡ ¡wordS7 ¡ ¡ ¡ ¡ ¡

LM ¡scores ¡

  • Disto. ¡scores ¡
  • Disto. ¡scores ¡

SRC: ¡ ¡TRG: ¡

slide-4
SLIDE 4

Phrase-based SMT

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 4 ¡

wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡ ¡ ¡wordT3 ¡ ¡ ¡wordT4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡

LM ¡scores ¡

¡ ¡ ¡wordS1 ¡ ¡ ¡wordS2 ¡ ¡ ¡wordS3 ¡ ¡ ¡ ¡wordS4 ¡ ¡wordS5 ¡ ¡ ¡ ¡wordS6 ¡ ¡ ¡wordS7 ¡ ¡ ¡ ¡ ¡

LM ¡scores ¡

  • Disto. ¡scores ¡
  • Disto. ¡scores ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡ logPLM(e) ¡ logPDM(ft-­‑1,ft) ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡… ¡ ¡+ ¡ + ¡

SRC: ¡ ¡TRG: ¡

slide-5
SLIDE 5

Phrase-based SMT

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 5 ¡

LM ¡scores ¡ LM ¡scores ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡ logPLM(e) ¡ logPDM(ft-­‑1,ft) ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡… ¡ ¡+ ¡ + ¡

wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡ ¡ ¡wordT3 ¡ ¡ ¡wordT4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡ ¡TRG: ¡

slide-6
SLIDE 6

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 6 ¡

slide-7
SLIDE 7

freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 7 ¡

LM ¡score ¡

PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡

  • English: ¡
slide-8
SLIDE 8

freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 8 ¡

PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡

  • English: ¡

PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡

  • Morphologically ¡rich ¡language: ¡

la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡

LM ¡score ¡ LM ¡score ¡

slide-9
SLIDE 9

freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 9 ¡

PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡

  • Morphologically ¡rich ¡language: ¡
  • English: ¡

la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡

LM ¡score ¡

PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡

deve ¡essere ¡incoraggiato ¡ ¡120 ¡ devono ¡essere ¡incoraggia8 ¡ ¡ ¡ ¡ ¡54 ¡ dovrebbe ¡essere ¡incoraggiata ¡ ¡ ¡ ¡ ¡ ¡ ¡3 ¡ … ¡ ¡ ¡ ¡ ¡ ¡ ¡… ¡ deve ¡essere ¡incoraggiata ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡

Must ¡backoff ¡to ¡ shorter ¡history! ¡

LM ¡score ¡

slide-10
SLIDE 10

freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 10 ¡

PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡

  • Morphologically ¡rich ¡language: ¡
  • English: ¡

la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡ PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡

Must ¡backoff ¡to ¡ shorter ¡history! ¡

LM ¡score ¡

slide-11
SLIDE 11

freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 11 ¡

PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡

  • Morphologically ¡rich ¡language: ¡
  • English: ¡

la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡ PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡

Must ¡backoff ¡to ¡ shorter ¡history! ¡

¡(sing.fem.) ¡ ¡(sing.fem.) ¡ LM ¡score ¡

slide-12
SLIDE 12

freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡

N-gram language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 12 ¡

PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡

  • Morphologically ¡rich ¡language: ¡
  • English: ¡

la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡ PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡

Must ¡backoff ¡to ¡ shorter ¡history! ¡ Long ¡dependencies ¡ important ¡for ¡inflec8on! ¡

¡(sing.fem.) ¡ ¡(sing.fem.) ¡ LM ¡score ¡

slide-13
SLIDE 13

Class-based language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 13 ¡

  • IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡

into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡

Pclass(wi|wi−1

i−n+1) = p

) = p0(C(wi)|C(wi−1

i−n+1)) · p1(wi|C(wi))

slide-14
SLIDE 14

Class-based language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 14 ¡

  • IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡

into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡

Pclass(wi|wi−1

i−n+1) = p

) = p0(C(wi)|C(wi−1

i−n+1)) · p1(wi|C(wi))

PCLASS ¡≈ ¡ ¡ ¡# ¡(Cx ¡ ¡Cy ¡ ¡Cz) ¡ # ¡(Cx ¡ ¡Cy ¡ ¡* ¡) ¡ . ¡ ¡ ¡# ¡(incoraggiata) ¡ # ¡(Cz) ¡

deve ¡ ¡ ¡essere ¡ ¡incoraggiata ¡ Cx ¡ Cy ¡ Cz ¡

slide-15
SLIDE 15

Class-based language modeling

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 15 ¡

  • IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡

into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡

Enable ¡use ¡of ¡ longer ¡history ¡ Capture ¡long ¡dependencies ¡ for ¡inflec8on ¡ Pclass(wi|wi−1

i−n+1) = p

) = p0(C(wi)|C(wi−1

i−n+1)) · p1(wi|C(wi))

þ ¡ ¡☐ ¡

¡? ¡

PCLASS ¡≈ ¡ ¡ ¡# ¡(Cx ¡ ¡Cy ¡ ¡Cz) ¡ # ¡(Cx ¡ ¡Cy ¡ ¡* ¡) ¡ . ¡ ¡ ¡# ¡(incoraggiata) ¡ # ¡(Cz) ¡

deve ¡ ¡ ¡essere ¡ ¡incoraggiata ¡ Cx ¡ Cy ¡ Cz ¡

slide-16
SLIDE 16

Goal of this work

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 16 ¡

slide-17
SLIDE 17

Goal of this work

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 17 ¡

Compare ¡in ¡a ¡unified ¡SMT ¡segng: ¡

} different ¡kinds ¡of ¡classes ¡ } different ¡class-­‑based ¡model ¡forms ¡ } different ¡combining ¡frameworks ¡

for ¡transla8on ¡into ¡a ¡morphologically ¡rich ¡language ¡

slide-18
SLIDE 18

Goal of this work

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 18 ¡

Compare ¡in ¡a ¡unified ¡SMT ¡segng: ¡

} different ¡kinds ¡of ¡classes ¡ } different ¡class-­‑based ¡model ¡forms ¡ } different ¡combining ¡frameworks ¡

for ¡transla8on ¡into ¡a ¡morphologically ¡rich ¡language ¡ Working ¡language ¡pair: ¡

} English ¡to ¡Russian ¡(Russian ¡type/token ¡ra8o ¡two ¡8mes ¡

higher ¡than ¡English) ¡

¡

¡

slide-19
SLIDE 19

Kinds of classes

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 19 ¡

} Data-­‑driven: ¡par88on ¡vocabulary ¡into ¡given ¡nb. ¡of ¡clusters ¡

by ¡maximizing ¡likelihood ¡of ¡training ¡corpus ¡ Hybrid ¡suffix/class ¡mappings ¡(Müller ¡et ¡al. ¡2012): ¡

slide-20
SLIDE 20

Kinds of classes

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 20 ¡

} Data-­‑driven: ¡par88on ¡vocabulary ¡into ¡given ¡nb. ¡of ¡clusters ¡

by ¡maximizing ¡likelihood ¡of ¡training ¡corpus ¡

} Linguis8c: ¡

} annota8on-­‑based: ¡POS, ¡lemma, ¡morphological ¡tag ¡… ¡

¡ ¡ ¡ ¡ ¡(possible ¡issue: ¡non-­‑determinis8c ¡class ¡mapping) ¡

} shallow: ¡simple ¡rule-­‑based ¡suffixes, ¡φ ¡most ¡frequent ¡suffixes, ¡

  • rthographic ¡features ¡

Hybrid ¡suffix/class ¡mappings ¡(Müller ¡et ¡al. ¡2012): ¡

slide-21
SLIDE 21

Kinds of classes

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 21 ¡

} Data-­‑driven: ¡par88on ¡vocabulary ¡into ¡given ¡nb. ¡of ¡clusters ¡

by ¡maximizing ¡likelihood ¡of ¡training ¡corpus ¡

} Linguis8c: ¡

} annota8on-­‑based: ¡POS, ¡lemma, ¡morphological ¡tag ¡… ¡

¡ ¡ ¡ ¡ ¡(possible ¡issue: ¡non-­‑determinis8c ¡class ¡mapping) ¡

} shallow: ¡simple ¡rule-­‑based ¡suffixes, ¡φ ¡most ¡frequent ¡suffixes, ¡

  • rthographic ¡features ¡

} Hybrid ¡suffix/class ¡mappings ¡(Müller ¡et ¡al. ¡2012): ¡ C(w) ¡= ¡ w ¡if ¡ ¡#(w) ¡> ¡θ ¡ suff(w) ¡otherwise ¡

NEW ¡for ¡ SMT ¡

la ¡ ¡ ¡ ¡libertà ¡ ¡ ¡di ¡ ¡ ¡movimento ¡ ¡deve ¡ ¡ ¡essere ¡ ¡ ¡incoraggiata ¡

¡[la] ¡ ¡ ¡ ¡ ¡ ¡ ¡[-­‑à] ¡ ¡ ¡ ¡ ¡[di] ¡ ¡ ¡ ¡ ¡[-­‑imento] ¡ ¡ ¡ ¡ ¡ ¡[deve] ¡ ¡[essere] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[-­‑ata] ¡

slide-22
SLIDE 22

Class-based model forms

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 22 ¡

} Class-­‑based ¡LM ¡originally ¡proposed ¡for ¡ASR: ¡

Pclass(wi|wi−1

i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi))

slide-23
SLIDE 23

Class-based model forms

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 23 ¡

} Class-­‑based ¡LM ¡originally ¡proposed ¡for ¡ASR: ¡ } “Stream”-­‑based ¡LM: ¡no ¡class-­‑to-­‑word ¡emission ¡probability ¡

Pclass(wi|wi−1

i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi))

Pstream(wi|wi−1

i−n+1) = p0(C(wi)|C(wi−1 i−n+1))

slide-24
SLIDE 24

Class-based model forms

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 24 ¡

} Class-­‑based ¡LM ¡originally ¡proposed ¡for ¡ASR: ¡ } “Stream”-­‑based ¡LM: ¡no ¡class-­‑to-­‑word ¡emission ¡probability ¡ } Fullibm ¡LM: ¡context-­‑sensi8ve ¡emission ¡probability ¡

(Goodman ¡2001) ¡

Pclass(wi|wi−1

i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi))

Pstream(wi|wi−1

i−n+1) = p0(C(wi)|C(wi−1 i−n+1))

Pfullibm(wi|wi−1

i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi i−n+1))

NEW ¡for ¡ SMT ¡

slide-25
SLIDE 25

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 25 ¡

slide-26
SLIDE 26

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 26 ¡

} Log-­‑linear ¡interpola8on ¡(model ¡level): ¡

¡

p(x|h) = Y

m

pm(x|h)αm

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡ logPLM(e) ¡

logPDM(ft-­‑1,ft) ¡

logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡

slide-27
SLIDE 27

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 27 ¡

} Log-­‑linear ¡interpola8on ¡(model ¡level): ¡ } Linear ¡interpola8on ¡(word ¡level): ¡

¡

p(x|h) = Y

m

pm(x|h)αm

PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡

pmixLM(e) =

n

Y

i=1

X

q

λqpq(ei|hi) ! approach is that the linear interpolation weights,

+ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡ logPLM(e) ¡

logPDM(ft-­‑1,ft) ¡

logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡

logPDM(ft-­‑1,ft) ¡

¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡

slide-28
SLIDE 28

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 28 ¡

} Log-­‑linear ¡interpola8on ¡(model ¡level): ¡ } Linear ¡interpola8on ¡(word ¡level): ¡

¡

p(x|h) = Y

m

pm(x|h)αm pmixLM(e) =

n

Y

i=1

X

q

λqpq(ei|hi) ! approach is that the linear interpolation weights,

α ¡weights ¡can ¡be ¡op8mized ¡ for ¡transla8on ¡quality… ¡ PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡

logPDM(ft-­‑1,ft) ¡

¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡ logPLM(e) ¡

logPDM(ft-­‑1,ft) ¡

logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡

slide-29
SLIDE 29

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 29 ¡

} Log-­‑linear ¡interpola8on ¡(model ¡level): ¡ } Linear ¡interpola8on ¡(word ¡level): ¡

¡

p(x|h) = Y

m

pm(x|h)αm pmixLM(e) =

n

Y

i=1

X

q

λqpq(ei|hi) ! approach is that the linear interpolation weights,

α ¡weights ¡can ¡be ¡op8mized ¡ for ¡transla8on ¡quality… ¡ … ¡but ¡λ ¡weights ¡cannot ¡L ¡ ¡(even ¡so, ¡works ¡well ¡for ¡ standard ¡LM ¡interp.) ¡ PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡

logPDM(ft-­‑1,ft) ¡

¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡ logPLM(e) ¡

logPDM(ft-­‑1,ft) ¡

logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡

slide-30
SLIDE 30

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 30 ¡

} Linear ¡interpola8on ¡with ¡one ¡lambda: ¡

¡

PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡

logPDM(ft-­‑1,ft) ¡

¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡

) = λ · Pclass(wi|wi−1

i−n+1) + (1 − λ) · Pword(wi|wi−1 i−n+1)

slide-31
SLIDE 31

Model combining frameworks

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 31 ¡

} Linear ¡interpola8on ¡with ¡one ¡lambda: ¡ } Linear ¡interpola8on ¡with ¡class-­‑specific ¡lambdas ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

(Müller ¡et ¡al. ¡2012; ¡Bahl ¡et ¡al. ¡91): ¡

¡

PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-­‑d(f|e) ¡ logPTM-­‑i(e|f) ¡

logPDM(ft-­‑1,ft) ¡

¡ ¡ ¡ ¡αTM-­‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-­‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡

) = λC(wi1) · Pclass(wi|wi−1

i−n+1) + (1 − λC(wi1)) · Pword(wi|wi−1 i−n+1)

) = λ · Pclass(wi|wi−1

i−n+1) + (1 − λ) · Pword(wi|wi−1 i−n+1)

slide-32
SLIDE 32

Experiments

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 32 ¡

slide-33
SLIDE 33

Experiments

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 33 ¡

} Task: ¡English ¡to ¡Russian ¡news ¡transla8on ¡(WMT ¡2013) ¡

} 2M ¡parallel ¡sentences ¡ } 21M ¡Russian ¡sentences ¡(390M ¡tokens) ¡ } WMT ¡2013 ¡official ¡test ¡set ¡

slide-34
SLIDE 34

Experiments

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 34 ¡

} Task: ¡English ¡to ¡Russian ¡news ¡transla8on ¡(WMT ¡2013) ¡

} 2M ¡parallel ¡sentences ¡ } 21M ¡Russian ¡sentences ¡(390M ¡tokens) ¡ } WMT ¡2013 ¡official ¡test ¡set ¡

} Baseline: ¡state-­‑of-­‑the-­‑art ¡phrase-­‑based ¡SMT ¡system ¡

} includes ¡hierarchical ¡lexicalized ¡reordering ¡model ¡(Galley ¡et ¡al. ¡2008) ¡ } 5-­‑gram ¡word ¡LM ¡trained ¡on ¡all ¡data ¡ } BLEU-­‑tuned ¡with ¡pairwise ¡ranking ¡op8miza8on ¡(Hopkins ¡& ¡May ¡2011) ¡

slide-35
SLIDE 35

Perplexity results

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 35 ¡

} Class ¡LM ¡perplexity ¡much ¡higher, ¡but ¡linear ¡

interpola8on ¡outperforms ¡simple ¡word ¡LM ¡

} No ¡significant ¡effect ¡by ¡class-­‑specific ¡lambdas ¡

LM type smoothing vocab. PP words Kneser-Ney 2.7M 270 Brown clusters Witten-Bell 600 588 suffixes Witten-Bell 968 2455 suffix/word hybrid (θ=5000) Witten-Bell 8530 460 Linear interp. PP generic λ class-spec.λ’s words + clusters 225 224 words + suffixes 266 265 words + hybrid 243 247

slide-36
SLIDE 36

SMT results (1)

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 36 ¡

(a) Brown clusters (600) surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g stream-based 19.1 +0.3• 7g stream-based 19.1 +0.3• ? 5g class-based 18.9 +0.1 7g class-based 18.8 ±0.0 5g fullibm 19.4 +0.6• 7g fullibm 19.3 +0.5• } Log-­‑linear ¡combina8on ¡(one ¡more ¡SMT ¡feature), ¡ ¡data-­‑driven ¡clusters ¡(600) ¡

} Stream-­‑based ¡LM: ¡small ¡significant ¡improvement ¡ } Class-­‑based ¡original ¡form: ¡no ¡improvement ¡ } Fullibm ¡model ¡with ¡context-­‑sensi8ve ¡emission ¡

probabili8es ¡works ¡best ¡

} No ¡visible ¡gains ¡with ¡higher ¡order ¡N-­‑gram ¡(7) ¡

slide-37
SLIDE 37

SMT results (2)

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 37 ¡

} Log-­‑linear ¡combina8on ¡(one ¡more ¡SMT ¡feature), ¡hybrid ¡suffix/word ¡classes: ¡ (b) Suffixes/words, surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g stream-based 18.9 +0.1 7g stream-based 18.9 +0.1 ? 5g class-based 19.0 +0.2 7g class-based 19.1 +0.3 5g fullibm 19.1 +0.3• 7g fullibm 19.2 +0.4•

} Shallow ¡morphology ¡classes: ¡computa8onally ¡

cheaper ¡but ¡overall ¡smaller ¡improvements ¡

slide-38
SLIDE 38

SMT results (3)

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 38 ¡

} Linear ¡interpola8on ¡(combine ¡wordLM ¡& ¡classLM ¡in ¡one ¡SMT ¡feature) ¡ } Lambda ¡weights ¡op8mized ¡for ¡likelihood ¡of ¡held-­‑out ¡data ¡ surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g class, log-linear comb. 18.9 +0.1 ? 5g class, linear (global ) 18.5 –0.3 5g class, linear (class ’s) 18.6 –0.2 (b) Suffixes/words, surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g class, log-linear comb. 19.0 +0.2 ? 5g class, linear (global ) 18.9 +0.1 5g class, linear (class ’s) 18.6 −0.1

} linear ¡interpola8on ¡worse ¡than ¡log-­‑linear ¡in ¡all ¡condi8ons ¡ } using ¡class-­‑specific ¡lambdas ¡doesn’t ¡help ¡

Data-­‑driven ¡classes ¡ Hybrid ¡suffix/word ¡

slide-39
SLIDE 39

SMT results (4)

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 39 ¡

(a) Brown clusters (600) surface stem Additional LM BLEU ∆ BLEU ∆ ? none [baseline] 18.8 — 23.9 — ? 5g stream-based 19.1 +0.3• 24.0 +0.1 7g stream-based 19.1 +0.3• 24.1 +0.2 ? 5g class-based 18.9 +0.1 23.8 −0.1 7g class-based 18.8 ±0.0 23.9 ±0.0 5g fullibm 19.4 +0.6• 24.3 +0.4• 7g fullibm 19.3 +0.5• 24.3 +0.4• } Back ¡to ¡first ¡table, ¡looking ¡at ¡stem-­‑level ¡BLEU ¡scores ¡

¡ ¡ ¡ ¡ ¡(log-­‑linear ¡combina8on, ¡ ¡data-­‑driven ¡clusters) ¡

} Surface-­‑level ¡gains ¡bigger ¡than ¡stem-­‑level ¡gains ¡

¡ ¡ ¡ ¡ ¡ ¡=> ¡suggests ¡effect ¡on ¡choice ¡of ¡word ¡inflec8ons ¡

slide-40
SLIDE 40

Conclusions

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 40 ¡

slide-41
SLIDE 41

Conclusions

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 41 ¡

} First ¡systema8c ¡comparison ¡of ¡different ¡class-­‑based ¡LMs ¡for ¡

SMT ¡into ¡a ¡morphologically ¡rich ¡language: ¡

} class-­‑to-­‑word ¡emission ¡probabili8es ¡ma{er ¡for ¡transla8on ¡quality ¡ } biggest ¡improvement ¡with ¡fullibm ¡LM ¡ } hybrid ¡suffix/word ¡classes ¡not ¡as ¡good ¡as ¡data-­‑driven ¡ } linear ¡interpola8on ¡(known ¡to ¡work ¡well ¡for ¡standard ¡LMs) ¡not ¡a ¡

good ¡choice ¡for ¡class-­‑based ¡LMs ¡

slide-42
SLIDE 42

Conclusions

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 42 ¡

} First ¡systema8c ¡comparison ¡of ¡different ¡class-­‑based ¡LMs ¡for ¡

SMT ¡into ¡a ¡morphologically ¡rich ¡language: ¡

} class-­‑to-­‑word ¡emission ¡probabili8es ¡ma{er ¡for ¡transla8on ¡quality ¡ } biggest ¡improvement ¡with ¡fullibm ¡LM ¡ } hybrid ¡suffix/word ¡classes ¡not ¡as ¡good ¡as ¡data-­‑driven ¡ } linear ¡interpola8on ¡(known ¡to ¡work ¡well ¡for ¡standard ¡LMs) ¡not ¡a ¡

good ¡choice ¡for ¡class-­‑based ¡LMs ¡

} More ¡work ¡needed ¡to ¡properly ¡model ¡morphologically ¡rich ¡

languages, ¡going ¡beyond ¡the ¡constraints ¡of ¡n-­‑gram ¡LM ¡

slide-43
SLIDE 43

A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-­‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 43 ¡

Thanks ¡for ¡your ¡a{en8on! ¡ Спасибо ¡за ¡внимание! ¡ Grazie ¡per ¡l’a{enzione! ¡