Class-Based Language Modeling for Translating into Morphologically - - PowerPoint PPT Presentation
Class-Based Language Modeling for Translating into Morphologically - - PowerPoint PPT Presentation
Class-Based Language Modeling for Translating into Morphologically Rich Languages Arianna Bisazza & Christof Monz Phrase-based SMT Disto. scores word S1 word S2 word S3 word
Phrase-based SMT
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 2 ¡
wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡wordS1 ¡ ¡ ¡wordS2 ¡ ¡ ¡wordS3 ¡ ¡ ¡ ¡wordS4 ¡ ¡wordS5 ¡ ¡ ¡ ¡wordS6 ¡ ¡ ¡wordS7 ¡ ¡ ¡ ¡ ¡
LM ¡scores ¡
- Disto. ¡scores ¡
SRC: ¡ ¡TRG: ¡
Phrase-based SMT
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 3 ¡
wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡ ¡ ¡wordT3 ¡ ¡ ¡wordT4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡
LM ¡scores ¡
¡ ¡ ¡wordS1 ¡ ¡ ¡wordS2 ¡ ¡ ¡wordS3 ¡ ¡ ¡ ¡wordS4 ¡ ¡wordS5 ¡ ¡ ¡ ¡wordS6 ¡ ¡ ¡wordS7 ¡ ¡ ¡ ¡ ¡
LM ¡scores ¡
- Disto. ¡scores ¡
- Disto. ¡scores ¡
SRC: ¡ ¡TRG: ¡
Phrase-based SMT
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 4 ¡
wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡ ¡ ¡wordT3 ¡ ¡ ¡wordT4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡
LM ¡scores ¡
¡ ¡ ¡wordS1 ¡ ¡ ¡wordS2 ¡ ¡ ¡wordS3 ¡ ¡ ¡ ¡wordS4 ¡ ¡wordS5 ¡ ¡ ¡ ¡wordS6 ¡ ¡ ¡wordS7 ¡ ¡ ¡ ¡ ¡
LM ¡scores ¡
- Disto. ¡scores ¡
- Disto. ¡scores ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡ logPLM(e) ¡ logPDM(ft-‑1,ft) ¡ ¡ ¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡… ¡ ¡+ ¡ + ¡
SRC: ¡ ¡TRG: ¡
Phrase-based SMT
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 5 ¡
LM ¡scores ¡ LM ¡scores ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡ logPLM(e) ¡ logPDM(ft-‑1,ft) ¡ ¡ ¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡… ¡ ¡+ ¡ + ¡
wordT1 ¡ ¡ ¡wordT2 ¡ ¡ ¡ ¡ ¡ ¡wordT3 ¡ ¡ ¡wordT4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡ ¡TRG: ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 6 ¡
freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 7 ¡
LM ¡score ¡
PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡
- English: ¡
freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 8 ¡
PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡
- English: ¡
PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡
- Morphologically ¡rich ¡language: ¡
la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡
LM ¡score ¡ LM ¡score ¡
freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 9 ¡
PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡
- Morphologically ¡rich ¡language: ¡
- English: ¡
la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡
LM ¡score ¡
PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡
deve ¡essere ¡incoraggiato ¡ ¡120 ¡ devono ¡essere ¡incoraggia8 ¡ ¡ ¡ ¡ ¡54 ¡ dovrebbe ¡essere ¡incoraggiata ¡ ¡ ¡ ¡ ¡ ¡ ¡3 ¡ … ¡ ¡ ¡ ¡ ¡ ¡ ¡… ¡ deve ¡essere ¡incoraggiata ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡
Must ¡backoff ¡to ¡ shorter ¡history! ¡
LM ¡score ¡
freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 10 ¡
PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡
- Morphologically ¡rich ¡language: ¡
- English: ¡
la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡ PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡
Must ¡backoff ¡to ¡ shorter ¡history! ¡
LM ¡score ¡
freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 11 ¡
PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡
- Morphologically ¡rich ¡language: ¡
- English: ¡
la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡ PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡
Must ¡backoff ¡to ¡ shorter ¡history! ¡
¡(sing.fem.) ¡ ¡(sing.fem.) ¡ LM ¡score ¡
freedom ¡of ¡movement ¡ ¡must ¡be ¡encouraged ¡
N-gram language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 12 ¡
PLM ¡≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ # ¡(must ¡be ¡* ¡) ¡
- Morphologically ¡rich ¡language: ¡
- English: ¡
la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡incoraggiata ¡ PLM ¡≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ # ¡(deve ¡essere ¡* ¡) ¡
Must ¡backoff ¡to ¡ shorter ¡history! ¡ Long ¡dependencies ¡ important ¡for ¡inflec8on! ¡
¡(sing.fem.) ¡ ¡(sing.fem.) ¡ LM ¡score ¡
Class-based language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 13 ¡
- IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡
into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡
Pclass(wi|wi−1
i−n+1) = p
) = p0(C(wi)|C(wi−1
i−n+1)) · p1(wi|C(wi))
Class-based language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 14 ¡
- IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡
into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡
Pclass(wi|wi−1
i−n+1) = p
) = p0(C(wi)|C(wi−1
i−n+1)) · p1(wi|C(wi))
PCLASS ¡≈ ¡ ¡ ¡# ¡(Cx ¡ ¡Cy ¡ ¡Cz) ¡ # ¡(Cx ¡ ¡Cy ¡ ¡* ¡) ¡ . ¡ ¡ ¡# ¡(incoraggiata) ¡ # ¡(Cz) ¡
deve ¡ ¡ ¡essere ¡ ¡incoraggiata ¡ Cx ¡ Cy ¡ Cz ¡
Class-based language modeling
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 15 ¡
- IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡
into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡
Enable ¡use ¡of ¡ longer ¡history ¡ Capture ¡long ¡dependencies ¡ for ¡inflec8on ¡ Pclass(wi|wi−1
i−n+1) = p
) = p0(C(wi)|C(wi−1
i−n+1)) · p1(wi|C(wi))
þ ¡ ¡☐ ¡
¡? ¡
PCLASS ¡≈ ¡ ¡ ¡# ¡(Cx ¡ ¡Cy ¡ ¡Cz) ¡ # ¡(Cx ¡ ¡Cy ¡ ¡* ¡) ¡ . ¡ ¡ ¡# ¡(incoraggiata) ¡ # ¡(Cz) ¡
deve ¡ ¡ ¡essere ¡ ¡incoraggiata ¡ Cx ¡ Cy ¡ Cz ¡
Goal of this work
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 16 ¡
Goal of this work
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 17 ¡
Compare ¡in ¡a ¡unified ¡SMT ¡segng: ¡
} different ¡kinds ¡of ¡classes ¡ } different ¡class-‑based ¡model ¡forms ¡ } different ¡combining ¡frameworks ¡
for ¡transla8on ¡into ¡a ¡morphologically ¡rich ¡language ¡
Goal of this work
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 18 ¡
Compare ¡in ¡a ¡unified ¡SMT ¡segng: ¡
} different ¡kinds ¡of ¡classes ¡ } different ¡class-‑based ¡model ¡forms ¡ } different ¡combining ¡frameworks ¡
for ¡transla8on ¡into ¡a ¡morphologically ¡rich ¡language ¡ Working ¡language ¡pair: ¡
} English ¡to ¡Russian ¡(Russian ¡type/token ¡ra8o ¡two ¡8mes ¡
higher ¡than ¡English) ¡
¡
¡
Kinds of classes
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 19 ¡
} Data-‑driven: ¡par88on ¡vocabulary ¡into ¡given ¡nb. ¡of ¡clusters ¡
by ¡maximizing ¡likelihood ¡of ¡training ¡corpus ¡ Hybrid ¡suffix/class ¡mappings ¡(Müller ¡et ¡al. ¡2012): ¡
Kinds of classes
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 20 ¡
} Data-‑driven: ¡par88on ¡vocabulary ¡into ¡given ¡nb. ¡of ¡clusters ¡
by ¡maximizing ¡likelihood ¡of ¡training ¡corpus ¡
} Linguis8c: ¡
} annota8on-‑based: ¡POS, ¡lemma, ¡morphological ¡tag ¡… ¡
¡ ¡ ¡ ¡ ¡(possible ¡issue: ¡non-‑determinis8c ¡class ¡mapping) ¡
} shallow: ¡simple ¡rule-‑based ¡suffixes, ¡φ ¡most ¡frequent ¡suffixes, ¡
- rthographic ¡features ¡
Hybrid ¡suffix/class ¡mappings ¡(Müller ¡et ¡al. ¡2012): ¡
Kinds of classes
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 21 ¡
} Data-‑driven: ¡par88on ¡vocabulary ¡into ¡given ¡nb. ¡of ¡clusters ¡
by ¡maximizing ¡likelihood ¡of ¡training ¡corpus ¡
} Linguis8c: ¡
} annota8on-‑based: ¡POS, ¡lemma, ¡morphological ¡tag ¡… ¡
¡ ¡ ¡ ¡ ¡(possible ¡issue: ¡non-‑determinis8c ¡class ¡mapping) ¡
} shallow: ¡simple ¡rule-‑based ¡suffixes, ¡φ ¡most ¡frequent ¡suffixes, ¡
- rthographic ¡features ¡
} Hybrid ¡suffix/class ¡mappings ¡(Müller ¡et ¡al. ¡2012): ¡ C(w) ¡= ¡ w ¡if ¡ ¡#(w) ¡> ¡θ ¡ suff(w) ¡otherwise ¡
NEW ¡for ¡ SMT ¡
la ¡ ¡ ¡ ¡libertà ¡ ¡ ¡di ¡ ¡ ¡movimento ¡ ¡deve ¡ ¡ ¡essere ¡ ¡ ¡incoraggiata ¡
¡[la] ¡ ¡ ¡ ¡ ¡ ¡ ¡[-‑à] ¡ ¡ ¡ ¡ ¡[di] ¡ ¡ ¡ ¡ ¡[-‑imento] ¡ ¡ ¡ ¡ ¡ ¡[deve] ¡ ¡[essere] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[-‑ata] ¡
Class-based model forms
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 22 ¡
} Class-‑based ¡LM ¡originally ¡proposed ¡for ¡ASR: ¡
Pclass(wi|wi−1
i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi))
Class-based model forms
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 23 ¡
} Class-‑based ¡LM ¡originally ¡proposed ¡for ¡ASR: ¡ } “Stream”-‑based ¡LM: ¡no ¡class-‑to-‑word ¡emission ¡probability ¡
Pclass(wi|wi−1
i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi))
Pstream(wi|wi−1
i−n+1) = p0(C(wi)|C(wi−1 i−n+1))
Class-based model forms
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 24 ¡
} Class-‑based ¡LM ¡originally ¡proposed ¡for ¡ASR: ¡ } “Stream”-‑based ¡LM: ¡no ¡class-‑to-‑word ¡emission ¡probability ¡ } Fullibm ¡LM: ¡context-‑sensi8ve ¡emission ¡probability ¡
(Goodman ¡2001) ¡
Pclass(wi|wi−1
i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi))
Pstream(wi|wi−1
i−n+1) = p0(C(wi)|C(wi−1 i−n+1))
Pfullibm(wi|wi−1
i−n+1) = p0(C(wi)|C(wi−1 i−n+1)) · p1(wi|C(wi i−n+1))
NEW ¡for ¡ SMT ¡
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 25 ¡
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 26 ¡
} Log-‑linear ¡interpola8on ¡(model ¡level): ¡
¡
p(x|h) = Y
m
pm(x|h)αm
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡ logPLM(e) ¡
logPDM(ft-‑1,ft) ¡
logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 27 ¡
} Log-‑linear ¡interpola8on ¡(model ¡level): ¡ } Linear ¡interpola8on ¡(word ¡level): ¡
¡
p(x|h) = Y
m
pm(x|h)αm
PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡
pmixLM(e) =
n
Y
i=1
X
q
λqpq(ei|hi) ! approach is that the linear interpolation weights,
+ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡ logPLM(e) ¡
logPDM(ft-‑1,ft) ¡
logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡
logPDM(ft-‑1,ft) ¡
¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 28 ¡
} Log-‑linear ¡interpola8on ¡(model ¡level): ¡ } Linear ¡interpola8on ¡(word ¡level): ¡
¡
p(x|h) = Y
m
pm(x|h)αm pmixLM(e) =
n
Y
i=1
X
q
λqpq(ei|hi) ! approach is that the linear interpolation weights,
α ¡weights ¡can ¡be ¡op8mized ¡ for ¡transla8on ¡quality… ¡ PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡
logPDM(ft-‑1,ft) ¡
¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡ logPLM(e) ¡
logPDM(ft-‑1,ft) ¡
logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 29 ¡
} Log-‑linear ¡interpola8on ¡(model ¡level): ¡ } Linear ¡interpola8on ¡(word ¡level): ¡
¡
p(x|h) = Y
m
pm(x|h)αm pmixLM(e) =
n
Y
i=1
X
q
λqpq(ei|hi) ! approach is that the linear interpolation weights,
α ¡weights ¡can ¡be ¡op8mized ¡ for ¡transla8on ¡quality… ¡ … ¡but ¡λ ¡weights ¡cannot ¡L ¡ ¡(even ¡so, ¡works ¡well ¡for ¡ standard ¡LM ¡interp.) ¡ PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡
logPDM(ft-‑1,ft) ¡
¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡ logPLM(e) ¡
logPDM(ft-‑1,ft) ¡
logPCLM(e) ¡ ¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αLM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αCLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ + ¡
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 30 ¡
} Linear ¡interpola8on ¡with ¡one ¡lambda: ¡
¡
PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡
logPDM(ft-‑1,ft) ¡
¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡
) = λ · Pclass(wi|wi−1
i−n+1) + (1 − λ) · Pword(wi|wi−1 i−n+1)
Model combining frameworks
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 31 ¡
} Linear ¡interpola8on ¡with ¡one ¡lambda: ¡ } Linear ¡interpola8on ¡with ¡class-‑specific ¡lambdas ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
(Müller ¡et ¡al. ¡2012; ¡Bahl ¡et ¡al. ¡91): ¡
¡
PLM(e) ¡ PCLM(e) ¡ λLM ¡* ¡ λCLM ¡* ¡ + ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logPTM-‑d(f|e) ¡ logPTM-‑i(e|f) ¡
logPDM(ft-‑1,ft) ¡
¡ ¡ ¡ ¡αTM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αTM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αDM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡αmixLM ¡ ¡ ¡ ¡ ¡… ¡ + ¡ + ¡ logPmixLM(e) ¡
) = λC(wi1) · Pclass(wi|wi−1
i−n+1) + (1 − λC(wi1)) · Pword(wi|wi−1 i−n+1)
) = λ · Pclass(wi|wi−1
i−n+1) + (1 − λ) · Pword(wi|wi−1 i−n+1)
Experiments
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 32 ¡
Experiments
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 33 ¡
} Task: ¡English ¡to ¡Russian ¡news ¡transla8on ¡(WMT ¡2013) ¡
} 2M ¡parallel ¡sentences ¡ } 21M ¡Russian ¡sentences ¡(390M ¡tokens) ¡ } WMT ¡2013 ¡official ¡test ¡set ¡
Experiments
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 34 ¡
} Task: ¡English ¡to ¡Russian ¡news ¡transla8on ¡(WMT ¡2013) ¡
} 2M ¡parallel ¡sentences ¡ } 21M ¡Russian ¡sentences ¡(390M ¡tokens) ¡ } WMT ¡2013 ¡official ¡test ¡set ¡
} Baseline: ¡state-‑of-‑the-‑art ¡phrase-‑based ¡SMT ¡system ¡
} includes ¡hierarchical ¡lexicalized ¡reordering ¡model ¡(Galley ¡et ¡al. ¡2008) ¡ } 5-‑gram ¡word ¡LM ¡trained ¡on ¡all ¡data ¡ } BLEU-‑tuned ¡with ¡pairwise ¡ranking ¡op8miza8on ¡(Hopkins ¡& ¡May ¡2011) ¡
Perplexity results
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 35 ¡
} Class ¡LM ¡perplexity ¡much ¡higher, ¡but ¡linear ¡
interpola8on ¡outperforms ¡simple ¡word ¡LM ¡
} No ¡significant ¡effect ¡by ¡class-‑specific ¡lambdas ¡
LM type smoothing vocab. PP words Kneser-Ney 2.7M 270 Brown clusters Witten-Bell 600 588 suffixes Witten-Bell 968 2455 suffix/word hybrid (θ=5000) Witten-Bell 8530 460 Linear interp. PP generic λ class-spec.λ’s words + clusters 225 224 words + suffixes 266 265 words + hybrid 243 247
SMT results (1)
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 36 ¡
(a) Brown clusters (600) surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g stream-based 19.1 +0.3• 7g stream-based 19.1 +0.3• ? 5g class-based 18.9 +0.1 7g class-based 18.8 ±0.0 5g fullibm 19.4 +0.6• 7g fullibm 19.3 +0.5• } Log-‑linear ¡combina8on ¡(one ¡more ¡SMT ¡feature), ¡ ¡data-‑driven ¡clusters ¡(600) ¡
} Stream-‑based ¡LM: ¡small ¡significant ¡improvement ¡ } Class-‑based ¡original ¡form: ¡no ¡improvement ¡ } Fullibm ¡model ¡with ¡context-‑sensi8ve ¡emission ¡
probabili8es ¡works ¡best ¡
} No ¡visible ¡gains ¡with ¡higher ¡order ¡N-‑gram ¡(7) ¡
SMT results (2)
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 37 ¡
} Log-‑linear ¡combina8on ¡(one ¡more ¡SMT ¡feature), ¡hybrid ¡suffix/word ¡classes: ¡ (b) Suffixes/words, surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g stream-based 18.9 +0.1 7g stream-based 18.9 +0.1 ? 5g class-based 19.0 +0.2 7g class-based 19.1 +0.3 5g fullibm 19.1 +0.3• 7g fullibm 19.2 +0.4•
} Shallow ¡morphology ¡classes: ¡computa8onally ¡
cheaper ¡but ¡overall ¡smaller ¡improvements ¡
SMT results (3)
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 38 ¡
} Linear ¡interpola8on ¡(combine ¡wordLM ¡& ¡classLM ¡in ¡one ¡SMT ¡feature) ¡ } Lambda ¡weights ¡op8mized ¡for ¡likelihood ¡of ¡held-‑out ¡data ¡ surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g class, log-linear comb. 18.9 +0.1 ? 5g class, linear (global ) 18.5 –0.3 5g class, linear (class ’s) 18.6 –0.2 (b) Suffixes/words, surface Additional LM BLEU ∆ ? none [baseline] 18.8 — ? 5g class, log-linear comb. 19.0 +0.2 ? 5g class, linear (global ) 18.9 +0.1 5g class, linear (class ’s) 18.6 −0.1
} linear ¡interpola8on ¡worse ¡than ¡log-‑linear ¡in ¡all ¡condi8ons ¡ } using ¡class-‑specific ¡lambdas ¡doesn’t ¡help ¡
Data-‑driven ¡classes ¡ Hybrid ¡suffix/word ¡
SMT results (4)
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 39 ¡
(a) Brown clusters (600) surface stem Additional LM BLEU ∆ BLEU ∆ ? none [baseline] 18.8 — 23.9 — ? 5g stream-based 19.1 +0.3• 24.0 +0.1 7g stream-based 19.1 +0.3• 24.1 +0.2 ? 5g class-based 18.9 +0.1 23.8 −0.1 7g class-based 18.8 ±0.0 23.9 ±0.0 5g fullibm 19.4 +0.6• 24.3 +0.4• 7g fullibm 19.3 +0.5• 24.3 +0.4• } Back ¡to ¡first ¡table, ¡looking ¡at ¡stem-‑level ¡BLEU ¡scores ¡
¡ ¡ ¡ ¡ ¡(log-‑linear ¡combina8on, ¡ ¡data-‑driven ¡clusters) ¡
} Surface-‑level ¡gains ¡bigger ¡than ¡stem-‑level ¡gains ¡
¡ ¡ ¡ ¡ ¡ ¡=> ¡suggests ¡effect ¡on ¡choice ¡of ¡word ¡inflec8ons ¡
Conclusions
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 40 ¡
Conclusions
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 41 ¡
} First ¡systema8c ¡comparison ¡of ¡different ¡class-‑based ¡LMs ¡for ¡
SMT ¡into ¡a ¡morphologically ¡rich ¡language: ¡
} class-‑to-‑word ¡emission ¡probabili8es ¡ma{er ¡for ¡transla8on ¡quality ¡ } biggest ¡improvement ¡with ¡fullibm ¡LM ¡ } hybrid ¡suffix/word ¡classes ¡not ¡as ¡good ¡as ¡data-‑driven ¡ } linear ¡interpola8on ¡(known ¡to ¡work ¡well ¡for ¡standard ¡LMs) ¡not ¡a ¡
good ¡choice ¡for ¡class-‑based ¡LMs ¡
Conclusions
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 42 ¡
} First ¡systema8c ¡comparison ¡of ¡different ¡class-‑based ¡LMs ¡for ¡
SMT ¡into ¡a ¡morphologically ¡rich ¡language: ¡
} class-‑to-‑word ¡emission ¡probabili8es ¡ma{er ¡for ¡transla8on ¡quality ¡ } biggest ¡improvement ¡with ¡fullibm ¡LM ¡ } hybrid ¡suffix/word ¡classes ¡not ¡as ¡good ¡as ¡data-‑driven ¡ } linear ¡interpola8on ¡(known ¡to ¡work ¡well ¡for ¡standard ¡LMs) ¡not ¡a ¡
good ¡choice ¡for ¡class-‑based ¡LMs ¡
} More ¡work ¡needed ¡to ¡properly ¡model ¡morphologically ¡rich ¡
languages, ¡going ¡beyond ¡the ¡constraints ¡of ¡n-‑gram ¡LM ¡
A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡ 43 ¡