Joint Word Alignment and Decipherment Improves Machine Translation - - PowerPoint PPT Presentation

joint word alignment and decipherment improves machine
SMART_READER_LITE
LIVE PREVIEW

Joint Word Alignment and Decipherment Improves Machine Translation - - PowerPoint PPT Presentation

Joint Word Alignment and Decipherment Improves Machine Translation Qing Dou, Ashish Vaswani, and Kevin Knight 10/26/2014 1 Informa(on Sciences Ins(tute Outline What is Decipherment Mo4va4on


slide-1
SLIDE 1

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Joint Word Alignment and Decipherment Improves Machine Translation

Qing Dou, Ashish Vaswani, and Kevin Knight 10/26/2014

1

slide-2
SLIDE 2

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Outline ¡

2

  • What ¡is ¡Decipherment ¡
  • Mo4va4on ¡
  • Contribu4ons ¡
  • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡
  • Deciphering ¡Malagasy ¡
  • Conclusions ¡
slide-3
SLIDE 3

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

What ¡is ¡Decipherment? ¡

3

  • Le?er ¡Subs4tu4on ¡Cipher ¡

d e c i p h e r m e n t _ i s _ t h e _ a n a l y s i s _ o f _ d o c u m e n t s _ w r i t t e n _ i n _ a n c i e n t _ l a n g u a g e s plaintext

slide-4
SLIDE 4

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

What ¡is ¡Decipherment? ¡

4

  • Le?er ¡Subs4tu4on ¡Cipher ¡

d e c i p h e r m e n t _ i s _ t h e _ a n a l y s i s _ o f _ d o c u m e n t s _ w r i t t e n _ i n _ a n c i e n t _ l a n g u a g e s 05 13 19 25 12 14 13 04 02 13 11 16 15 25 22 15 16 14 13 15 17 11 17 08 03 22 25 22 15 09 20 15 05 09 19 07 02 13 11 22 15 06 04 25 16 16 13 11 15 25 11 15 17 11 19 25 13 11 16 15 08 17 11 03 07 17 03 13 22

Encryption

plaintext ciphertext

slide-5
SLIDE 5

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

What ¡is ¡Decipherment? ¡

5

  • Le?er ¡Subs4tu4on ¡Cipher ¡

d e c i p h e r m e n t _ i s _ t h e _ a n a l y s i s _ o f _ d o c u m e n t s _ w r i t t e n _ i n _ a n c i e n t _ l a n g u a g e s 05 13 19 25 12 14 13 04 02 13 11 16 15 25 22 15 16 14 13 15 17 11 17 08 03 22 25 22 15 09 20 15 05 09 19 07 02 13 11 22 15 06 04 25 16 16 13 11 15 25 11 15 17 11 19 25 13 11 16 15 08 17 11 03 07 17 03 13 22

Encryption

plaintext ciphertext

a ¡ 17 ¡

  • ¡

09 ¡ b ¡ 01 ¡ p ¡ 12 ¡ c ¡ 19 ¡ q ¡ 23 ¡ d ¡ 05 ¡ r ¡ 04 ¡ e ¡ 13 ¡ s ¡ 22 ¡ f ¡ 20 ¡ t ¡ 16 ¡ g ¡ 10 ¡ u ¡ 07 ¡ h ¡ 14 ¡ v ¡ 24 ¡ I ¡ 25 ¡ w ¡ 06 ¡ j ¡ 18 ¡ x ¡ 26 ¡ k ¡ 21 ¡ y ¡ 03 ¡ l ¡ 08 ¡ z ¡ 27 ¡ m ¡ 02 ¡ _ ¡ 15 ¡ n ¡ 11 ¡

Decipherment ¡

slide-6
SLIDE 6

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Subs4tu4on ¡Cipher ¡and ¡Transla4on ¡

6

  • Word ¡Subs4tu4on ¡Cipher ¡
  • Word ¡subs4tu4ons ¡also ¡take ¡place ¡in ¡

transla4on ¡

the head of the german social democratic party … 007834 000094 048235 007834 113485 087654 129823 032834 …

Encryption Decryption

plaintext ciphertext

slide-7
SLIDE 7

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Automa4c ¡Decipherment ¡

7

  • A ¡Noisy ¡Channel ¡Model ¡Approach ¡(Knight ¡et ¡al. ¡

2006) ¡ ¡

¡ P(p) ¡ ¡ ¡ P(c|p) ¡ ¡ A model

  • f

plaintext Substitute plaintext ciphertext c

slide-8
SLIDE 8

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Automa4c ¡Decipherment ¡

8

  • A ¡Noisy ¡Channel ¡Model ¡Approach ¡(Knight ¡et ¡al. ¡

2006) ¡ ¡

¡ P(p) ¡ ¡ ¡ P(c|p) ¡ ¡ P(p) Substitute plaintext ciphertext c Plaintext unrelated to ciphertext Search P(c|p) to maximize

P(c) = P(p)P(c | p)

p

EM

slide-9
SLIDE 9

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Automa4c ¡Decipherment ¡

9

  • A ¡Noisy ¡Channel ¡Model ¡Approach ¡(Knight ¡et ¡al. ¡

2006) ¡

  • Time ¡Complexity: ¡

¡

¡ P(p) ¡ ¡ ¡ P(c|p) ¡ ¡ P(p) Substitute plaintext ciphertext c Plaintext unrelated to ciphertext Search P(c|p) to maximize

P(c) = P(p)P(c | p)

p

EM

O(N ⋅V 2 ⋅ R)

N: Ciphertext length V: Vocabulary R: EM iteration (Forward-backward)

slide-10
SLIDE 10

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Outline ¡

10

  • What ¡is ¡Decipherment ¡
  • Mo4va4on ¡
  • Contribu4ons ¡
  • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡
  • Deciphering ¡Malagasy ¡
  • Conclusions ¡
slide-11
SLIDE 11

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Mo4va4on ¡

11

  • Decipherment ¡improves ¡machine ¡transla4on ¡

¡ ¡ ¡ ¡(Dou ¡and ¡Knight ¡2013) ¡ ¡

Parallel ¡ Data ¡ Transla4on ¡ Table ¡ Alignment ¡ Decoder ¡

slide-12
SLIDE 12

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Mo4va4on ¡

12

  • Decipherment ¡improves ¡machine ¡transla4on ¡

¡ ¡ ¡ ¡(Dou ¡and ¡Knight ¡2013) ¡ ¡

Parallel ¡ Data ¡ Transla4on ¡ Table ¡ Non ¡ Parallel ¡ Data ¡ Decipherment ¡ Transla4on ¡ Table ¡ Alignment ¡ Initialize Decoder ¡

slide-13
SLIDE 13

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Mo4va4on ¡

13

  • Decipherment ¡improves ¡machine ¡transla4on ¡

¡ ¡ ¡ ¡(Dou ¡and ¡Knight ¡2013) ¡ ¡

Parallel ¡ Data ¡ Transla4on ¡ Table ¡ Non ¡ Parallel ¡ Data ¡ Decipherment ¡ Transla4on ¡ Table ¡ Alignment ¡ Initialize Decoder ¡

slide-14
SLIDE 14

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Mo4va4on ¡

14

  • Joint ¡Alignment ¡and ¡Decipherment ¡? ¡

Parallel ¡ Data ¡ Transla4on ¡ Model ¡ Non ¡ Parallel ¡ Data ¡ Alignment ¡& ¡ Decipherment ¡

slide-15
SLIDE 15

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Contribu4ons ¡

15

  • Proposed ¡a ¡new ¡framework ¡to ¡perform ¡joint ¡

word ¡alignment ¡and ¡decipherment ¡ ¡

  • The ¡joint ¡framework ¡improves ¡both ¡word ¡

alignment ¡and ¡machine ¡transla4on ¡significantly ¡

  • Released ¡Malagasy ¡treebank ¡and ¡15.3 ¡million ¡

word ¡Malagasy ¡news ¡data ¡

slide-16
SLIDE 16

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Outline ¡

16

  • What ¡is ¡Decipherment ¡
  • Mo4va4on ¡
  • Contribu4ons ¡
  • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡
  • Deciphering ¡Malagasy ¡
  • Conclusions ¡
slide-17
SLIDE 17

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

  • Word ¡Alignment ¡Model ¡and ¡Objec4ve ¡

Word ¡Alignment ¡

17

Foreign ¡ Sentences: ¡ F ¡ English ¡ Sentences: ¡ E ¡ ¡ Word ¡ Alignments ¡ a ¡

P(F | E) = d(a)⋅t( fj | eaj )

j=1 J

a

Objective: distortion probabilities translation probabilities

slide-18
SLIDE 18

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

  • Decipherment ¡Model ¡and ¡Objec4ve ¡

Decipherment ¡

18

Foreign ¡ Dependency ¡ Bigrams: ¡ Fmono

¡

Objective: LM Probabilities (fixed) translation probabilities English ¡ Decipherment e ¡

P(F

mono) =

P(e1e2) t( f j | ej)

j=1 2

e

LM: Dependency Language Model (Created from dependency trees) (Dependency based Decipherment Dou and Knight 2013)

slide-19
SLIDE 19

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

A ¡New ¡Objec4ve ¡

19

P(F | E) = d(a)⋅t( fj | eaj )

j=1 J

a

Word Alignment Objective: Decipherment Objective:

P(F

mono) =

P(e1e2) t( f j | ej)

j=1 2

e

t( f | e)

Shared Parameters

slide-20
SLIDE 20

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

A ¡New ¡Objec4ve ¡

20

P(F | E) = d(a)⋅t( fj | eaj )

j=1 J

a

Word Alignment Objective: Decipherment Objective:

P(F

mono) =

P(e1e2) t( f j | ej)

j=1 2

e

P(JOINT) = P(F | E)+αP(F

mono)

t( f | e)

Shared Parameters New Objective:

slide-21
SLIDE 21

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Learning ¡Algorithm ¡

21

  • EM ¡

EM ¡ Parallel ¡ Data ¡ 5 iterations of EM on Parallel text only

slide-22
SLIDE 22

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Learning ¡Algorithm ¡

22

  • EM ¡

E ¡Step ¡

Parallel ¡ Data ¡

E ¡Step ¡

Non ¡Parallel ¡ Data ¡

EM ¡ Parallel ¡ Data ¡

t( f | e)

Collect expected counts for: Collect expected counts for:

t( f | e)

d(a)

slide-23
SLIDE 23

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Learning ¡Algorithm ¡

23

  • EM ¡

E ¡Step ¡

Parallel ¡ Data ¡

E ¡Step ¡

Non ¡Parallel ¡ Data ¡

EM ¡ Parallel ¡ Data ¡

t( f | e)

Collect expected counts for: Collect expected counts for:

t( f | e)

d(a)

Sum up expected counts

slide-24
SLIDE 24

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Learning ¡Algorithm ¡

24

  • EM ¡

M ¡ Step ¡ E ¡Step ¡

Parallel ¡ Data ¡

E ¡Step ¡

Non ¡Parallel ¡ Data ¡

EM ¡ Parallel ¡ Data ¡ Update parameters

t( f | e)

d(a)

slide-25
SLIDE 25

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Learning ¡Algorithm ¡

25

  • EM ¡

M ¡ Step ¡ E ¡Step ¡

Parallel ¡ Data ¡

E ¡Step ¡

Non ¡Parallel ¡ Data ¡

E ¡Step ¡

Parallel ¡ Data ¡

E ¡Step ¡

Non ¡Parallel ¡ Data ¡

M ¡ Step ¡ EM ¡ Parallel ¡ Data ¡

slide-26
SLIDE 26

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

E ¡Step ¡

26

  • On ¡Parallel ¡Data ¡

¡ ¡ ¡ ¡(Brown ¡et ¡al. ¡1993, ¡Vogel ¡and ¡Ney ¡1996) ¡ ¡ ¡

slide-27
SLIDE 27

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

E ¡Step ¡

27

  • On ¡Parallel ¡Data ¡

¡ ¡ ¡ ¡(Brown ¡et ¡al. ¡1993, ¡Vogel ¡and ¡Ney ¡1996) ¡ ¡

  • On ¡Non-­‑parallel ¡Data ¡

¡ ¡ ¡ ¡Time ¡complexity: ¡ ¡ ¡ ¡ ¡V: ¡Vocabulary ¡size ¡ ¡N: ¡Ciphertext ¡length ¡ ¡

  • Not ¡Scalable ¡when ¡ ¡

¡

O(N ⋅V 2 ⋅ R)

V ~105, N ~107

slide-28
SLIDE 28

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

E ¡Step ¡

28

  • On ¡Non-­‑parallel ¡Data ¡

¡ ¡ ¡ ¡Use ¡samples ¡to ¡collect ¡expected ¡counts: ¡ ¡ ¡ ¡ ¡ ¡ ¡Let ¡N ¡be ¡total ¡number ¡of ¡samples ¡we ¡draw ¡ ¡ ¡ ¡ ¡ ¡And ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡be ¡one ¡of ¡them: ¡ ¡ ¡ ¡ ¡ ¡

f1 f2 e1e2

cipher bigram sample bigram

∝ P( f1 | e1)⋅ P( f2 | e2)⋅ P(e1e2)

Expected _Count( f1,e1) = Expected _Count( f2,e2) = 1 N ⋅count( f1, f2)

e1e2

Slice Sampling

slide-29
SLIDE 29

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Word ¡Alignment ¡Experiment ¡

29

  • Data ¡(Size ¡in ¡tokens) ¡

¡ ¡

Spanish ¡ English ¡ Parallel ¡ 10.3k ¡ 9.9k ¡ Non ¡Parallel ¡ 80 ¡million ¡ 400 ¡million ¡ TreeBank ¡ 0.4 ¡million ¡ 1.0 ¡million ¡

slide-30
SLIDE 30

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Decipherment ¡Improves ¡Alignment ¡

30

Model 1 HMM Spanish - English

Baseline Joint

slide-31
SLIDE 31

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Outline ¡

31

  • What ¡is ¡Decipherment ¡
  • Mo4va4on ¡
  • Contribu4ons ¡
  • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡
  • Deciphering ¡Malagasy ¡
  • Conclusions ¡
slide-32
SLIDE 32

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

The ¡Malagasy ¡Language ¡

32

  • Is ¡official ¡Language ¡of ¡Madagascar ¡
slide-33
SLIDE 33

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

The ¡Malagasy ¡Language ¡

33

  • Is ¡official ¡Language ¡of ¡Madagascar ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

Where?

slide-34
SLIDE 34

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

The ¡Malagasy ¡Language ¡

34

  • Is ¡official ¡Language ¡of ¡Madagascar ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

slide-35
SLIDE 35

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

The ¡Malagasy ¡Language ¡

35

  • Is ¡official ¡Language ¡of ¡Madagascar ¡
  • Although ¡spoken ¡in ¡African, ¡Malagasy ¡has ¡its ¡

root ¡in ¡southeast ¡Asia. ¡

slide-36
SLIDE 36

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

The ¡Malagasy ¡Language ¡

36

  • Is ¡official ¡Language ¡of ¡Madagascar ¡
  • Although ¡spoken ¡in ¡African, ¡Malagasy ¡has ¡its ¡

root ¡in ¡southeast ¡Asia. ¡

  • Has ¡18 ¡million ¡na4ve ¡speakers ¡
slide-37
SLIDE 37

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

The ¡Malagasy ¡Language ¡

37

  • Is ¡official ¡Language ¡of ¡Madagascar ¡
  • Although ¡spoken ¡in ¡African, ¡Malagasy ¡has ¡its ¡

root ¡in ¡southeast ¡Asia. ¡

  • Has ¡18 ¡million ¡na4ve ¡speakers ¡
  • Is ¡head ¡ini4al ¡with ¡V-­‑O-­‑S ¡word ¡order. ¡(English: ¡

S-­‑V-­‑O) ¡

slide-38
SLIDE 38

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Malagasy ¡Dependency ¡Parser ¡

38

  • Data ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

  • Result ¡on ¡Malagasy ¡

¡ ¡ ¡72.4 ¡% ¡directed ¡a?achment ¡accuracy ¡

Training ¡ 120 ¡sentences, ¡20k ¡tokens ¡ Tes4ng ¡ 48 ¡sentences, ¡7k ¡tokens ¡

Spanish parser trained on 400k tokens

slide-39
SLIDE 39

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Malagasy ¡Dependency ¡Parser ¡

39

  • More ¡Training ¡Data ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

  • Result ¡

¡ ¡ ¡ ¡Improved ¡to ¡80.0 ¡% ¡from ¡72.4% ¡

English ¡ Malagasy ¡ English ¡ Dependency ¡ Tree ¡ Malagasy ¡ Dependency ¡ Tree ¡ Manual Project Dependency Parallel

New ¡ Parser ¡

retrain

slide-40
SLIDE 40

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Malagasy-­‑English ¡MT ¡

40

  • Data ¡(In ¡tokens) ¡

¡

Malagasy ¡ English ¡

Parallel ¡ ¡ Train ¡(GV) ¡ 0.9 ¡million ¡ 0.8 ¡million ¡ Tune ¡(GV) ¡ 22.2k ¡ 20.2k ¡ Test ¡(GV) ¡ 23k ¡ ¡ 21k ¡ Test ¡(Web) ¡ 2.2k ¡ 2.1k ¡ Non ¡Parallel ¡ GigaWord ¡ N/A ¡ 834 ¡million ¡ Web ¡ 15.3 ¡million ¡ 396 ¡million ¡

GV: Global Voices, multilingual international news website

slide-41
SLIDE 41

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Malagasy-­‑English ¡MT ¡

41

  • Baseline ¡

¡ ¡ ¡ ¡Phrase-­‑based ¡MT ¡system ¡with ¡Moeses ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Model ¡3 ¡and ¡Model ¡4 ¡doesn’t ¡improve ¡BLEU) ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Align ¡in ¡2 ¡direc4ons ¡and ¡used ¡grow-­‑diag-­‑final ¡to ¡extract ¡phrases ¡

Parallel ¡ Data ¡ Transla4on ¡ Model ¡ Alignment ¡ Model1: 10 iterations HMM: 5 iterations

slide-42
SLIDE 42

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Malagasy-­‑English ¡MT ¡

42

  • Joint ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Align ¡and ¡extract ¡phrases ¡only ¡on ¡one ¡direc4on ¡P(English|Malagasy) ¡

Parallel ¡ Data ¡ Transla4on ¡ Model ¡ Non ¡ Parallel ¡ Data ¡ Alignment ¡& ¡ Decipherment ¡ Model1: 5 iterations (parallel only) 5 iterations (Joint) HMM: 5 iterations (Joint)

slide-43
SLIDE 43

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Malagasy-­‑English ¡MT ¡

43

  • Disjoint ¡

Parallel ¡ Data ¡ Transla4on ¡ Table ¡ Non ¡ Parallel ¡ Data ¡ Decipherment ¡ Transla4on ¡ Table ¡ Alignment ¡ Initialize

slide-44
SLIDE 44

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Results ¡on ¡Global ¡Voices ¡

44

16 ¡ 16.5 ¡ 17 ¡ 17.5 ¡ 18 ¡ 18.5 ¡ 19 ¡ 19.5 ¡ Tune ¡(GV) ¡ Test ¡(GV) ¡ Baseline ¡ Disjoint ¡ Joint ¡ BLEU

slide-45
SLIDE 45

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Results ¡on ¡Local ¡News ¡

45

0 ¡ 2 ¡ 4 ¡ 6 ¡ 8 ¡ 10 ¡ 12 ¡ Test ¡(Web) ¡ Baseline ¡ Disjoint ¡ Joint ¡ BLEU

slide-46
SLIDE 46

Informa(on ¡Sciences ¡Ins(tute ¡ ¡

Conclusion ¡

46

  • Proposed ¡a ¡framework ¡for ¡joint ¡alignment ¡and ¡

decipherment ¡

  • The ¡joint ¡process ¡improves ¡both ¡alignment ¡and ¡

machine ¡transla4on ¡quality ¡

  • Released ¡a ¡mini ¡Malagasy ¡treebank ¡and ¡15m ¡

tokens ¡news ¡data ¡ ¡

slide-47
SLIDE 47

Informa(on ¡Sciences ¡Ins(tute ¡ ¡ 47

¡ Thank ¡You! ¡