Machine Translation CIS 526 Instructor: Chris Callison-Burch TAs: - - PowerPoint PPT Presentation

machine translation
SMART_READER_LITE
LIVE PREVIEW

Machine Translation CIS 526 Instructor: Chris Callison-Burch TAs: - - PowerPoint PPT Presentation

Machine Translation CIS 526 Instructor: Chris Callison-Burch TAs: Mitchell Stern, Justin Chiu Course web site mt-class.org/penn Course materials developed with Adam Lopez Matt Post Chris Dyer Edinburgh JHU CMU Textbook


slide-1
SLIDE 1

Machine Translation

CIS 526 Instructor: Chris Callison-Burch TAs: Mitchell Stern, Justin Chiu

slide-2
SLIDE 2

Course web site mt-class.org/penn

Adam Lopez Edinburgh Matt Post JHU Course materials developed with Chris Dyer CMU

slide-3
SLIDE 3

Textbook

slide-4
SLIDE 4

ندلب نب ہماسا ںیم ہک ےہ انہک اک ینیچ کڈ ردص یکیرما بئان ۔ںوہ اتہاچ انھکید ہدرم ای ہدنز وک

American Vice President Dick Cheney has said that he wants to see Osama bin Laden dead or alive.

slide-5
SLIDE 5

The Tower of Babel Pieter Brueghel the Elder (1563)

slide-6
SLIDE 6

ENIAC (1946)

slide-7
SLIDE 7

When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange

  • symbols. I will now

proceed to decode.” Warren Weaver (1949)

slide-8
SLIDE 8

Star Trek Hitchhiker’s Guide to the Galaxy

slide-9
SLIDE 9

Because we want to provide everyone with access to all the world's information, including information written in every language, one of the exciting projects at Google Research is machine translation... Now you can see the results for yourself. We recently launched an online version of our system for Arabic-English and English-Arabic. Try it out! Statistical Machine Translation Live 4/28/2006 Franz Och

slide-10
SLIDE 10
slide-11
SLIDE 11
slide-12
SLIDE 12
slide-13
SLIDE 13

Statistical Machine Translation

Develop a statistical model of translation that can be learned from data and used to predict the correct English translation of new Chinese sentences.

slide-14
SLIDE 14

linguistics algorithms machine learning formal language information theory

Statistical Machine Translation

slide-15
SLIDE 15

In-class exercise

slide-16
SLIDE 16

Synchronous ¡Context ¡Free ¡Grammar

16

Urdu English S → NP① VP② NP① VP② VP→ PP① VP② VP② PP① VP→ V① AUX② AUX② V① PP → NP① P② P② NP① NP →

hamd ansary

Hamid Ansari NP →

na}b sdr

Vice President V →

namzd

nominated P →

kylye

for AUX →

taa

was

slide-17
SLIDE 17

NP❶

Hamid Ansari

NP❶ NP❷

Vice President

NP❷

for

P❸ P❸

nominated

V❹ V❹

hamd ansary na}b sdr kylye namzd taa was

AUX❺ AUX❺

slide-18
SLIDE 18

NP❶

Hamid Ansari

NP❶ NP❷

Vice President

NP❷

for

P❸ P❸

nominated

V❹ V❹

hamd ansary na}b sdr kylye namzd taa was

AUX❺ AUX❺ PP❻ PP❻

slide-19
SLIDE 19

NP❶

Hamid Ansari

NP❶ NP❷

Vice President

NP❷

for

P❸ P❸

nominated

V❹ V❹

hamd ansary na}b sdr kylye namzd taa was

AUX❺ AUX❺ PP❻ PP❻ VP❼ VP❼

slide-20
SLIDE 20

NP❶

Hamid Ansari

NP❶ NP❷ P❸ V❹

hamd ansary na}b sdr kylye namzd taa

AUX❺ PP❻

Vice President

NP❷

for

P❸ PP❻ VP❼

nominated

V❹

was

AUX❺ VP❼ VP❽ VP❽

slide-21
SLIDE 21

NP❶

Hamid Ansari

NP❶ NP❷ P❸ V❹

hamd ansary na}b sdr kylye namzd taa

AUX❺ PP❻

Vice President

NP❷

for

P❸ PP❻ VP❼

nominated

V❹

was

AUX❺ VP❼ VP❽ VP❽ S❾ S❾

slide-22
SLIDE 22

Transla7on ¡improvements

22

'first nuclear experiment in 1990 was' Thomas red Unilever National Laboratory of the United States in نﻦﭘﯾﻴوﻮ designer, are already working

  • n the book of Los سﺲوﻮﻣﻠﯾﻴاﺎ National

Laboratory ﯽﻧﯾﻴڈﮉ, former director of the technical سﺲﻧﺟﻠﯾﻴﭨﮣﻧاﺎ written with the cooperation of نﻦﯾﻴﻣﻠﭨﮣﺳ. This book 'nuclear express: political history and the expansion of bomb' has been written, and the two writers have also claimed that the country has made nuclear bomb is he or any other country's nuclear secrets to ﮯٔٵﯾﻴاﺎرﺮﭼ or that of any other nuclear power cooperation is achieved. The First Nuclear Test Was in 1990. Thomas red of the United States, the National Laboratory in designer are already working on the book of Los Alamos National Laboratory, former director of the technical intelligence, with the cooperation of Diana steelman wrote. This book under the title of the spread

  • f nuclear expressway: the political

history of the bomb and this has been written and the two writers have claimed that the country also has made nuclear bomb or any other country, Korea nuclear secrets, or any

  • f the other nuclear power

cooperation. First nuclear test conducted in 1990 Thomas Reed, who has worked as a weapons designer at Livermore National Laboratory in the United States, has written a book in collaboration with Danny Stillman, former director of the technical intelligence division at Los Alamos National Laboratory. In their book, 'The Nuclear Express: A Political History of the Bomb and its Proliferation,' Reed and Stillman claim that every country that has ever produced a nuclear bomb has been able to do so because it stole the nuclear secrets of another country or enjoyed the cooperation of another nuclear power.

ﻼﮩﭘ’ ﻣﺎﮭﻭﺗ ﭨﮣرﺮﺎﺑﯾﻴﻟ ﭼرﺮﮐ ﭨﮣرﺮﺎﺑﯾﻴﻟ ﯾﻴرﺮﺋاﺎڈﮉ ۔ﮯﮨ ﺗﮐ ہﮨﯾﻴ ﯾﻴرﺮﺎﺗ ﯽﮭﻭﮑﻟ دﺪ ﮯﻧ ﺎﻧﺑ مﻢﺑ ﮯﮐ ﯽﺳﮐ ۔ﮯﮨ ﺎﮨرﺮ

slide-23
SLIDE 23

Who ¡did ¡what ¡to ¡whom?

23

Thomas was red when this question why China has provided the nuclear technology to Pakistan, In response, He said as China and India was joint enemy of Pakistan.

Baseline Syntactic final system

He said that China, North Korea, Iran, Syria, Pakistan, through Egypt, Libya and Yemen is to provide nuclear technology. Thomas red when was this question why China has provided to Pakistan nuclear technology, he said in response to China, Pakistan and India as a common enemy. He said that China would provide nuclear technology to North Korea, Iran, Syria, Pakistan, Egypt, Libya and Yemen.

slide-24
SLIDE 24

Example ¡Research ¡ques7ons

  • How ¡can ¡we ¡learn ¡transla7on ¡rules ¡automa7cally ¡

from ¡data? ¡

  • When ¡one ¡word ¡has ¡several ¡different ¡possible ¡

transla7ons, ¡which ¡one ¡should ¡we ¡choose? ¡

  • When ¡languages ¡have ¡different ¡word ¡orders, ¡

how ¡do ¡we ¡properly ¡re-­‑reorder ¡the ¡words ¡from ¡

  • ne ¡language ¡into ¡the ¡other ¡language? ¡
  • What ¡is ¡the ¡most ¡effec7ve ¡way ¡of ¡searching ¡over ¡

all ¡permuta7ons ¡and ¡combina7ons ¡of ¡words?

24

slide-25
SLIDE 25

Topics ¡in ¡CIS ¡526

  • Probability ¡and ¡Language ¡Models ¡
  • Word ¡Alignment ¡and ¡Transla7on ¡Models ¡
  • Searching ¡for ¡the ¡most ¡probable ¡transla7on ¡
  • Phrase-­‑based ¡models ¡and ¡discrimina7ve ¡training ¡
  • Evalua7ng ¡transla7on ¡quality ¡
  • Syntax-­‑based ¡models ¡of ¡transla7on ¡
  • Collec7ng ¡training ¡data ¡through ¡crowdsourcing ¡

and ¡web ¡crawling

25

slide-26
SLIDE 26

Who ¡should ¡take ¡this ¡class?

  • Anyone ¡who ¡is ¡interested ¡in ¡machine ¡transla7on, ¡

natural ¡language ¡processing, ¡or ¡AI ¡

  • I ¡don’t ¡presume ¡any ¡background ¡in ¡linguis7cs ¡or ¡

sta7s7cs ¡

  • The ¡only ¡prerequisite ¡is ¡good ¡programming ¡skills ¡
  • All ¡the ¡code ¡for ¡the ¡class ¡is ¡wriTen ¡in ¡Python

26

slide-27
SLIDE 27

Assignments

  • Programming ¡assignments ¡are ¡designed ¡to ¡teach ¡

you ¡the ¡fundamental ¡algorithms ¡in ¡SMT ¡and ¡ illustrate ¡the ¡research ¡challenges

27

slide-28
SLIDE 28

the clients and the associates are enemies . los clientes y los asociados son enemigos . the company has three groups . la empresa tiene tres grupos . its groups are in Europe . sus grupos estan en Europa . the modern groups sell strong pharmaceuticals . los grupos modernos venden medicinas fuertes . the groups do not sell zanzanine . los grupos no venden zanzanina . the small groups are not modern . los grupos pequenos no son modernos . Garcia and associates . Garcia y asociados . Carlos Garcia has three associates . Carlos Garcia tiene tres asociados . his associates are not strong . sus asociados no son fuertes . Garcia has a company also . Garcia tambien tiene una empresa . its clients are angry . sus clientes estan enfadados . the associates are also angry . los asociados tambien estan enfadados .

Word ¡aligner

slide-29
SLIDE 29

the clients and the associates are enemies . los clientes y los asociados son enemigos . the company has three groups . la empresa tiene tres grupos . its groups are in Europe . sus grupos estan en Europa . the modern groups sell strong pharmaceuticals . los grupos modernos venden medicinas fuertes . the groups do not sell zanzanine . los grupos no venden zanzanina . the small groups are not modern . los grupos pequenos no son modernos . Garcia and associates . Garcia y asociados . Carlos Garcia has three associates . Carlos Garcia tiene tres asociados . his associates are not strong . sus asociados no son fuertes . Garcia has a company also . Garcia tambien tiene una empresa . its clients are angry . sus clientes estan enfadados . the associates are also angry . los asociados tambien estan enfadados .

Word ¡aligner

slide-30
SLIDE 30

Phrase ¡Extractor

30

澳 洲 是 与 北 韩 有 邦 交 的 少 数 国 家 之 一

Australia is

  • ne
  • f

the few countries that have diplomatic relations with North Korea

与 北 韩 有 邦交 have diplomatic relations with North Korea 邦交 diplomatic relations 北 韩
 North Korea

slide-31
SLIDE 31

Phrase-­‑based ¡Decoder

31

he

er geht ja nicht nach hause

it , it , he is are goes go yes is , of course not do not does not is not after to according to in house home chamber at home not is not does not do not home under house return home do not it is he will be it goes he goes is are is after all does to following not after not to not is not are not is not a

slide-32
SLIDE 32

Phrase-­‑based ¡Decoder

32

er geht ja nicht nach hause er geht ja nicht nach hause

are it he

er geht ja nicht nach hause

are it he goes does not yes go to home home

er geht ja nicht nach hause

are it he goes does not yes go to home home

slide-33
SLIDE 33

Discrimina7ve ¡Re-­‑Ranking

33

6.0 Lex 12 cartoons insulting the prophet mohammad 4.5 LM 3.0 TM1 9.0 12 cartoons attack the prophet mohammad 17.6 10.1 2.0 7.0 7.0 9.4 twelve comics offensive to the prophet mohammad several drawings mocking the prophet mohammad 8.0 5.5 15.4 23.2 45.0 26.0 TM2

slide-34
SLIDE 34

Assignments

  • All ¡assignments ¡have ¡the ¡following ¡proper7es: ¡

–Clearly ¡defined ¡baseline ¡systems ¡that ¡you ¡can ¡ reimplement ¡ –Open-­‑ended ¡research ¡problems ¡with ¡no ¡“correct” ¡ solu7ons ¡(lots ¡of ¡room ¡for ¡crea7vity) ¡ –Objec7ve ¡measures ¡of ¡how ¡accurate ¡a ¡solu7on ¡is

34

slide-35
SLIDE 35
slide-36
SLIDE 36

Language ¡in ¡10 ¡minutes

  • In-­‑class ¡presenta7on ¡about ¡a ¡language ¡
  • What ¡proper7es ¡does ¡it ¡have? ¡
  • What ¡makes ¡it ¡different ¡than ¡English? ¡
  • What ¡are ¡the ¡challenges ¡for ¡machine ¡transla7on? ¡
  • Jonny ¡will ¡give ¡an ¡example ¡presenta7on

36

slide-37
SLIDE 37

Straw ¡Poll

  • Last ¡7me ¡I ¡ran ¡this ¡class, ¡the ¡grading ¡was: ¡

– ¡4 ¡homework ¡assignments ¡(10 ¡points ¡each ¡= ¡40 ¡points) ¡ ¡ – ¡Language ¡in ¡10 ¡minutes ¡(10 ¡points) ¡ – ¡Quizzes ¡about ¡the ¡reading ¡(10 ¡points ¡total) ¡ – ¡Self-­‑designed ¡final ¡project ¡(40 ¡points) ¡

  • Poll ¡ques7on: ¡Who ¡would ¡prefer ¡more ¡

homework ¡assignments ¡instead ¡of ¡a ¡final ¡ project?

37

slide-38
SLIDE 38

By ¡next ¡week, ¡please

  • Buy ¡the ¡textbook ¡(Kindle ¡version ¡is ¡$35) ¡
  • Sign ¡up ¡on ¡piazza.com/upenn/spring2014/cis526 ¡ ¡
  • Fill ¡out ¡the ¡piazza ¡poll ¡about ¡when ¡would ¡be ¡best ¡

for ¡us ¡to ¡hold ¡office ¡hours. ¡ ¡

  • Do ¡assignment ¡0, ¡the ¡setup ¡assignment. ¡ ¡I’ll ¡post ¡

a ¡link ¡to ¡the ¡assignment ¡on ¡piazza ¡tomorrow.

38

slide-39
SLIDE 39

Ques7ons? Chris: ¡ ¡ccb@cis.upenn.edu ¡ Jus7n: ¡justc@seas.upenn.edu ¡ Mitchell: ¡mitstern@seas.upenn.edu