Structured Predic+on for Language and Other Discrete Data - - PowerPoint PPT Presentation

structured predic on for language and other discrete data
SMART_READER_LITE
LIVE PREVIEW

Structured Predic+on for Language and Other Discrete Data - - PowerPoint PPT Presentation

Structured Predic+on for Language and Other Discrete Data (10-710 and 11-763) Introductory Lecture A LiAle Bit of History 1935: Zipf s law


slide-1
SLIDE 1

Structured ¡Predic+on ¡for ¡Language ¡ and ¡Other ¡Discrete ¡Data ¡ (10-­‑710 ¡and ¡11-­‑763) ¡

Introductory ¡Lecture ¡

slide-2
SLIDE 2

A ¡LiAle ¡Bit ¡of ¡History ¡

1935: ¡ ¡Zipf’s ¡law ¡ 1940s ¡& ¡1950s: ¡ ¡empiricism: ¡ ¡Shannon, ¡Weaver, ¡Harris, ¡Yngve ¡ ¡

slide-3
SLIDE 3

George ¡Kingsley ¡Zipf, ¡1935 ¡

  • Heavy ¡tail ¡in ¡word ¡

distribu+ons ¡

  • (Incomes, ¡too; ¡accurately ¡

predicted ¡revolu+on ¡in ¡ Indonesia) ¡

p(w) ≈ 1 rank(w)

slide-4
SLIDE 4

Claude ¡Shannon, ¡1948 ¡

  • Father ¡of ¡informa+on ¡theory ¡
  • Entropy: ¡ ¡a ¡mathema+cal ¡

measure ¡of ¡uncertainty ¡

  • Informa+on ¡can ¡be ¡encoded ¡

digitally; ¡ques+ons ¡include ¡ how ¡to ¡encode ¡informa+on ¡ efficiently ¡and ¡reliably. ¡

  • Huge ¡impact ¡on ¡speech ¡

recogni+on ¡(and ¡space ¡ explora+on ¡and ¡digital ¡media ¡ inven+on ¡and ¡…) ¡

slide-5
SLIDE 5

Warren ¡Weaver, ¡1949 ¡

  • “One ¡naturally ¡wonders ¡if ¡the ¡

problem ¡of ¡transla+on ¡could ¡ conceivably ¡be ¡treated ¡as ¡a ¡ problem ¡in ¡cryptography. ¡ When ¡I ¡look ¡at ¡an ¡ar+cle ¡in ¡ Russian, ¡I ¡say: ¡'This ¡is ¡really ¡ wriAen ¡in ¡English, ¡but ¡it ¡has ¡ been ¡coded ¡in ¡some ¡strange ¡

  • symbols. ¡I ¡will ¡now ¡proceed ¡to ¡

decode.” ¡

slide-6
SLIDE 6

Zellig ¡Harris, ¡1940s ¡and ¡forward ¡

  • Centrality ¡of ¡data ¡for ¡

linguis+c ¡analysis ¡

  • Transforma+ons ¡(a ¡step ¡

toward ¡computa+onal ¡ models ¡of ¡language) ¡

  • Heavy ¡use ¡of ¡mathema+cs ¡

in ¡linguis+cs ¡

slide-7
SLIDE 7

Victor ¡Yngve, ¡1958 ¡

  • Early ¡computa+onal ¡linguist ¡
  • Showed ¡“depth ¡limit” ¡of ¡human ¡sentence ¡

processing ¡-­‑ ¡restricted ¡led ¡branching ¡(but ¡not ¡ right) ¡

  • Theme: ¡ ¡what ¡are ¡the ¡real ¡observables ¡in ¡

language ¡study? ¡ ¡Sound ¡waves! ¡

  • Early ¡programming ¡language, ¡COMIT, ¡for ¡

linguists ¡(influenced ¡SNOBOL) ¡

  • Random ¡sentence ¡genera+on ¡(in ¡the ¡1950s) ¡
slide-8
SLIDE 8

A ¡LiAle ¡Bit ¡of ¡History ¡

1935: ¡ ¡Zipf’s ¡law ¡ 1940s ¡& ¡1950s: ¡ ¡empiricism: ¡ ¡Shannon, ¡Weaver, ¡Harris, ¡Yngve ¡ ¡ 1960-­‑1985: ¡ ¡ra+onalism/representa+ons/formalisms/syntax/unapplied ¡AI ¡

– 1962: ¡ ¡ACL ¡(then ¡MTACL) ¡begins ¡ – 1964-­‑6: ¡ ¡ALPAC ¡report, ¡MT ¡winter, ¡Bar-­‑Hillel ¡leaves ¡the ¡field ¡

1980: ¡ ¡ICML ¡begins ¡ ~1985: ¡ ¡sta+s+cal ¡and ¡informa+on ¡theore+c ¡methods ¡catch ¡hold ¡again ¡in ¡NLP, ¡in ¡part ¡due ¡to ¡their ¡ success ¡in ¡ASR ¡

– This ¡has ¡con+nued ¡unabated ¡for ¡25+ ¡years, ¡with ¡help ¡from ¡Moore’s ¡Law-­‑type ¡phenomena ¡

1986: ¡ ¡LTI ¡founded ¡(then ¡called ¡“CMT”) ¡ 1993: ¡“Very ¡Large ¡Corpora” ¡workshops ¡start ¡at ¡ACL ¡ 1996: ¡ ¡EMNLP ¡conference ¡starts ¡ ~1997: ¡ ¡Lafferty ¡and ¡Rosenfeld ¡start ¡teaching ¡“Language ¡and ¡Sta+s+cs” ¡at ¡CMU ¡ 1998-­‑early ¡2000s: ¡ ¡Internet ¡boom, ¡commercial ¡language ¡technologies ¡becoming ¡viable ¡ ¡ ~2003: ¡ ¡MLD ¡founded ¡(then ¡called ¡“CALD”) ¡ 2004: ¡ ¡Cohen ¡starts ¡teaching ¡“Informa+on ¡Extrac+on” ¡ 2006: ¡ ¡Smith ¡starts ¡teaching ¡“Language ¡and ¡Sta+s+cs ¡2” ¡ 2011: ¡ ¡Cohen ¡and ¡Smith ¡start ¡teaching ¡“Structured ¡Predic+on” ¡

slide-9
SLIDE 9

What ¡is ¡Structured ¡Predic+on? ¡

Having ¡observed ¡some ¡informa+on ¡(input) ¡… ¡

  • Binary ¡classifica+on: ¡ ¡predict ¡a ¡coin ¡toss ¡(given ¡

some ¡informa+on) ¡

  • Mul+-­‑class: ¡ ¡predict ¡which ¡side ¡of ¡a ¡die ¡(given ¡

some ¡informa+on) ¡

  • Structured ¡predic+on: ¡ ¡choose ¡among ¡a ¡very ¡

large ¡number ¡of ¡complex ¡outcomes. ¡

– Large ¡means ¡“exponen+al ¡in ¡the ¡size ¡of ¡the ¡ input.” ¡

slide-10
SLIDE 10

E.g., ¡(Part ¡of ¡Speech) ¡Tagging ¡

Bill ¡directed ¡plays ¡about ¡English ¡kings ¡

proper ¡noun, ¡noun, ¡verb ¡ noun, ¡verb ¡ proper ¡noun, ¡ ¡ plural ¡proper ¡noun, ¡ adjec+ve ¡ noun, ¡verb ¡ adjec+ve, ¡verb ¡ preposi+on, ¡par+cle ¡

slide-11
SLIDE 11

E.g., ¡Segmenta+on ¡into ¡Words ¡

第二阶段的奥运会体育比赛門票与残奥会开 闭幕式門票的预订工作已经结束,现在进入 門票分配阶段。在此期间,我们不再接受新的 門票预订申请。 ¡

slide-12
SLIDE 12

E.g., ¡Segmenta+on ¡within ¡Words ¡

uygarlaştramadıklarımızdanmışsınızcasına ¡ ¡ “(behaving) ¡as ¡if ¡you ¡are ¡among ¡those ¡whom ¡we ¡ could ¡not ¡civilize” ¡

slide-13
SLIDE 13

E.g., ¡Segmenta+on ¡and ¡Tagging ¡

Britain ¡sent ¡warships ¡across ¡the ¡English ¡Channel ¡ Monday ¡to ¡rescue ¡Britons ¡stranded ¡by ¡ Eyjavallajökull ¡'s ¡volcanic ¡ash ¡cloud ¡

geopoli+cal ¡en+ty ¡ geographic ¡feature ¡ +me ¡ cultural/ethnic ¡group ¡ geographic ¡feature ¡

slide-14
SLIDE 14

E.g., ¡Trees ¡

Britain ¡sent ¡warships ¡across ¡the ¡English ¡Channel ¡ ¡ ¡ Monday ¡to ¡rescue ¡Britons ¡stranded ¡by ¡ ¡ ¡ Eyjavallajökull ¡'s ¡volcanic ¡ash ¡cloud ¡

slide-15
SLIDE 15

E.g., ¡Predicate-­‑Argument ¡Structures ¡

sender ¡ sent ¡thing/rescuer ¡ place ¡sent ¡ 3me ¡ rescued ¡thing/ ¡ stranded ¡thing ¡ stranding ¡thing ¡

Britain ¡sent ¡warships ¡across ¡the ¡English ¡Channel ¡ ¡ ¡ Monday ¡to ¡rescue ¡Britons ¡stranded ¡by ¡ ¡ ¡ Eyjavallajökull ¡'s ¡volcanic ¡ash ¡cloud ¡

slide-16
SLIDE 16

E.g., ¡Alignments ¡

Mr ¡President ¡, ¡Noah's ¡ark ¡was ¡filled ¡not ¡with ¡ ¡ Noahs ¡Arche ¡war ¡nicht ¡voller ¡ ¡ produc+on ¡factors ¡, ¡but ¡with ¡living ¡creatures ¡. ¡ ¡ ¡Produk+onsfaktoren ¡, ¡sondern ¡Geschöpfe ¡. ¡

slide-17
SLIDE 17

Gene ¡Finding ¡and ¡Analysis ¡

Slide due to E. Xing

slide-18
SLIDE 18

Phylogene+c ¡Rela+onships ¡

Time

slide-19
SLIDE 19

Image ¡Segmenta+on ¡

from ¡Nowozin ¡and ¡Lampert ¡(2010) ¡

slide-20
SLIDE 20

Implica+ons ¡of ¡“Going ¡Structured” ¡

  • All ¡aspects ¡of ¡training ¡and ¡tes+ng ¡become ¡more ¡

complex: ¡

– Designing ¡a ¡model ¡ – Predic+on ¡algorithms ¡(once ¡you ¡have ¡a ¡model) ¡ – Learning ¡your ¡model ¡from ¡data ¡ – Measuring ¡“error” ¡of ¡a ¡predic+on ¡

  • Machine ¡learning ¡helps ¡with ¡“mental ¡hygiene”! ¡

– Principles ¡that ¡will ¡help ¡you ¡explain ¡and ¡understand ¡your ¡ methods ¡ – Generic ¡op+miza+on ¡algorithms ¡ – Formal ¡guarantees ¡(some+mes) ¡ – Baselines ¡when ¡you’re ¡tackling ¡a ¡new ¡problem ¡

slide-21
SLIDE 21

The ¡Structured ¡Predic+on ¡Way ¡

  • 1. Formally ¡define ¡the ¡inputs ¡and ¡outputs. ¡ ¡
  • 2. Iden+fy ¡a ¡scoring ¡func+on ¡over ¡input-­‑output ¡

pairs, ¡and ¡an ¡algorithm ¡that ¡can ¡find ¡the ¡ maximum-­‑scoring ¡output ¡given ¡an ¡input. ¡

  • 3. Determine ¡what ¡data ¡can ¡be ¡used ¡to ¡learn ¡to ¡

predict ¡outputs ¡from ¡inputs, ¡and ¡apply ¡a ¡ learning ¡algorithm ¡to ¡tune ¡the ¡parameters ¡of ¡ the ¡scoring ¡func+on. ¡

  • 4. Evaluate ¡the ¡model ¡on ¡an ¡objec+ve ¡criterion ¡

measured ¡on ¡unseen ¡test ¡data. ¡ ¡

slide-22
SLIDE 22

Topics ¡

  • Inference ¡(ch. ¡2, ¡5) ¡
  • Learning ¡from ¡Complete ¡Data ¡(ch. ¡3) ¡
  • Learning ¡from ¡Incomplete ¡Data ¡(ch. ¡4) ¡
slide-23
SLIDE 23

Format ¡of ¡the ¡Course ¡

  • About ¡five ¡assignments ¡(12 ¡points ¡each) ¡
  • Survey ¡paper ¡

– 20 ¡points ¡spread ¡over ¡the ¡term ¡ – 20 ¡points ¡for ¡the ¡final ¡paper ¡

  • No ¡exams ¡

Email ¡list: ¡ hAps://mailman.srv.cs.cmu.edu/mailman/lis+nfo/ 11763-­‑announce ¡ ¡

slide-24
SLIDE 24

The ¡Book ¡

  • Linguis3c ¡Structure ¡

Predic3on ¡

  • Available ¡in ¡

electronic ¡form ¡(free ¡ at ¡CMU) ¡and ¡print ¡

  • form. ¡
slide-25
SLIDE 25
  • Algos. ¡

SPFLODD ¡ parsing ¡ inference ¡ formal ¡ rep’ns. ¡ learning ¡ some ¡overlap! ¡ L&S ¡ SPFLODD ¡ es+ma+on ¡ learning ¡ sequences, ¡a ¡ bit ¡on ¡trees ¡ general ¡ discrete ¡ structures ¡ some ¡overlap! ¡

SPFLODD ¡and ¡Other ¡Classes ¡

SPFLODD ¡ Machine ¡ Learning ¡ prerequisite ¡ Language ¡ and ¡ Sta+s+cs ¡ Language ¡ and ¡ Sta+s+cs ¡2 ¡ Probabilis+c ¡ Graphical ¡ Models ¡

PGM ¡ SPFLODD ¡ theory ¡ applica+on ¡ rela+onal ¡ data ¡ structural ¡ data ¡ some ¡overlap! ¡

Algorithms ¡ for ¡NLP ¡

Informa+on ¡ Extrac+on ¡

slide-26
SLIDE 26

Homework ¡for ¡Thursday ¡

  • Read ¡LSP, ¡preface ¡and ¡chapter ¡1. ¡