structured predic on for language and other discrete data
play

Structured Predic+on for Language and Other Discrete Data - PowerPoint PPT Presentation

Structured Predic+on for Language and Other Discrete Data (10-710 and 11-763) Introductory Lecture A LiAle Bit of History 1935: Zipf s law


  1. Structured ¡Predic+on ¡for ¡Language ¡ and ¡Other ¡Discrete ¡Data ¡ (10-­‑710 ¡and ¡11-­‑763) ¡ Introductory ¡Lecture ¡

  2. A ¡LiAle ¡Bit ¡of ¡History ¡ 1935: ¡ ¡Zipf ’ s ¡law ¡ 1940s ¡& ¡1950s: ¡ ¡empiricism: ¡ ¡Shannon, ¡Weaver, ¡Harris, ¡Yngve ¡ ¡

  3. George ¡Kingsley ¡Zipf, ¡1935 ¡ 1 p ( w ) ≈ rank ( w ) • Heavy ¡tail ¡in ¡word ¡ distribu+ons ¡ • (Incomes, ¡too; ¡accurately ¡ predicted ¡revolu+on ¡in ¡ Indonesia) ¡

  4. Claude ¡Shannon, ¡1948 ¡ • Father ¡of ¡informa+on ¡theory ¡ • Entropy: ¡ ¡a ¡mathema+cal ¡ measure ¡of ¡uncertainty ¡ • Informa+on ¡can ¡be ¡encoded ¡ digitally; ¡ques+ons ¡include ¡ how ¡to ¡encode ¡informa+on ¡ efficiently ¡and ¡reliably. ¡ • Huge ¡impact ¡on ¡speech ¡ recogni+on ¡(and ¡space ¡ explora+on ¡and ¡digital ¡media ¡ inven+on ¡and ¡…) ¡

  5. Warren ¡Weaver, ¡1949 ¡ • “ One ¡naturally ¡wonders ¡if ¡the ¡ problem ¡of ¡transla+on ¡could ¡ conceivably ¡be ¡treated ¡as ¡a ¡ problem ¡in ¡cryptography. ¡ When ¡I ¡look ¡at ¡an ¡ar+cle ¡in ¡ Russian, ¡I ¡say: ¡'This ¡is ¡really ¡ wriAen ¡in ¡English, ¡but ¡it ¡has ¡ been ¡coded ¡in ¡some ¡strange ¡ symbols. ¡I ¡will ¡now ¡proceed ¡to ¡ decode. ” ¡

  6. Zellig ¡Harris, ¡1940s ¡and ¡forward ¡ • Centrality ¡of ¡data ¡for ¡ linguis+c ¡analysis ¡ • Transforma+ons ¡(a ¡step ¡ toward ¡computa+onal ¡ models ¡of ¡language) ¡ • Heavy ¡use ¡of ¡mathema+cs ¡ in ¡linguis+cs ¡

  7. Victor ¡Yngve, ¡1958 ¡ • Early ¡computa+onal ¡linguist ¡ • Showed ¡ “ depth ¡limit ” ¡of ¡human ¡sentence ¡ processing ¡-­‑ ¡restricted ¡led ¡branching ¡(but ¡not ¡ right) ¡ • Theme: ¡ ¡what ¡are ¡the ¡real ¡observables ¡in ¡ language ¡study? ¡ ¡Sound ¡waves! ¡ • Early ¡programming ¡language, ¡COMIT, ¡for ¡ linguists ¡(influenced ¡SNOBOL) ¡ • Random ¡sentence ¡genera+on ¡(in ¡the ¡1950s) ¡

  8. A ¡LiAle ¡Bit ¡of ¡History ¡ 1935: ¡ ¡Zipf ’ s ¡law ¡ 1940s ¡& ¡1950s: ¡ ¡empiricism: ¡ ¡Shannon, ¡Weaver, ¡Harris, ¡Yngve ¡ ¡ 1960-­‑1985: ¡ ¡ra+onalism/representa+ons/formalisms/syntax/unapplied ¡AI ¡ 1962: ¡ ¡ACL ¡(then ¡MTACL) ¡begins ¡ – 1964-­‑6: ¡ ¡ALPAC ¡report, ¡MT ¡winter, ¡Bar-­‑Hillel ¡leaves ¡the ¡field ¡ – 1980: ¡ ¡ICML ¡begins ¡ ~1985: ¡ ¡sta+s+cal ¡and ¡informa+on ¡theore+c ¡methods ¡catch ¡hold ¡again ¡in ¡NLP, ¡in ¡part ¡due ¡to ¡their ¡ success ¡in ¡ASR ¡ This ¡has ¡con+nued ¡unabated ¡for ¡25+ ¡years, ¡with ¡help ¡from ¡Moore ’ s ¡Law-­‑type ¡phenomena ¡ – 1986: ¡ ¡LTI ¡founded ¡(then ¡called ¡ “ CMT ” ) ¡ 1993: ¡ “ Very ¡Large ¡Corpora ” ¡workshops ¡start ¡at ¡ACL ¡ 1996: ¡ ¡EMNLP ¡conference ¡starts ¡ ~1997: ¡ ¡Lafferty ¡and ¡Rosenfeld ¡start ¡teaching ¡ “ Language ¡and ¡Sta+s+cs ” ¡at ¡CMU ¡ 1998-­‑early ¡2000s: ¡ ¡Internet ¡boom, ¡commercial ¡language ¡technologies ¡becoming ¡viable ¡ ¡ ~2003: ¡ ¡MLD ¡founded ¡(then ¡called ¡ “ CALD ” ) ¡ 2004: ¡ ¡Cohen ¡starts ¡teaching ¡ “ Informa+on ¡Extrac+on ” ¡ 2006: ¡ ¡Smith ¡starts ¡teaching ¡ “ Language ¡and ¡Sta+s+cs ¡2 ” ¡ 2011: ¡ ¡Cohen ¡and ¡Smith ¡start ¡teaching ¡ “ Structured ¡Predic+on ” ¡

  9. What ¡is ¡Structured ¡Predic+on? ¡ Having ¡observed ¡some ¡informa+on ¡(input) ¡… ¡ • Binary ¡classifica+on: ¡ ¡predict ¡a ¡coin ¡toss ¡(given ¡ some ¡informa+on) ¡ • Mul+-­‑class: ¡ ¡predict ¡which ¡side ¡of ¡a ¡die ¡(given ¡ some ¡informa+on) ¡ • Structured ¡predic+on: ¡ ¡choose ¡among ¡a ¡very ¡ large ¡number ¡of ¡complex ¡outcomes. ¡ – Large ¡means ¡ “ exponen+al ¡in ¡the ¡size ¡of ¡the ¡ input. ” ¡

  10. E.g., ¡(Part ¡of ¡Speech) ¡Tagging ¡ adjec+ve, ¡verb ¡ proper ¡noun, ¡noun, ¡verb ¡ noun, ¡verb ¡ Bill ¡directed ¡plays ¡about ¡English ¡kings ¡ noun, ¡verb ¡ proper ¡noun, ¡ ¡ plural ¡proper ¡noun, ¡ adjec+ve ¡ preposi+on, ¡par+cle ¡

  11. E.g., ¡Segmenta+on ¡ into ¡Words ¡ 第二 阶 段的奥运会体育比 赛 門票与残奥会开 闭 幕式門票的 预订 工作已 经结 束 , 现 在 进 入 門票分配 阶 段。在此期 间 , 我 们 不再接受新的 門票 预订 申 请 。 ¡

  12. E.g., ¡Segmenta+on ¡ within ¡Words ¡ uygarlaştramadıklarımızdanmışsınızcasına ¡ ¡ “ (behaving) ¡as ¡if ¡you ¡are ¡among ¡those ¡whom ¡we ¡ could ¡not ¡civilize ” ¡

  13. E.g., ¡Segmenta+on ¡ and ¡Tagging ¡ geopoli+cal ¡en+ty ¡ geographic ¡feature ¡ Britain ¡sent ¡warships ¡across ¡the ¡English ¡Channel ¡ Monday ¡to ¡rescue ¡Britons ¡stranded ¡by ¡ Eyjavallajökull ¡'s ¡volcanic ¡ash ¡cloud ¡ +me ¡ cultural/ethnic ¡group ¡ geographic ¡feature ¡

  14. E.g., ¡Trees ¡ Britain ¡sent ¡warships ¡across ¡the ¡English ¡Channel ¡ ¡ ¡ Monday ¡to ¡rescue ¡Britons ¡stranded ¡by ¡ ¡ ¡ Eyjavallajökull ¡'s ¡volcanic ¡ash ¡cloud ¡

  15. E.g., ¡Predicate-­‑Argument ¡Structures ¡ Britain ¡sent ¡warships ¡across ¡the ¡English ¡Channel ¡ ¡ sender ¡ sent ¡thing/rescuer ¡ place ¡sent ¡ ¡ Monday ¡to ¡rescue ¡Britons ¡stranded ¡by ¡ ¡ rescued ¡thing/ ¡ ¡ 3me ¡ stranded ¡thing ¡ Eyjavallajökull ¡'s ¡volcanic ¡ash ¡cloud ¡ stranding ¡thing ¡

  16. E.g., ¡Alignments ¡ Mr ¡President ¡, ¡Noah's ¡ark ¡was ¡filled ¡not ¡with ¡ ¡ Noahs ¡Arche ¡war ¡nicht ¡voller ¡ ¡ produc+on ¡factors ¡, ¡but ¡with ¡living ¡creatures ¡. ¡ ¡ ¡Produk+onsfaktoren ¡, ¡sondern ¡Geschöpfe ¡. ¡

  17. Gene ¡Finding ¡and ¡Analysis ¡ Slide due to E. Xing

  18. Phylogene+c ¡Rela+onships ¡ Time

  19. Image ¡Segmenta+on ¡ from ¡Nowozin ¡and ¡Lampert ¡(2010) ¡

  20. Implica+ons ¡of ¡“Going ¡Structured” ¡ • All ¡aspects ¡of ¡training ¡and ¡tes+ng ¡become ¡more ¡ complex: ¡ – Designing ¡a ¡model ¡ – Predic+on ¡algorithms ¡(once ¡you ¡have ¡a ¡model) ¡ – Learning ¡your ¡model ¡from ¡data ¡ – Measuring ¡ “ error ” ¡of ¡a ¡predic+on ¡ • Machine ¡learning ¡helps ¡with ¡ “ mental ¡hygiene ” ! ¡ – Principles ¡that ¡will ¡help ¡you ¡explain ¡and ¡understand ¡your ¡ methods ¡ – Generic ¡op+miza+on ¡algorithms ¡ – Formal ¡guarantees ¡(some+mes) ¡ – Baselines ¡when ¡you ’ re ¡tackling ¡a ¡new ¡problem ¡

  21. The ¡Structured ¡Predic+on ¡Way ¡ 1. Formally ¡define ¡the ¡inputs ¡and ¡outputs. ¡ ¡ 2. Iden+fy ¡a ¡scoring ¡func+on ¡over ¡input-­‑output ¡ pairs, ¡and ¡an ¡algorithm ¡that ¡can ¡find ¡the ¡ maximum-­‑scoring ¡output ¡given ¡an ¡input. ¡ 3. Determine ¡what ¡data ¡can ¡be ¡used ¡to ¡learn ¡to ¡ predict ¡outputs ¡from ¡inputs, ¡and ¡apply ¡a ¡ learning ¡algorithm ¡to ¡tune ¡the ¡parameters ¡of ¡ the ¡scoring ¡func+on. ¡ 4. Evaluate ¡the ¡model ¡on ¡an ¡objec+ve ¡criterion ¡ measured ¡on ¡unseen ¡test ¡data. ¡ ¡

  22. Topics ¡ • Inference ¡(ch. ¡2, ¡5) ¡ • Learning ¡from ¡Complete ¡Data ¡(ch. ¡3) ¡ • Learning ¡from ¡Incomplete ¡Data ¡(ch. ¡4) ¡

  23. Format ¡of ¡the ¡Course ¡ • About ¡five ¡assignments ¡(12 ¡points ¡each) ¡ • Survey ¡paper ¡ – 20 ¡points ¡spread ¡over ¡the ¡term ¡ – 20 ¡points ¡for ¡the ¡final ¡paper ¡ • No ¡exams ¡ Email ¡list: ¡ hAps://mailman.srv.cs.cmu.edu/mailman/lis+nfo/ 11763-­‑announce ¡ ¡

  24. The ¡Book ¡ • Linguis3c ¡Structure ¡ Predic3on ¡ • Available ¡in ¡ electronic ¡form ¡(free ¡ at ¡CMU) ¡and ¡print ¡ form. ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend