From 500 passages to 50,000 books: Crea3ng and using - - PowerPoint PPT Presentation

from 500 passages to 50 000 books crea3ng and using a
SMART_READER_LITE
LIVE PREVIEW

From 500 passages to 50,000 books: Crea3ng and using - - PowerPoint PPT Presentation

From 500 passages to 50,000 books: Crea3ng and using a large-enough historical corpus Mark Liberman h>p://ling.upenn.edu/~myl From 500 passages to


slide-1
SLIDE 1

From ¡500 ¡passages ¡to ¡50,000 ¡ ¡books: ¡ ¡

Crea3ng ¡and ¡using ¡a ¡large-­‑enough ¡historical ¡corpus ¡ Mark ¡Liberman ¡

h>p://ling.upenn.edu/~myl ¡

slide-2
SLIDE 2

From ¡500 ¡passages ¡to ¡500,000 ¡ ¡books: ¡ ¡

Crea3ng ¡and ¡using ¡a ¡large-­‑enough ¡historical ¡corpus ¡ Mark ¡Liberman ¡

h>p://ling.upenn.edu/~myl ¡

slide-3
SLIDE 3

Outline ¡

  • Exis3ng ¡shared ¡historical ¡corpora ¡are ¡not ¡big ¡enough ¡
  • Much ¡larger ¡datasets ¡are ¡in ¡reach ¡
  • But ¡there ¡are ¡problems ¡(metadata, ¡OCR, ¡parsing, ¡…) ¡
  • Social ¡and ¡technical ¡solu3ons ¡are ¡possible ¡
  • These ¡solu3ons ¡are ¡needed ¡for ¡other ¡reasons ¡
  • So ¡we ¡should ¡join ¡others ¡in ¡reaching ¡for ¡the ¡moon ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 3 ¡

slide-4
SLIDE 4

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 4 ¡

Why ¡a ¡few ¡million ¡words ¡is ¡not ¡(always) ¡enough… ¡

slide-5
SLIDE 5

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 5 ¡

Example ¡#1: ¡ ¡ ¡ ¡V ¡(that) ¡S ¡

slide-6
SLIDE 6

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 6 ¡

slide-7
SLIDE 7

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 7 ¡

DECADE 1820 1830 1840 1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 DEL 0 0 1 1 1 1 6 4 9 7 10 25 30 47 39 58 83 87 101 NO DEL 1 4 8 12 27 32 38 51 59 78 86 83 83 93 71 74 86 47 66 WORDS (M) 6.9 13.8 16 16.5 17.1 18.6 20.9 21.2 22.5 22.7 25.6 24.4 24.1 24.4 23.9 23.8 25.2 27.9 29.5

COHA ¡Counts ¡for ¡“suggested ¡(that) ¡he|she|they”: ¡

Conclusion: ¡ ¡ ¡ ¡ ¡ ¡ ¡For ¡this ¡inves3ga3on, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡~20 ¡million ¡words ¡per ¡decade ¡is ¡marginal. ¡

slide-8
SLIDE 8

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 8 ¡

Example ¡#2: ¡ ¡ ¡ ¡Contrac3on ¡of ¡will ¡not ¡and ¡do ¡not ¡

slide-9
SLIDE 9

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 9 ¡

slide-10
SLIDE 10

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 10 ¡

¡ ¡ ¡Specifically, ¡real-­‑estate ¡lis3ngs ¡from ¡trulia.com, ¡e.g. ¡ ¡ ¡ ¡You ¡will ¡not ¡want ¡to ¡miss ¡this ¡wonderful ¡home ¡in ¡sought ¡ader ¡Mar3n ¡Manor. ¡ ¡

¡ ¡ ¡ ¡Classic ¡1920's ¡Brick ¡Bungalow ¡in ¡Historic ¡West ¡End ¡with ¡energy ¡features ¡that ¡will ¡ ¡not ¡drain ¡your ¡pockets! ¡ ¡ ¡ ¡ ¡Seller ¡will ¡not ¡turn ¡on ¡u3li3es ¡for ¡inspec3ons. ¡ ¡ ¡ ¡ ¡ ¡Great ¡price, ¡do ¡not ¡miss! ¡ ¡ ¡ ¡ ¡ ¡Please ¡do ¡not ¡enter ¡the ¡property ¡site ¡without ¡an ¡appointment. ¡ ¡ ¡ ¡ ¡ ¡… ¡the ¡master ¡closet ¡has ¡the ¡laundry ¡room, ¡which ¡most ¡units ¡in ¡Foxcrod ¡do ¡not ¡have! ¡ ¡ ¡ ¡ ¡ ¡Hurry! ¡This ¡one ¡won't ¡last ¡long! ¡ ¡ ¡ ¡ ¡You ¡won't ¡find ¡a ¡street ¡like ¡this ¡anywhere ¡in ¡Buckhead! ¡ ¡ ¡ ¡ ¡Don't ¡wait. ¡An ¡investment ¡you ¡won't ¡regret. ¡ ¡ ¡ ¡ ¡Comple3on ¡May ¡2013, ¡but ¡don't ¡wait ¡so ¡builder ¡can ¡customize. ¡ ¡ ¡ ¡ ¡You ¡Will ¡Hate ¡Yourself ¡For ¡The ¡Rest ¡Of ¡Your ¡Life ¡If ¡You ¡Don't ¡Buy ¡This ¡Home! ¡ ¡ ¡ ¡ ¡We ¡don't ¡work ¡with ¡mul3ple ¡offers ¡and ¡the ¡buyer ¡must ¡be ¡prepared ¡to ¡wait ¡un3l ¡bank ¡approval. ¡

10 ¡Ci3es: ¡Atlanta, ¡Boston, ¡Chicago, ¡Denver, ¡Houston, ¡L.A., ¡Miami, ¡N.Y.C., ¡Philadelphia, ¡Las ¡Vegas ¡

How ¡about ¡contrac3ons ¡in ¡a ¡set ¡of ¡sources ¡from ¡last ¡week? ¡

slide-11
SLIDE 11

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 11 ¡

slide-12
SLIDE 12

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 12 ¡

slide-13
SLIDE 13

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 13 ¡

Contrac3on ¡counts ¡from ¡trulia.com ¡real ¡estate ¡lis3ngs: ¡

Atlanta Boston Chicago Denver Houston LA Miami NYC Phila Vegas do not 26 6 92 16 170 374 575 100 74 21 don’t 92 22 133 99 246 95 453 205 334 25 will not 38 15 67 47 133 98 323 161 144 18 won’t 51 5 56 55 152 44 245 55 130 28 TOTAL WRDS 248K 96K 571K 223K 733K 421K 1.4M 1.7M 754K 147K

Conclusions: ¡ ¡ ¡ ¡ ¡ ¡ ¡100k ¡words ¡per ¡source ¡is ¡marginal ¡for ¡es3ma3ng ¡source ¡effect ¡here ¡ ¡ ¡ ¡ ¡ ¡10 ¡sources ¡are ¡not ¡enough ¡to ¡get ¡a ¡stable ¡es3mate ¡of ¡the ¡overall ¡pa>ern ¡

slide-14
SLIDE 14

Size ¡of ¡some ¡available ¡collec3ons ¡

Penn-­‑Helsinki ¡Parsed ¡Corpus ¡of ¡Early ¡Modern ¡English: ¡

¡ ¡ ¡1.7 ¡million ¡words ¡from ¡448 ¡texts ¡over ¡210 ¡years ¡(1500-­‑1710) ¡ ¡ ¡ ¡Curated ¡(text ¡& ¡metadata), ¡annotated, ¡published ¡

Early ¡English ¡Books ¡Online ¡/ ¡Text ¡Crea3on ¡Partnership ¡(EEBO-­‑TCP): ¡ ¡ ¡ ¡125,000 ¡texts ¡over ¡~220 ¡years ¡(1483-­‑1700) ¡

¡ ¡ ¡Partly ¡curated ¡(40,000 ¡done), ¡not ¡annotated, ¡not ¡published ¡yet ¡(though ¡accessible ¡online) ¡ ¡ ¡ ¡“Phase ¡I” ¡(25,363 ¡texts) ¡to ¡be ¡made ¡available ¡in ¡2015 ¡ ¡ ¡ ¡“Phase ¡II” ¡(45k ¡more ¡texts) ¡to ¡be ¡made ¡available ¡~ ¡2017+ ¡

Corpus ¡of ¡Historical ¡American ¡English: ¡

¡ ¡ ¡400 ¡mw ¡from ¡100k ¡texts ¡over ¡200 ¡years ¡(1810-­‑2009) ¡ ¡ ¡ ¡Semi-­‑curated, ¡semi-­‑annotated, ¡not ¡published ¡(and ¡will ¡not ¡be) ¡

Eighteenth ¡Century ¡Collec3ons ¡Online ¡(ECCO) ¡

¡ ¡200k ¡texts ¡over ¡100 ¡years ¡(~1700-­‑1800) ¡

¡ ¡Curated, ¡not ¡annotated, ¡release ¡prospects ¡unclear ¡(to ¡me?) ¡

Hathi ¡Trust: ¡

¡ ¡>10M ¡texts ¡over ¡~400 ¡years ¡(~31% ¡public ¡domain) ¡ ¡ ¡Lightly ¡curated, ¡not ¡annotated, ¡not ¡published ¡(but ¡some ¡can ¡be ¡downloaded) ¡

Internet ¡Archive: ¡

¡??? ¡Texts(12k ¡on ¡line) ¡over ¡~400 ¡years ¡ ¡ ¡Not ¡curated, ¡not ¡annotated, ¡can ¡be ¡downloaded ¡

. ¡. ¡. ¡etc. ¡. ¡. ¡. ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 14 ¡

slide-15
SLIDE 15

Some3mes ¡we’re ¡stuck ¡

  • For ¡Old ¡English, ¡Classical ¡La3n, ¡etc., ¡

¡ ¡ ¡ ¡the ¡extant ¡text ¡is ¡limited ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡all ¡of ¡it ¡is ¡available ¡for ¡historical ¡study ¡

  • But ¡for ¡English ¡since ¡~1500, ¡

¡ ¡ ¡and ¡for ¡many ¡other ¡languages, ¡ ¡ ¡ ¡ ¡ ¡there ¡are ¡100s ¡or ¡1000s ¡of ¡books ¡per ¡year ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡now ¡available ¡in ¡digital ¡form ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 15 ¡

slide-16
SLIDE 16

So ¡what’s ¡the ¡problem? ¡

  • 1. Bad ¡OCR ¡(op3cal ¡character ¡recogni3on) ¡
  • 2. Problema3c ¡metadata ¡ ¡

(edi3ons, ¡genres, ¡authors) ¡

  • 3. Lack ¡of ¡annota3on ¡

– Headings, ¡cap3ons, ¡marginalia, ¡... ¡ – Quota3ons, ¡dialogue, ¡other ¡languages, ¡… ¡ – Tagging, ¡parsing, ¡. ¡. ¡. ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 16 ¡

slide-17
SLIDE 17

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 17 ¡

( ¡S ¡) ¡ ¡ Thus ¡in ¡page ¡55", ¡he ¡fays ¡'' ¡the ¡Society ¡hare ¡ma-­‑ ¡ ¡ *^ ¡nifeded ¡a ¡fufficient ¡forwardnefs ¡to ¡encourage ¡an4 ¡ ¡ " ¡increafe ¡fmall ¡difaffe<5ted ¡par3es ¡in ¡our ¡towns, ¡ ¡ " ¡upon ¡an ¡applica3on ¡to ¡theni.'' ¡And ¡in ¡the ¡5'7th ¡ ¡ page ¡he ¡reprefents ¡the ¡Society ¡as ¡hpping ¡that ¡thefe ¡ ¡ miali ¡par3es ¡will ¡by ¡their ¡influence ¡gradually ¡bring ¡ ¡

  • n ¡a ¡general ¡fubmiffion ¡to ¡an ¡epifcopal ¡fovereign ¡; ¡and ¡ ¡

affirms ¡that ¡this ¡has ¡long ¡been ¡the ¡formal ¡deGgi^ ¡ ¡

  • f ¡the ¡Society, ¡and ¡is ¡the ¡true ¡plan ¡and ¡grand ¡ ¡

mydery ¡of ¡their ¡opera3ons ¡in ¡New-­‑England." ¡ ¡ In ¡his ¡1 ¡06th ¡page ¡he ¡tells ¡us ¡that ¡the ¡" ¡affair ¡of ¡ ¡ Bi{ops ¡in ¡America, ¡has ¡been ¡a ¡favourite ¡obje^ ¡ ¡ with ¡the ¡Society," ¡and ¡in ¡the ¡next ¡page, ¡that ¡ ¡ the ¡Society ¡fpare ¡neither ¡endeavours, ¡applica3ons, ¡ ¡ nor ¡expence, ¡in ¡order ¡to ¡effe6l ¡their ¡grand ¡defign ¡ ¡ " ¡of ¡epifcopizing ¡all ¡New-­‑England," ¡and ¡a ¡few ¡FinesJ ¡ ¡ further, ¡" ¡The ¡Society ¡have ¡long ¡had ¡2, ¡formal ¡dedgn ¡ ¡ " ¡to ¡diffolve ¡and ¡root ¡out ¡all ¡our ¡New-­‑England ¡ ¡ " ¡churches. ¡— ¡^l^his ¡(he ¡fays) ¡fully ¡and ¡clearly ¡ac-­‑* ¡ ¡ " ¡counts ¡for ¡their ¡being ¡fo ¡ready ¡to ¡encourage ¡fmall ¡ ¡ *' ¡epifcopal ¡par3es ¡all ¡over ¡New-­‑England, ¡by ¡fend-­‑ ¡ ¡ '* ¡ing ¡them ¡miflionarics." ¡ ¡

The ¡Internet ¡Archive’s ¡text ¡of ¡ ¡ Henry ¡Caner, ¡A ¡candid ¡ examina/on ¡of ¡Dr. ¡Mayhew's ¡ Observa/ons ¡on ¡the ¡charter ¡and ¡ conduct ¡of ¡the ¡Society ¡for ¡the ¡ Propaga/on ¡of ¡the ¡Gospel ¡in ¡ Foreign ¡Parts ¡, ¡1763 ¡

Old-­‑book ¡OCR ¡ is ¡usually ¡bad ¡OCR… ¡

slide-18
SLIDE 18

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 18 ¡

Thomas ¡Jefferson, ¡Notes ¡on ¡the ¡State ¡of ¡Virginia ¡

Hathi ¡Trust: ¡ ¡ ¡ ¡ ¡ ¡9 ¡versions, ¡published ¡1801, ¡1802, ¡1803, ¡1829, ¡1832 ¡(2), ¡1853 ¡(3), ¡1894. ¡ ¡ Wri>en ¡in ¡1781, ¡updated ¡and ¡enlarged ¡in ¡1782 ¡and ¡1783; ¡ ¡ ¡ ¡printed ¡anonymously ¡in ¡Paris ¡in ¡1785; ¡ ¡ ¡ ¡first ¡public ¡edi3on ¡in ¡1787 ¡in ¡London. ¡ Images ¡of ¡the ¡original ¡mss. ¡online ¡at ¡the ¡Massachuse>s ¡Historical ¡Society. ¡ Careful ¡e-­‑text ¡version ¡of ¡1787 ¡edi3on ¡at ¡UVa ¡Electronic ¡Text ¡Center ¡ Internet ¡Archive: ¡ ¡ ¡ ¡ ¡12 ¡versions, ¡published ¡1787, ¡1801 ¡(3), ¡1802, ¡1803, ¡1829, ¡1832 ¡(2), ¡1853, ¡1955 ¡(2) ¡

Choice ¡of ¡edi3ons ¡and ¡sources: ¡

slide-19
SLIDE 19

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 19 ¡

Q^ ¡U ¡E ¡R ¡Y ¡I. ¡ ¡ AN ¡exafl ¡defcriptlon ¡of ¡the ¡limits ¡andLimks, ¡ ¡ boundaries ¡of ¡the ¡date ¡of ¡Virginia ¡? ¡ ¡ Virginia ¡is ¡bounded ¡on ¡the ¡Ead ¡by ¡the ¡ ¡ Atlan3c: ¡,on ¡the ¡North ¡by ¡a ¡line ¡of ¡la3tude, ¡ ¡ eroding ¡the ¡Eadern ¡Shore ¡through ¡Watkins's ¡ ¡ Point, ¡being ¡about ¡37°. ¡57'. ¡North ¡la3tude ¡j ¡ ¡ from ¡thence ¡by ¡a ¡dreight ¡line ¡to ¡Cinquac, ¡ ¡ near ¡the ¡mouth ¡of ¡Patowmaci ¡thence ¡by ¡the ¡ ¡ Patowmac, ¡which ¡is ¡common ¡to ¡Virginia ¡and ¡ ¡ Maryland, ¡to ¡the ¡fird ¡fountain ¡of ¡its ¡northern ¡ ¡ branch ¡; ¡thence ¡by ¡a ¡meridian ¡line, ¡pafTing ¡ ¡ through ¡that ¡fountain ¡3ll ¡it ¡interfed^s ¡a ¡line ¡ ¡ running ¡Ead ¡and ¡Wefl:, ¡in ¡la3tude ¡29 ¡. ¡43^ ¡ ¡ 42.4'' ¡which ¡divides ¡Maryland ¡from ¡Penn-­‑ ¡ ¡ fylvania, ¡and ¡which ¡v/as ¡marked ¡by ¡MefTrs, ¡ ¡ Mafon ¡and ¡Dixon; ¡thence ¡by ¡that ¡line, ¡and ¡ ¡ a ¡con3nua3on ¡of ¡it ¡wedwardly ¡to ¡the ¡com-­‑ ¡ ¡ ple3on ¡of ¡five ¡degrees ¡of ¡longitude ¡from ¡the ¡ ¡ eadern ¡boundary ¡of ¡Pennfylvania, ¡in ¡the ¡fame ¡ ¡ la3tude, ¡and ¡thence ¡by ¡a ¡meridian ¡line ¡to ¡ ¡ the ¡Ohio ¡: ¡On ¡the ¡Wed: ¡by ¡the ¡Ohio ¡and ¡ ¡ Miflifipi, ¡to ¡la3tude ¡2,^". ¡30^. ¡North ¡: ¡and ¡ ¡

  • n ¡the ¡South ¡by ¡the ¡line ¡of ¡la3tude ¡lad-­‑ ¡ ¡

B ¡men-­‑ ¡ ¡ "Boundaries ¡of ¡Virginia" ¡ An ¡exact ¡descrip3on ¡of ¡the ¡limits ¡and ¡boundaries ¡of ¡the ¡state ¡

  • f ¡Virginia. ¡ ¡

Limits ¡ ¡ ¡ ¡Virginia ¡is ¡bounded ¡on ¡the ¡East ¡by ¡the ¡Atlan3c: ¡on ¡the ¡North ¡ by ¡a ¡line ¡of ¡la3tude, ¡crossing ¡the ¡Eastern ¡Shore ¡through ¡ Watkins's ¡Point, ¡being ¡about ¡37o.57' ¡North ¡la3tude; ¡from ¡ thence ¡by ¡a ¡streight ¡line ¡to ¡Cinquac, ¡near ¡the ¡mouth ¡of ¡ Patowmac; ¡thence ¡by ¡the ¡Patowmac, ¡which ¡is ¡common ¡to ¡ Virginia ¡and ¡Maryland, ¡to ¡the ¡first ¡fountain ¡of ¡its ¡northern ¡ branch; ¡thence ¡by ¡a ¡meridian ¡line, ¡passing ¡through ¡that ¡ fountain ¡3ll ¡it ¡intersects ¡a ¡line ¡running ¡East ¡and ¡West, ¡in ¡ la3tude ¡39o.43'.42.4" ¡which ¡divides ¡Maryland ¡from ¡ Pennsylvania, ¡and ¡which ¡was ¡marked ¡by ¡Messrs. ¡Mason ¡and ¡ Dixon; ¡thence ¡by ¡that ¡line, ¡and ¡a ¡con3nua3on ¡of ¡it ¡westwardly ¡ to ¡the ¡comple3on ¡of ¡five ¡degrees ¡of ¡longitude ¡from ¡the ¡ eastern ¡boundary ¡of ¡Pennsylvania, ¡in ¡the ¡same ¡la3tude, ¡and ¡ thence ¡by ¡a ¡meridian ¡line ¡to ¡the ¡Ohio: ¡On ¡the ¡West ¡by ¡the ¡ Ohio ¡and ¡Missisipi, ¡to ¡la3tude ¡36o.30'. ¡North: ¡and ¡on ¡the ¡ South ¡by ¡the ¡line ¡of ¡la3tude ¡last-­‑men3oned. ¡

Hathi ¡/ ¡IA ¡OCR: ¡ UVa ¡Electronic ¡Text ¡Center ¡version: ¡

slide-20
SLIDE 20

What ¡we ¡need ¡

Organized ¡effort ¡to ¡ ¡

– Select ¡

  • texts ¡
  • sources ¡

– Correct ¡

  • metadata ¡
  • texts ¡

– Annotate ¡

  • text ¡structure ¡
  • linguis3c ¡structure ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 20 ¡

slide-21
SLIDE 21

Luckily, ¡

  • Lots ¡of ¡texts ¡in ¡decent ¡shape ¡already ¡exist ¡

¡(EEBO, ¡ECCO, ¡various ¡smaller ¡collec3ons) ¡

  • Although ¡OCR ¡for ¡older ¡books ¡sucks, ¡ ¡

It ¡can ¡be ¡improved ¡by ¡be>er ¡font ¡training ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡be>er ¡language ¡models! ¡

  • Tagging, ¡parsing ¡etc. ¡are ¡good ¡and ¡improving, ¡

¡ ¡and ¡there ¡are ¡ideas ¡for ¡making ¡them ¡MUCH ¡be>er! ¡

  • Crowdsourcing ¡oden ¡works ¡
  • There ¡are ¡other ¡applica3ons ¡and ¡customers ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡for ¡the ¡improvements ¡we ¡need ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 21 ¡

slide-22
SLIDE 22

OCR ¡improvements ¡

. ¡. ¡. ¡if ¡you’re ¡interested ¡in ¡this ¡ ¡ and ¡you ¡know ¡something ¡ ¡ ¡ ¡ ¡ ¡about ¡language ¡modeling ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡machine ¡learning ¡– ¡ ¡ ¡ ¡ ¡ ¡ ¡-­‑-­‑ ¡or ¡you ¡know ¡someone ¡with ¡skills ¡and ¡interest ¡-­‑-­‑ ¡ ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 22 ¡

It’s ¡easy ¡to ¡make ¡BIG ¡improvements ¡in ¡OCR ¡for ¡older ¡texts, ¡ ¡ ¡ ¡ ¡ ¡ ¡using ¡adap3ve ¡language ¡modeling ¡techniques ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡from ¡ASR ¡and ¡similar ¡areas. ¡

Please ¡contact ¡me! ¡

slide-23
SLIDE 23

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 23 ¡

TypeWright ¡– ¡web ¡app ¡for ¡crowdsourcing ¡OCR ¡correc3on, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡at ¡h>p://18thconnect.org ¡

Because ¡OCR ¡will ¡never ¡be ¡perfect… ¡

slide-24
SLIDE 24

Current ¡parsers ¡are ¡pre>y ¡good ¡at ¡short ¡sentences ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 24 ¡

( ¡(S ¡(NP ¡(PRP ¡I)) ¡(VP ¡(VBD ¡knew) ¡(SBAR ¡(S ¡(NP ¡(NP ¡(DT ¡a) ¡(JJ ¡single) ¡(NN ¡instance)) ¡(PP ¡ (IN ¡of) ¡(NP ¡(NN ¡gold)))) ¡(VP ¡(VBD ¡found) ¡(PP ¡(IN ¡in) ¡(NP ¡(DT ¡this) ¡(NN ¡state))))))) ¡(. ¡.)) ¡) ¡ Thomas ¡Jefferson, ¡Notes ¡on ¡the ¡State ¡of ¡Virginia: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡I ¡knew ¡a ¡single ¡instance ¡of ¡gold ¡found ¡in ¡this ¡state ¡. ¡

slide-25
SLIDE 25

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 25 ¡

((S (NP (PRP It)) (VP (VBD was) (VP (VBN interspersed) (PP (IN in) (NP (JJ small) (NNS specks))) (PP (IN through) (NP (NP (NP (DT a) (NN lump)) (PP (IN of) (NP (NN ore))) (, ,) (PP (IN of) (NP (NP (QP (RB about) (CD four)) (NNS pounds) (NN weight)) (, ,) (SBAR (WHNP (WDT which)) (S (VP (VBD yielded) (NP (NP (JJ seventeen) (NN pennyweight)) (PP (IN of) (NP (NN gold))))))) (, ,)))) (PP (IN of) (NP (JJ extraordinary) (NN ductility))))))) (. .))

It ¡was ¡interspersed ¡in ¡small ¡specks ¡ through ¡a ¡lump ¡of ¡ore ¡, ¡of ¡about ¡four ¡ pounds ¡weight ¡, ¡which ¡yielded ¡seventeen ¡ pennyweight ¡of ¡gold ¡, ¡of ¡extraordinary ¡ duc3lity ¡. ¡

Longer ¡sentences ¡are ¡more ¡likely ¡to ¡go ¡wrong… ¡

slide-26
SLIDE 26

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 26 ¡

The ¡metal ¡is ¡mixed, ¡some3mes ¡with ¡earth, ¡and ¡some3mes ¡with ¡rock ¡, ¡which ¡requires ¡the ¡ force ¡of ¡gunpowder ¡to ¡open ¡it; ¡and ¡is ¡accompanied ¡with ¡a ¡por3on ¡of ¡silver, ¡too ¡small ¡to ¡be ¡ worth ¡separa3on ¡under ¡any ¡process ¡hitherto ¡a>empted ¡there ¡. ¡

slide-27
SLIDE 27

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 27 ¡

So ¡what ¡can ¡we ¡do ¡NOW? ¡

slide-28
SLIDE 28

Claim ¡#1: ¡

  • Taggers ¡and ¡parsers ¡are ¡already ¡good ¡enough ¡

¡ ¡ ¡to ¡support ¡sampling ¡methods ¡of ¡analysis: ¡

– In ¡this ¡approach, ¡ ¡ a ¡search ¡yields ¡a ¡random ¡unbiased ¡(?) ¡sample ¡ ¡ ¡ ¡ ¡of ¡relevant ¡examples, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡mostly ¡classified ¡correctly, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡mixed ¡with ¡a ¡not-­‑excessive ¡amount ¡of ¡junk ¡ ¡ ¡ ¡ – Researchers ¡can ¡efficiently ¡check ¡the ¡output, ¡ ¡ ¡ ¡correc3ng ¡the ¡classifica3on, ¡ ¡ ¡ ¡ ¡and ¡rejected ¡the ¡junk ¡

  • As ¡taggers ¡and ¡parsers ¡improve, ¡this ¡gets ¡easier ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 28 ¡

slide-29
SLIDE 29

Claim ¡#2: ¡

  • Given ¡a ¡few ¡cogni3vely-­‑easy ¡human ¡judgments ¡per ¡sentence, ¡ ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡parser ¡output ¡can ¡be ¡as ¡good ¡as ¡human ¡treebanking ¡

  • These ¡judgments ¡might ¡be ¡pre-­‑annota3on ¡

– e.g. ¡marking ¡scope ¡of ¡conjunc3on, ¡clause ¡boundaries, ¡etc. ¡

¡ ¡ ¡ ¡ ¡or ¡post-­‑annota3on ¡

– e.g. ¡checking ¡and ¡correc3ng ¡things ¡the ¡parser ¡is ¡“unsure” ¡about ¡

  • Literate ¡na3ve ¡speakers ¡can ¡learn ¡in ¡a ¡few ¡hours ¡

¡ ¡ ¡ ¡ ¡ ¡to ¡make ¡these ¡judgments ¡at ¡a ¡rate ¡of ¡>1,000 ¡words/hour ¡

  • At ¡this ¡rate, ¡we ¡could ¡create ¡a ¡>100-­‑million-­‑word ¡Treebank ¡

¡ ¡ ¡ ¡ ¡for ¡the ¡cost ¡of ¡the ¡original ¡1-­‑million-­‑word ¡Penn ¡Treebank ¡

  • Selected ¡material ¡relevant ¡to ¡some ¡research ¡topic ¡

¡ ¡ ¡could ¡easily ¡and ¡efficiently ¡be ¡parsed ¡or ¡otherwise ¡analyzed ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 29 ¡

slide-30
SLIDE 30

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 30 ¡

. ¡. ¡. ¡And ¡now ¡for ¡something ¡completely ¡different ¡. ¡. ¡. ¡ ¡

slide-31
SLIDE 31

(Meta-­‑)Claim ¡

It’s ¡our ¡fault ¡that ¡grammar ¡is ¡no ¡longer ¡taught ¡in ¡ American ¡grammar ¡schools, ¡because: ¡

– Religious ¡wars ¡among ¡linguists ¡ ¡ ¡leave ¡educators ¡confused ¡and ¡depressed. ¡ – Each ¡gramma3cal ¡sect ¡changes ¡its ¡theology ¡ ¡ ¡ ¡in ¡fundamental ¡ways ¡every ¡decade ¡or ¡so. ¡ – So ¡by ¡the ¡3me ¡a ¡textbook ¡is ¡published ¡and ¡sold, ¡ ¡ ¡ ¡its ¡analyses ¡will ¡no ¡longer ¡be ¡supported ¡ ¡ ¡ ¡ ¡ ¡ ¡even ¡by ¡its ¡authors… ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 31 ¡

slide-32
SLIDE 32

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BUT ¡. ¡. ¡. ¡

There’s ¡one ¡framework ¡of ¡syntac3c ¡analysis ¡that ¡

– has ¡been ¡essen3ally ¡stable ¡for ¡25 ¡years ¡ – has ¡been ¡used ¡for ¡5 ¡or ¡6 ¡ ¡very ¡different ¡languages ¡ – is ¡documented ¡in ¡excrucia3ng ¡detail ¡in ¡many ¡manuals ¡ – is ¡used ¡by ¡many ¡parsers, ¡both ¡proprietary ¡and ¡open-­‑source ¡ – is ¡used ¡in ¡many ¡parsed ¡corpora, ¡ ¡ ¡ ¡ ¡ ¡suppor3ng ¡researchfrom ¡a ¡variety ¡of ¡perspec3ves ¡

… ¡namely ¡the ¡Penn ¡Treebank ¡framework. ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 32 ¡

slide-33
SLIDE 33

Conclusion ¡

  • PTB ¡treebanking ¡could ¡be ¡taught ¡(in ¡some ¡form) ¡

¡ ¡to ¡students ¡in ¡from ¡grammar ¡school ¡to ¡college ¡

– without ¡offending ¡too ¡many ¡linguists ¡ – without ¡having ¡to ¡re-­‑train ¡the ¡teachers ¡every ¡ten ¡years ¡

  • This ¡would ¡be ¡good ¡for ¡the ¡students ¡and ¡for ¡the ¡field ¡
  • And ¡it ¡would ¡result ¡in ¡a ¡VERY ¡big ¡crowd ¡to ¡source ¡from… ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 33 ¡

slide-34
SLIDE 34

A ¡modest ¡proposal ¡

Diachronic ¡Syntax ¡Workshop ¡6/30/2013 ¡ 34 ¡

500-­‑1000 ¡documents ¡per ¡year ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡from ¡1500 ¡to ¡1922 ¡ ¡ ¡ ¡ ¡ ¡ ¡= ¡about ¡half ¡a ¡million ¡documents ¡ ¡ ¡ ¡ ¡ ¡ ¡< ¡5% ¡of ¡the ¡Hathi ¡Trust ¡holdings ¡ with ¡good ¡meta-­‑data ¡and ¡accurate ¡OCR ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡automa3c ¡tagging ¡and ¡parsing ¡ Plus ¡searching ¡and ¡checking ¡sodware ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡for ¡sample-­‑based ¡research, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡with ¡fixes ¡folded ¡back ¡into ¡the ¡dataset ¡