Taking Coreference Resolu2on beyond the 60% Performance - - PowerPoint PPT Presentation

taking coreference resolu2on
SMART_READER_LITE
LIVE PREVIEW

Taking Coreference Resolu2on beyond the 60% Performance - - PowerPoint PPT Presentation

Taking Coreference Resolu2on beyond the 60% Performance Barrier Marta Recasens Google Research (Joint work with Ma5hew Can, Marie-Catherine de Marneffe,


slide-1
SLIDE 1

Taking ¡Coreference ¡Resolu2on ¡ ¡ beyond ¡the ¡60% ¡Performance ¡Barrier ¡

Marta ¡Recasens ¡ Google ¡Research ¡

(Joint ¡work ¡with ¡Ma5hew ¡Can, ¡Marie-­‑Catherine ¡de ¡Marneffe, ¡ ¡ Chris ¡Po5s, ¡Dan ¡Jurafsky, ¡Eduard ¡Hovy, ¡and ¡M. ¡Antònia ¡MarF) ¡ April ¡26, ¡2013 ¡ ¡·√ ¡ ¡Carnegie ¡Mellon ¡University ¡

slide-2
SLIDE 2

Why ¡coreference ¡resoluIon ¡? ¡

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

2 ¡

slide-3
SLIDE 3

Why ¡coreference ¡resoluIon ¡? ¡

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

3 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡
slide-4
SLIDE 4

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

4 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-5
SLIDE 5

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

5 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-6
SLIDE 6

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

6 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-7
SLIDE 7

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

7 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-8
SLIDE 8

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

8 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡  to ¡generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-9
SLIDE 9

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

9 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡  to ¡generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡

  • nline ¡display ¡adver2sements ¡

 more ¡sold ¡by ¡Google ¡than ¡Facebook ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-10
SLIDE 10

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

10 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡  to ¡generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡

  • nline ¡display ¡adver2sements ¡

 more ¡sold ¡by ¡Google ¡than ¡Facebook ¡  triple ¡crown ¡hold ¡by ¡Google ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-11
SLIDE 11

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

11 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡  to ¡generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡

  • nline ¡display ¡adver2sements ¡

 more ¡sold ¡by ¡Google ¡than ¡Facebook ¡  triple ¡crown ¡hold ¡by ¡Google ¡  less ¡revenue ¡for ¡Facebook ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-12
SLIDE 12

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

12 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡  to ¡generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡

  • nline ¡display ¡adver2sements ¡

 more ¡sold ¡by ¡Google ¡than ¡Facebook ¡  triple ¡crown ¡hold ¡by ¡Google ¡  less ¡revenue ¡for ¡Facebook ¡  generate ¡$2.16 ¡billion ¡for ¡Facebook ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-13
SLIDE 13

Google ¡Inc. ¡is ¡expected ¡to ¡surpass ¡ rival ¡Facebook ¡Inc. ¡in ¡selling ¡online ¡ “display” ¡adverIsements ¡in ¡the ¡U.S. ¡ this ¡year ¡[...] ¡The ¡result ¡would ¡mark ¡a ¡ milestone ¡for ¡the ¡Web-­‑search ¡giant, ¡ with ¡Google ¡for ¡the ¡first ¡Ime ¡holding ¡ the ¡triple ¡crown ¡of ¡online ¡adverIsing ¡ by ¡taking ¡the ¡top ¡spot ¡[...] ¡ ¡ eMarketer ¡lowered ¡its ¡esImates ¡for ¡ Facebook’s ¡online ¡display ¡ad ¡revenue. ¡ The ¡social ¡network ¡is ¡expected ¡to ¡ generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡[...] ¡

13 ¡

 to ¡surpass ¡rival ¡Facebook ¡Inc. ¡in ¡U.S. ¡

  • nline ¡display ¡adverIsements ¡

 hit ¡milestone ¡with ¡this ¡result ¡  for ¡the ¡first ¡Ime ¡holding ¡the ¡triple ¡ crown ¡of ¡online ¡adverIsing ¡ ¡  surpassed ¡by ¡Google ¡  eMarketer’s ¡esImates ¡lowered ¡  to ¡generate ¡$2.16 ¡billion ¡in ¡net ¡display ¡ revenue ¡this ¡year ¡

  • nline ¡display ¡adver2sements ¡

 more ¡sold ¡by ¡Google ¡than ¡Facebook ¡  triple ¡crown ¡hold ¡by ¡Google ¡  less ¡revenue ¡for ¡Facebook ¡  generate ¡$2.16 ¡billion ¡for ¡Facebook ¡

Why ¡coreference ¡resoluIon ¡? ¡

EnIIes ¡ MenIons ¡

slide-14
SLIDE 14

14 ¡

Why ¡coreference ¡resoluIon ¡? ¡

slide-15
SLIDE 15

 Up ¡to ¡60% ¡

1 State ¡of ¡the ¡art ¡ 2 Hurdles ¡

 Beyond ¡the ¡60% ¡

3 Unsupervised ¡Mining ¡of ¡Coreference ¡Pairs ¡ ¡ 4 Discarding ¡Singleton ¡EnIIes ¡

Outline ¡

15 ¡

slide-16
SLIDE 16

 Up ¡to ¡60% ¡

1 State ¡of ¡the ¡art ¡ 2 Hurdles ¡

 Beyond ¡the ¡60% ¡

3 Unsupervised ¡Mining ¡of ¡Coreference ¡Pairs ¡ ¡ 4 Discarding ¡Singleton ¡EnIIes ¡

Outline ¡

16 ¡

slide-17
SLIDE 17

IntroducIon ¡

17 ¡

Barack ¡Obama ¡ the ¡U.S. ¡president ¡ he ¡ Barack ¡Obama ¡ Obama ¡ their ¡date ¡ the ¡dinner ¡ the ¡date ¡ your ¡iPhone ¡5 ¡ your ¡smartphone ¡ it ¡ Washington ¡ it ¡

slide-18
SLIDE 18

IntroducIon ¡

18 ¡

? ¡(Obama, ¡he) ¡ ? ¡(phone, ¡it) ¡ ? ¡(Obama, ¡it) ¡ ... ¡ A ¡ C ¡ B ¡

PredicIon ¡

TokenizaIon ¡ Parsing ¡ NER ¡ ... ¡

slide-19
SLIDE 19

IntroducIon ¡

19 ¡

+ ¡(Obama, ¡he) ¡ – ¡(Obama, ¡iPhone) ¡ + ¡(he, ¡he) ¡ – ¡(iPhone, ¡he) ¡ – ¡(Obama, ¡it) ¡ – ¡(his, ¡iPhone) ¡ + ¡(iPhone, ¡it) ¡ ... ¡ + ¡(NNP,PRO,masc,...) ¡ – ¡(NNP,NNP,masc,...) ¡ + ¡(PRO,PRO,masc,...) ¡ – ¡(NNP,PRO,na,...) ¡ – ¡(NNP,PRO,masc,...) ¡ – ¡(PRO,NNP,masc,...) ¡ ... ¡

Training ¡

Obama ¡called ¡from ¡his ¡iPhone ¡and ¡then ¡he ¡lel, ¡but ¡he ¡forgot ¡it. ¡

slide-20
SLIDE 20
  • Surface ¡features ¡

– String/head ¡match ¡ – Sentence/token ¡distance ¡

  • Morphological ¡features ¡

– MenIon ¡is ¡a ¡pronoun/definite/demonstraIve/proper ¡noun ¡

  • SyntacIc ¡features ¡

– Gender/number ¡agreement ¡ – GrammaIcal ¡role ¡

  • SemanIc ¡features ¡

– NE ¡type ¡ – WordNet ¡ – Wikipedia ¡ – Others: ¡Yago, ¡lexico-­‑semanIc ¡pa5erns, ¡etc. ¡

20 ¡

Features ¡

(Soon ¡et ¡al. ¡2001, ¡Ng ¡& ¡Cardie ¡2002) ¡

slide-21
SLIDE 21

Stanford ¡coreference ¡system ¡

(Lee ¡et ¡al. ¡2011) ¡

21 ¡

slide-22
SLIDE 22

Stanford ¡coreference ¡system ¡

(Lee ¡et ¡al. ¡2011) ¡

John ¡is ¡a ¡musician. ¡He ¡played ¡a ¡new ¡song. ¡A ¡girl ¡was ¡listening ¡ to ¡the ¡song. ¡“It ¡is ¡my ¡favorite,” ¡John ¡said ¡to ¡her. ¡ Sieve ¡2: ¡ ¡ String ¡match ¡ John ¡is ¡a ¡musician. ¡He ¡played ¡a ¡new ¡song. ¡A ¡girl ¡was ¡listening ¡ to ¡the ¡song. ¡“It ¡is ¡my ¡favorite,” ¡John ¡said ¡to ¡her. ¡ Sieve ¡4: ¡ ¡ Precise ¡constructs ¡ John ¡is ¡a ¡musician. ¡He ¡played ¡a ¡new ¡song. ¡A ¡girl ¡was ¡listening ¡ to ¡the ¡song. ¡“It ¡is ¡my ¡favorite,” ¡John ¡said ¡to ¡her. ¡ Sieve ¡9: ¡Relaxed ¡ head ¡match ¡ John ¡is ¡a ¡musician. ¡He ¡played ¡a ¡new ¡song. ¡A ¡girl ¡was ¡listening ¡ to ¡the ¡song. ¡“It ¡is ¡my ¡favorite,” ¡John ¡said ¡to ¡her. ¡ Sieve ¡10: ¡ ¡ Pronoun ¡match ¡ John ¡is ¡a ¡musician. ¡He ¡played ¡a ¡new ¡song. ¡A ¡girl ¡was ¡listening ¡ to ¡the ¡song. ¡“It ¡is ¡my ¡favorite,” ¡John ¡said ¡to ¡her. ¡

22 ¡

slide-23
SLIDE 23

State ¡of ¡the ¡art ¡

23 ¡

System ¡ CoNLL ¡score ¡

lee ¡(Stanford) ¡ 57.79 ¡ sapena ¡ 55.99 ¡ chang ¡ 55.96 ¡ nugues ¡ 54.53 ¡ santos ¡ 53.41 ¡ song ¡ 53.05 ¡ stoyanov ¡ 51.92 ¡ sobha ¡ 51.90 ¡ kobdani ¡ 51.04 ¡ zhou ¡ 50.92 ¡ charton ¡ 50.36 ¡ yang ¡ 49.99 ¡ hao ¡ 49.38 ¡ xinxin ¡ 48.46 ¡ zhang ¡ 48.07 ¡ kummerfeld ¡ 47.10 ¡ zhekova ¡ 40.43 ¡ irwin ¡ 31.88 ¡

CoNLL-­‑2011 ¡shared ¡task ¡

slide-24
SLIDE 24

24 ¡

System ¡ English ¡ Chinese ¡ Arabic ¡ CoNLL ¡ score ¡

fernandes ¡ 63.37 ¡ 58.49 ¡ 54.22 ¡ 58.69 ¡ björkelund ¡ 61.24 ¡ 59.97 ¡ 53.55 ¡ 58.25 ¡ chen ¡ 59.69 ¡ 62.24 ¡ 47.13 ¡ 56.35 ¡ stamborg ¡ 59.36 ¡ 56.85 ¡ 49.43 ¡ 55.21 ¡ uryupina ¡ 56.12 ¡ 53.87 ¡ 50.41 ¡ 53.47 ¡ zhekova ¡ 48.70 ¡ 44.53 ¡ 40.57 ¡ 44.60 ¡ li ¡ 45.85 ¡ 46.27 ¡ 33.53 ¡ 41.88 ¡ yuan ¡ 58.68 ¡ 60.69 ¡ 39.79 ¡ xu ¡ 57.49 ¡ 59.22 ¡ 38.90 ¡ martschat ¡ 61.31 ¡ 53.15 ¡ 38.15 ¡ chunyang ¡ 59.24 ¡ 51.83 ¡ 37.02 ¡ yang ¡ 55.29 ¡ 18.43 ¡ chang ¡ 60.18 ¡ 45.71 ¡ 35.30 ¡ xinxin ¡ 48.77 ¡ 51.76 ¡ 33.51 ¡ shou ¡ 58.25 ¡ 19.42 ¡

State ¡of ¡the ¡art ¡

CoNLL-­‑2012 ¡shared ¡task ¡

slide-25
SLIDE 25

System ¡ CoNLL ¡score ¡ CoNLL-­‑2011 ¡best ¡architecture ¡ 58.7 ¡ String/Head ¡match ¡+ ¡Pronouns ¡ 57.5 ¡ String/Head ¡match ¡ 43.3 ¡

Stanford ¡coreference ¡resoluIon ¡system ¡(Lee ¡et ¡al. ¡2011) ¡ CoNLL-­‑2012 ¡Shared ¡Task ¡(dev ¡set) ¡

25 ¡

State ¡of ¡the ¡art ¡

Head ¡match ¡baseline ¡

slide-26
SLIDE 26

Effort/Time ¡

26 ¡

Performance ¡

60% ¡

State ¡of ¡the ¡art ¡

slide-27
SLIDE 27

 Up ¡to ¡60% ¡

1 State ¡of ¡the ¡art ¡ 2 Hurdles ¡

 Beyond ¡the ¡60% ¡

3 Unsupervised ¡Mining ¡of ¡Coreference ¡Pairs ¡ ¡ 4 Discarding ¡Singleton ¡EnIIes ¡

Outline ¡

27 ¡

slide-28
SLIDE 28

DefiniIon ¡

28 ¡

EvaluaIon ¡ ResoluIon ¡ AnnotaIon ¡

the ¡old ¡Postville ¡ Postville ¡

slide-29
SLIDE 29

AnnotaIon ¡

29 ¡

MUC ¡ ACE ¡ OntoNotes ¡ Singletons ¡ ✔ ¡ NE ¡types ¡ ✔ ¡ Nominal ¡predicates ¡ ✔ ¡ ✔ ¡ ApposiIves ¡ ✔ ¡ ✔ ¡ Premodifiers ¡  ¡  ¡ ✜ ¡ Generics ¡  ¡  ¡ ✜ ¡ Verbal ¡menIons ¡ ✔ ¡ Metonymy ¡  ¡ ✜ ¡

slide-30
SLIDE 30

DefiniIon ¡

30 ¡

IdenIty ¡of ¡reference? ¡ Near-­‑idenIty ¡(Recasens, ¡Hovy ¡and ¡MarF ¡2011) ¡ On ¡homecoming ¡night ¡Postville ¡feels ¡like ¡Hometown, ¡but ¡a ¡ look ¡around ¡this ¡town ¡of ¡2,000 ¡shows ¡it’s ¡become ¡a ¡ miniature ¡Ellis ¡Island. ¡This ¡was ¡an ¡all-­‑white, ¡all-­‑ChrisGan ¡ community... ¡For ¡those ¡who ¡prefer ¡the ¡old ¡Postville... ¡

the ¡old ¡Postville ¡ Postville ¡

slide-31
SLIDE 31

DefiniIon ¡

31 ¡

Video ¡from ¡a ¡nearby ¡restaurant ¡shows ¡the ¡bomber ¡ remaining ¡in ¡place, ¡checking ¡his ¡cellphone ¡[...] ¡He ¡walks ¡ away ¡without ¡his ¡knapsack ¡[...] ¡In ¡the ¡court ¡papers, ¡Agent ¡ Genck ¡said ¡that ¡he ¡compared ¡driver’s ¡license ¡photos ¡of ¡ Dzhokhar ¡Tsarnaev ¡to ¡the ¡video ¡images, ¡and ¡that ¡he ¡ believed ¡“there ¡is ¡probable ¡cause ¡that ¡they ¡are ¡one ¡and ¡the ¡ same ¡person.” ¡[...] ¡The ¡suspect ¡forced ¡the ¡vicIm ¡to ¡drive ¡to ¡ another ¡locaIon ¡[...] ¡

the ¡old ¡Postville ¡ Postville ¡

slide-32
SLIDE 32

ResoluIon ¡

32 ¡

  • ML ¡vs. ¡Rules ¡

– Supervised ¡learning ¡(Soon ¡et ¡al. ¡2001, ¡Luo ¡et ¡al. ¡2004) ¡ – Rule-­‑based ¡(Haghighi ¡& ¡Klein ¡2009, ¡Lee ¡et ¡al. ¡2001) ¡ – Hybrid ¡(Fernandes ¡et ¡al. ¡2012) ¡ ¡

  • Model ¡

– MenIon-­‑pair ¡(Soon ¡et ¡al. ¡2001, ¡Bengtson ¡& ¡Roth ¡2008 ¡ – EnIty-­‑menIon ¡(Luo ¡et ¡al. ¡2004, ¡Culo5a ¡et ¡al. ¡2007) ¡ – Ranking ¡(Denis ¡& ¡Baldridge ¡2007, ¡Rahman ¡& ¡Ng ¡2009) ¡

  • Features ¡

– No ¡universal ¡rules ¡

Altaf ¡Rahman ¡and ¡Vincent ¡Ng. ¡2011. ¡Narrowing ¡the ¡ Modeling ¡Gap: ¡A ¡cluster-­‑ranking ¡approach ¡to ¡ coreference ¡resoluIon. ¡JAIR ¡40:469– ¡21 ¡

slide-33
SLIDE 33

ResoluIon ¡

33 ¡

slide-34
SLIDE 34

ResoluIon ¡

34 ¡

  • ML ¡vs. ¡Rules ¡

– Supervised ¡learning ¡(Soon ¡et ¡al. ¡2001, ¡Luo ¡et ¡al. ¡2004) ¡ – Rule-­‑based ¡(Haghighi ¡& ¡Klein ¡2009, ¡Lee ¡et ¡al. ¡2001) ¡ – Hybrid ¡(Fernandes ¡et ¡al. ¡2012) ¡ ¡

  • Model ¡

– MenIon-­‑pair ¡(Soon ¡et ¡al. ¡2001, ¡Bengtson ¡& ¡Roth ¡2008 ¡ – EnIty-­‑menIon ¡(Luo ¡et ¡al. ¡2004, ¡Culo5a ¡et ¡al. ¡2007) ¡ – Ranking ¡(Denis ¡& ¡Baldridge ¡2007, ¡Rahman ¡& ¡Ng ¡2009) ¡

  • Features ¡

– No ¡universal ¡rules ¡ – Head-­‑match ¡baseline ¡ – Trade-­‑off ¡between ¡P ¡and ¡R ¡

slide-35
SLIDE 35

EvaluaIon ¡

35 ¡

  • Links ¡

– MUC ¡(Vilain ¡et ¡al. ¡1995) ¡ – BLANC ¡(Recasens ¡& ¡Hovy ¡2011) ¡

  • MenIons ¡

– B-­‑CUBED ¡(Bagga ¡& ¡Baldwin ¡1998) ¡ – CEAF-­‑ϕ3 (Luo ¡2005) ¡

  • EnIIes ¡

– CEAF-­‑ϕ4 (Luo ¡2005) ¡

  • CombinaIon ¡

– CoNLL-­‑2011/2012 ¡/ ¡MELA ¡(Denis ¡& ¡Baldridge ¡2009) ¡ ¡(MUC ¡+ ¡B-­‑CUBED ¡+ ¡CEAF-­‑ϕ4) ¡/ ¡3 ¡

Different ¡corpora ¡(= ¡schemes) ¡ Gold ¡vs. ¡system ¡menIons ¡ Gold ¡vs. ¡automaIc ¡preprocessing ¡

slide-36
SLIDE 36

 Up ¡to ¡60% ¡

1 State ¡of ¡the ¡art ¡ 2 Hurdles ¡

 Beyond ¡the ¡60% ¡

3 Unsupervised ¡Mining ¡of ¡Coreference ¡Pairs ¡ ¡ 4 Discarding ¡Singleton ¡EnIIes ¡

Outline ¡

36 ¡

Marta ¡Recasens, ¡Ma5hew ¡Can, ¡and ¡Dan ¡Jurafsky. ¡ Same ¡Referent, ¡Different ¡Words: ¡Unsupervised ¡ Mining ¡of ¡Opaque ¡Coreferent ¡MenIons. ¡NAACL ¡2013 ¡

slide-37
SLIDE 37

The ¡flaw ¡was ¡first ¡reported ¡by ¡a ¡security ¡researcher ¡David ¡Emery, ¡ who ¡posted ¡his ¡findings ¡to ¡the ¡Cryptome ¡mailing ¡list. ¡[...] ¡The ¡bug ¡ has ¡not ¡been ¡corrected ¡by ¡any ¡subsequent ¡updates ¡. ¡ ¡ The ¡soTware ¡is ¡used ¡to ¡turn ¡2D ¡photos ¡into ¡3D ¡models; ¡in ¡reality, ¡ a ¡person ¡uploads ¡photos ¡taken ¡or ¡stored ¡on ¡an ¡iPad ¡to ¡the ¡ Autodesk ¡Cloud, ¡where ¡the ¡actual ¡conversion ¡happens. ¡[...] ¡The ¡ app ¡is ¡free, ¡but ¡requires ¡an ¡iPad ¡2 ¡or ¡be5er ¡running ¡iOS ¡5.x. ¡ ¡

37 ¡

The ¡unsolved ¡problem ¡of ¡coreference ¡resoluIon ¡

slide-38
SLIDE 38

Autodesk's ¡had ¡its ¡123D ¡Catch ¡iPad ¡applicaIon ¡in ¡the ¡works ¡for ¡ quite ¡some ¡Ime ¡now, ¡but ¡starIng ¡today, ¡you'll ¡finally ¡be ¡able ¡to ¡ use ¡that ¡Cuper2no ¡slate ¡to ¡turn ¡those ¡beauIful ¡snaps ¡into ¡three-­‑ dee ¡creaIons. ¡ ¡ Now ¡you ¡can ¡keep ¡up ¡with ¡all ¡of ¡the ¡people ¡you ¡follow ¡with ¡a ¡ “best-­‑of” ¡weekly ¡email ¡from ¡TwiUer. ¡[...] ¡ The ¡micro-­‑blogging ¡service ¡will ¡now ¡be ¡sending ¡out ¡weekly ¡email ¡ digests ¡that ¡will ¡feature ¡a ¡summary ¡of ¡your ¡Twi5er ¡stream. ¡ ¡

38 ¡

The ¡unsolved ¡problem ¡of ¡coreference ¡resoluIon ¡

slide-39
SLIDE 39
  • Surface ¡features ¡

– String/head ¡match ¡ – Sentence/token ¡distance ¡

  • Morphological ¡features ¡

– MenIon ¡is ¡a ¡pronoun/definite/demonstraIve/proper ¡noun ¡

  • SyntacIc ¡features ¡

– Gender/number ¡agreement ¡ – GrammaIcal ¡role ¡

  • SemanIc ¡features ¡

– NE ¡type ¡ – WordNet ¡ – Wikipedia ¡ – Others: ¡Yago, ¡lexico-­‑semanIc ¡pa5erns, ¡etc. ¡

39 ¡

Features ¡

(Soon ¡et ¡al. ¡2001, ¡Ng ¡& ¡Cardie ¡2002) ¡

slide-40
SLIDE 40

locaIon ¡

WordNet ¡

40 ¡

female ¡ person ¡ male ¡

  • rganizaIon ¡
  • bject ¡

date ¡ Ime ¡ money ¡ percent ¡

SemanIc ¡class ¡match ¡ (Soon ¡et ¡al. ¡01) ¡

chairman ¡ IBM ¡ ¡✗ ¡

  • Mr. ¡Lim ¡ ¡✓ ¡
slide-41
SLIDE 41

WordNet ¡

41 ¡

WordNet ¡paths ¡ (Harabagiu ¡et ¡al. ¡01, ¡Ng ¡& ¡Cardie ¡02, ¡Poesio ¡et ¡al. ¡04, ¡Ponze5o ¡& ¡Strube ¡06) ¡

IN-GLOSS SYNONYM

slide-42
SLIDE 42

WordNet ¡

42 ¡

WordNet ¡paths ¡ (Harabagiu ¡et ¡al. ¡01, ¡Ng ¡& ¡Cardie ¡02, ¡Poesio ¡et ¡al. ¡04, ¡Ponze5o ¡& ¡Strube ¡06) ¡

terrain ¡ piece ¡of ¡land ¡ site ¡

IS-A

RIS-A

engine ¡ car ¡

HAS-PART

window ¡ car ¡

HAS-PART

neck ¡ body ¡part ¡ lip ¡

IS-A

RIS-A

slide-43
SLIDE 43

scienGsts ¡ people ¡ voters ¡ people ¡ authoriGes ¡ government ¡ arm ¡ leg ¡ fire ¡ cause ¡ government ¡ chairman ¡ energy ¡sources ¡ gas ¡supplies ¡ company ¡ allies ¡

SemanIc ¡similarity ¡is ¡not ¡coreference ¡

43 ¡

related ¡by ¡ WordNet ¡ coreferent ¡

slide-44
SLIDE 44

DistribuIonal ¡similarity ¡

44 ¡

DistribuIonal ¡hypothesis ¡(Harris ¡1954): ¡words ¡that ¡occur ¡in ¡the ¡same ¡ contexts ¡tend ¡to ¡have ¡similar ¡meanings. ¡

aardvark computer data pinch result sugar … apricot 1 1 pineapple 1 1 digital 2 1 1 information 1 6 4

slide-45
SLIDE 45

Google ¡ Apple ¡ phone ¡ device ¡ Europe ¡ European ¡Union ¡ informaGon ¡ technology ¡ marriage ¡ divorce ¡

DistribuIonal ¡similarity ¡is ¡sIll ¡not ¡coreference ¡

45 ¡

distribuIonally ¡ similar ¡ coreferent ¡

slide-46
SLIDE 46

IntuiIon ¡of ¡our ¡soluIon: ¡ ¡

46 ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡MicrosoT ¡has ¡released ¡a ¡new ¡feature. ¡ ¡ ¡ ¡ The ¡search ¡giant ¡has ¡released ¡a ¡new ¡feature. ¡

slide-47
SLIDE 47

IntuiIon ¡of ¡our ¡soluIon: ¡ ¡ Restricted ¡distribuIonal ¡similarity ¡

47 ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Google has acquired the company. ¡ The search giant has acquired the company. ¡

AcquisiIon ¡of ¡ Nik ¡Solware ¡

slide-48
SLIDE 48

Sprint ¡blocks ¡out ¡vacaIon ¡days ¡for ¡a ¡major ¡ phone ¡announcement. ¡ According ¡to ¡SprintFeed, ¡the ¡carrier ¡is ¡blocking ¡out ¡ vacaIon ¡days ¡for ¡employees. ¡ Story: Sprint-blocks-out-employees-vacations

Restricted ¡distribuIonal ¡semanIcs ¡

48 ¡

block ¡out ¡ release ¡ launch ¡ prevent ¡ ... ¡

slide-49
SLIDE 49

Techmeme ¡(www.techmeme.com) ¡

Comparable ¡corpus ¡

49 ¡

slide-50
SLIDE 50

Comparable ¡corpus ¡

50 ¡

slide-51
SLIDE 51

2 years worth of Techmeme 160 million words 374,547 documents 24,612 stories

Comparable ¡corpus ¡

51 ¡

slide-52
SLIDE 52
  • Stanford ¡sentence ¡spli5er, ¡tagger, ¡NER ¡
  • MaltParser ¡(linear ¡Ime) ¡
  • Top ¡10 ¡z*idf ¡ranked ¡verbs ¡for ¡each ¡story ¡

– Phrasal ¡verbs ¡(give ¡up ¡vs. ¡give ¡away) ¡ – Excluding: ¡ ¡light ¡verbs ¡(do, ¡have, ¡give...) ¡ ¡report ¡verbs ¡(say, ¡tell...) ¡ ¡copular ¡verbs ¡(seem, ¡become...) ¡ ¡ – WordNet ¡synonyms ¡are ¡included ¡ ¡(release, ¡publish...) ¡

!! tf(v,!s) * idf(v,!S) = tf(v,!s) * log | S | |{s ∈ S :v ∈ s} |

ExtracIon ¡

52 ¡

slide-53
SLIDE 53
  • AssumpIon: ¡In ¡a ¡story, ¡the ¡same ¡verb ¡refers ¡to ¡the ¡same ¡event ¡
  • Subjects ¡and ¡objects ¡are ¡clustered, ¡repecIvely ¡

– Passive ¡construcIons ¡(X ¡compromised ¡Y ¡ ¡Y ¡has ¡been ¡compromised) ¡ – ErgaIve ¡verbs ¡ ¡(X ¡scaPered ¡Y ¡ ¡Y ¡scaPered) ¡ – NominalizaIons ¡from ¡NomBank ¡ ¡(acquire ¡ ¡Google’s ¡acquisi>on ¡of ¡Sparrow) ¡

  • Exclude ¡same-­‑head ¡NPs ¡and ¡pronouns ¡

Google ¡ the ¡Internet ¡giant ¡ the ¡search ¡giant ¡ the ¡company ¡ crawl ¡ their ¡missing ¡phones ¡ lost ¡or ¡stolen ¡smartphones ¡ your ¡device ¡ your ¡lost ¡iPhone ¡ locate ¡

ExtracIon ¡

53 ¡

slide-54
SLIDE 54

Coreference ¡rela2ons ¡

¡Android ¡phones ¡ ¡

¡ ¡products ¡

¡pictures

¡ ¡ ¡ ¡shots ¡

¡Mark ¡Zuckerberg ¡ ¡

¡ ¡the ¡hoodie-­‑wearing ¡Facebook ¡co-­‑founder ¡

Bad ¡rela2ons ¡ ① ¡Parsing ¡errors ¡ ¡[aPacks ¡against ¡Chrome]S ¡exploit ¡... ¡

¡[the ¡full ¡details ¡on ¡the]S ¡exploit ¡

② ¡Algorithm ¡violaIons ¡(one ¡verb ¡≠ ¡one ¡event) ¡

¡Remove ¡[spam ¡from ¡the ¡emails]O ¡... ¡

¡Remove ¡[the ¡test ¡accounts]O ¡

③ ¡Text ¡extracIon ¡errors ¡ ¡

¡</li> ¡<li ¡id="gadgets"> ¡<a ¡href=hPp://www.thetechherald.com/> ¡ ¡Networking ¡</a> ¡

54 ¡

ExtracIon ¡

slide-55
SLIDE 55

Filters ¡for: ¡

  • Parsing ¡errors ¡

– Non-­‑nominal ¡head ¡ ¡ ¡ ¡ ¡shopping ¡( ¡ah ¡

  • Algorithm ¡violaIons ¡

– NE ¡– ¡NE ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Yahoo, ¡Google ¡ – NegaIon ¡ ¡ ¡ ¡ ¡

¡ ¡ ¡[But ¡the ¡operators ¡aren’t ¡mandaGng] ¡plans ¡

– EnumeraIon ¡ ¡ ¡ ¡ ¡ ¡ ¡[1. ¡Remove] ¡spam ¡from ¡the ¡emails ¡ – Numbers ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡40,000 ¡per ¡year ¡ – Temporals ¡ ¡ ¡ ¡ ¡ ¡ ¡6:00 ¡PM ¡Pacific ¡Gme ¡

  • Text ¡extracIon ¡errors ¡

– MenIon ¡length ¡ ¡ ¡ ¡ ¡ ¡charges ¡that ¡Google ¡unfairly ¡ranks ¡compeGtors ¡in ¡

¡ ¡ ¡ ¡ ¡ ¡its ¡search ¡results, ¡penalizing ¡them ¡with ¡lower ¡rankings ¡

– Sentence ¡length ¡ – Ill-­‑formed ¡sentence ¡ ¡ ¡ ¡</li> ¡<li ¡id="gadgets”> ¡

Filtering ¡

55 ¡

slide-56
SLIDE 56

Bad relations

Filtering ¡

56 ¡

slide-57
SLIDE 57
  • Remove ¡ ¡

– determiners ¡

the ¡promoGon ¡ ¡>> ¡ ¡promoGon ¡

– relaIve, ¡-­‑ing, ¡-­‑ed ¡clauses ¡

the ¡device ¡available ¡online ¡from ¡Google ¡ ¡ ¡>> ¡ ¡device ¡

  • Keep ¡adjecIves ¡and ¡preposiIonal ¡modifiers ¡

¡ ¡ ¡online ¡piracy ¡ ¡ ¡ ¡ ¡distribuGon ¡of ¡pirated ¡material ¡

  • Generalize ¡NE ¡to ¡types ¡

¡ ¡ ¡ ¡ ¡Cook’s ¡departure ¡ ¡>> ¡ ¡PERSON’s ¡departure ¡

  • Lemmas ¡

¡ ¡ ¡ ¡ ¡ ¡data ¡ ¡>> ¡ ¡datum ¡ ¡ ¡ ¡

GeneralizaIon ¡

57 ¡

128,492 ¡coreferent ¡pairs ¡

slide-58
SLIDE 58
  • Frequency ¡counts ¡

¡ ¡ ¡(rule, ¡limitaIon) ¡

¡5 ¡ ¡ ¡(company, ¡HP) ¡ ¡35 ¡ ¡ ¡ ¡(phone, ¡experience) ¡ ¡1 ¡ ¡ ¡(company, ¡price) ¡ ¡12 ¡ ¡ ¡ ¡(FBI, ¡agent) ¡ ¡20 ¡

  • Normalized ¡PMI ¡(Bouma ¡2009) ¡[–1, ¡1] ¡

¡ ¡ ¡(rule, ¡limitaIon) ¡

¡ ¡ ¡0.417 ¡ ¡ ¡(company, ¡HP) ¡ ¡ ¡ ¡0.203 ¡ ¡ ¡ ¡(phone, ¡experience) ¡–0.152 ¡ ¡ ¡(company, ¡price) ¡ ¡–0.053 ¡ ¡ ¡ ¡(FBI, ¡agent) ¡ ¡ ¡ ¡0.566 ¡

GeneralizaIon ¡

58 ¡

slide-59
SLIDE 59
  • ffering, ¡IPO ¡

¡password, ¡login ¡informaIon ¡ user, ¡consumer ¡ firm, ¡company ¡ ¡phone, ¡device ¡ ¡Apple, ¡company ¡ ¡iPad, ¡slate ¡ Android, ¡plazorm ¡ site, ¡company ¡ app, ¡solware ¡ agreement, ¡wording ¡ plazorm, ¡code ¡ filing, ¡complaint ¡ search, ¡search ¡result ¡ update, ¡change ¡ bug, ¡issue ¡ Google, ¡search ¡giant ¡ search ¡algorithm, ¡search ¡engine ¡ hardware ¡key, ¡digital ¡lock ¡ content, ¡photo ¡ rule, ¡limitaIon ¡ coupon, ¡sale ¡ medical ¡record, ¡medical ¡file ¡ device, ¡developer ¡ version, ¡handset ¡ Groupon, ¡company ¡

DicIonary ¡snapshot ¡

59 ¡

slide-60
SLIDE 60
  • Synonymy ¡

¡user, ¡consumer ¡

  • Hypernymy ¡

¡Google, ¡company ¡

DicIonary ¡snapshot ¡

60 ¡

  • Metonymy ¡

cloud, ¡users ¡

  • General ¡nouns ¡

¡bug, ¡issue ¡

  • World ¡knowledge ¡

¡Google, ¡search ¡giant ¡

slide-61
SLIDE 61

Dictionary sieves

Stanford ¡coreference ¡system ¡

(Lee ¡et ¡al. ¡2011) ¡

Sieve Dict 4 Sieve Dict 3 Sieve Dict 2 Sieve Dict 1

61 ¡

slide-62
SLIDE 62

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<ORG>’s ¡fieh-­‑generaGon ¡iPhone ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡device ¡of ¡this ¡size ¡

head premod+head premod+premod+head full mention iPhone fifth-generation iPhone <ORG>’s fifth-generation iPhone <ORG>’s fifth-generation iPhone device device device device of this size

DicIonary ¡sieves ¡

P r e c i s i o n R e c a l l

62 ¡

Dict ¡1 ¡ Dict ¡2 ¡ Dict ¡3 ¡ Dict ¡4 ¡

slide-63
SLIDE 63
  • Development ¡and ¡test ¡set ¡from ¡Techmeme ¡
  • Annotated ¡with ¡coreference ¡relaIons ¡

– NPs ¡ – Singletons ¡are ¡included ¡

Data ¡sets ¡

63 ¡

slide-64
SLIDE 64

Results: ¡dev ¡

64 ¡

Techmeme ¡data ¡

slide-65
SLIDE 65

Results: ¡test ¡

65 ¡

Techmeme ¡data ¡

slide-66
SLIDE 66

① Discourse ¡context ¡(44 ¡%) ¡

Google ¡has ¡been ¡busy ¡with ¡other ¡ma5ers ¡as ¡well, ¡facing ¡an ¡anItrust ¡probe ¡in ¡India ¡ and ¡growing ¡its ¡investments ¡in ¡online ¡video. ¡[...] ¡Google ¡is ¡also ¡facing ¡criminal ¡ charges ¡in ¡court ¡for ¡allegedly ¡failing ¡to ¡remove ¡Web ¡content ¡deemed ¡objec2onable ¡ by ¡Indian ¡authori2es. ¡

② DicIonary ¡errors ¡(15 ¡%) ¡

If ¡Chinese ¡authoriIes ¡need ¡access ¡to ¡Chinese ¡data ¡in ¡a ¡lawful ¡way ¡ ¡ ¡I ¡don't ¡think ¡it's ¡realisIc ¡to ¡say ¡we'll ¡be ¡able ¡to ¡stop ¡it. ¡[...] ¡allowing ¡the ¡company ¡to ¡ make ¡a ¡bigger ¡impression ¡in ¡the ¡world's ¡largest ¡internet ¡country. ¡ ¡

③ Preprocessing ¡tools ¡(15 ¡%) ¡

¡And ¡last ¡month ¡we ¡saw ¡leaked ¡documents ¡which ¡provided ¡a ¡peek ¡at ¡an ¡upcoming ¡

¡10 ¡inch ¡HP ¡tablet ¡running ¡Windows ¡8. ¡[...] ¡ ¡ ¡Unfortunately ¡there's ¡no ¡word ¡on ¡whether ¡the ¡company ¡has ¡plans ¡to ¡ever ¡release ¡a ¡new ¡ ¡webOS ¡device ¡again. ¡ ¡

Error ¡analysis: ¡false ¡posiIves ¡

66 ¡

slide-67
SLIDE 67

It ¡will ¡only ¡get ¡be5er ¡as ¡Apple ¡will ¡be ¡updaIng ¡it ¡with ¡iOS6, ¡an ¡

  • peraIng ¡system ¡that ¡the ¡company ¡will ¡likely ¡be ¡showing ¡off ¡this ¡

summer… ¡ Since ¡Apple ¡reinvented ¡the ¡segment, ¡Microsol ¡is ¡the ¡latest ¡ entrant ¡into ¡the ¡tablet ¡market, ¡banking ¡on ¡its ¡Windows ¡8 ¡products ¡ to ¡bridge ¡the ¡gap ¡between ¡PCs ¡and ¡tablets. ¡[...] ¡ The ¡company ¡showed ¡off ¡Windows ¡8 ¡last ¡September ¡and ¡earlier ¡ this ¡year ¡revealed ¡its ¡plans ¡for ¡bringing ¡Windows ¡to ¡ARM ¡ processors ¡in ¡a ¡further ¡effort ¡to ¡blur ¡the ¡lines ¡between ¡desktop ¡ and ¡mobile. ¡

Context ¡fit ¡

67 ¡

slide-68
SLIDE 68
  • Inspired ¡by ¡topic ¡signatures ¡(Lin ¡& ¡Hovy ¡2000, ¡Agirre ¡et ¡al. ¡2001) ¡
  • NE ¡signatures ¡

¡ ¡ ¡Apple ¡[iPhone, ¡iPad, ¡iOS, ¡Steve ¡Jobs, ¡iTunes, ¡Samsung, ¡iPod, ¡Tim ¡Cook,

¡ ¡ ¡ ¡ ¡ ¡ ¡TV, ¡iCloud] ¡

  • Compute ¡the ¡log-­‑likelihood ¡raIo ¡(LLR) ¡for ¡NE ¡pairs ¡

¡ ¡ ¡Hypothesis ¡1 ¡(H1): ¡p(Google ¡| ¡Android) ¡ ¡= ¡ ¡p(Google ¡| ¡ ¡ ¡ ¡Android) ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡Hypothesis ¡2 ¡(H2): ¡p(Google ¡| ¡Android) ¡ ¡≠ ¡ ¡p(Google ¡| ¡ ¡ ¡ ¡Android) ¡

  • A ¡NE’s ¡signature ¡is ¡the ¡list ¡of ¡k ¡NEs ¡with ¡highest ¡LLR ¡

Context ¡fit ¡

68 ¡

slide-69
SLIDE 69

Microsol, ¡ARM, ¡PCs, ¡Metro, ¡PC, ¡OS, ¡Steve ¡Sinofsky, ¡Consumer ¡Preview, ¡ Sinofsky, ¡Windows ¡XP ¡ Intel, ¡Windows, ¡Microsol, ¡Texas ¡Instruments, ¡Qualcomm, ¡Nvidia, ¡CPU, ¡SoC, ¡ MPCore, ¡AMD ¡

Context ¡fit ¡

69 ¡

Since ¡Apple ¡reinvented ¡the ¡segment, ¡Microsol ¡is ¡the ¡latest ¡entrant ¡into ¡ the ¡tablet ¡market, ¡banking ¡on ¡its ¡Windows ¡8 ¡products ¡to ¡bridge ¡the ¡gap ¡ between ¡PCs ¡and ¡tablets. ¡ The ¡company ¡showed ¡off ¡Windows ¡8 ¡last ¡September ¡and ¡earlier ¡this ¡year ¡ revealed ¡its ¡plans ¡for ¡bringing ¡Windows ¡to ¡ARM ¡processors ¡in ¡a ¡further ¡ effort ¡to ¡blur ¡the ¡lines ¡between ¡desktop ¡and ¡mobile. ¡

iPhone, ¡iPad, ¡iOS, ¡Steve ¡Jobs, ¡iTunes, ¡Samsung, ¡iPod, ¡Tim ¡Cook, ¡TV, ¡iCloud ¡

slide-70
SLIDE 70

Context ¡fit ¡

70 ¡

Techmeme ¡data ¡

slide-71
SLIDE 71

With ¡Groupon ¡Inc.'s ¡stock ¡down ¡by ¡half ¡from ¡its ¡IPO ¡price ¡and ¡the ¡company ¡ heading ¡into ¡its ¡first ¡earnings ¡report ¡since ¡an ¡accounIng ¡blowup, ¡CEO ¡Andrew ¡ Mason ¡tried ¡to ¡stoke ¡investor ¡confidence ¡with ¡a ¡le5er ¡to ¡shareholders ¡this ¡ morning, ¡outlining ¡opportunity ¡ahead ¡and ¡the ¡promise ¡of ¡new ¡products ¡for ¡the ¡ daily-­‑deals ¡company. ¡ ¡ Thompson ¡revealed ¡the ¡diagnosis ¡as ¡evidence ¡arose ¡that ¡seemed ¡to ¡contradict ¡ his ¡story ¡about ¡why ¡he ¡was ¡not ¡responsible ¡for ¡a ¡degree ¡listed ¡on ¡his ¡resume ¡that ¡ he ¡does ¡not ¡have, ¡the ¡newspaper ¡reports, ¡ciIng ¡anonymous ¡sources ¡familiar ¡ with ¡the ¡situa2on. ¡[...] ¡The ¡cancer ¡diagnosis ¡came ¡while ¡Thompson's ¡academic ¡ record ¡was ¡under ¡scruIny ¡by ¡a ¡Yahoo ¡board ¡commi5ee ¡appointed ¡to ¡invesIgate ¡ the ¡maUer. ¡ ¡

Error ¡analysis: ¡true ¡posiIves ¡

71 ¡

¡ ¡DicIonary ¡available ¡from: ¡

¡ ¡nlp.stanford.edu/pubs/coref-­‑dicIonary.zip ¡

slide-72
SLIDE 72

 Up ¡to ¡60% ¡

1 State ¡of ¡the ¡art ¡ 2 Hurdles ¡

 Beyond ¡the ¡60% ¡

3 Unsupervised ¡Mining ¡of ¡Coreference ¡Pairs ¡ ¡ 4 Discarding ¡Singleton ¡En22es ¡

Outline ¡

72 ¡

Marta ¡Recasens, ¡Marie-­‑Catherine ¡de ¡Marneffe, ¡and ¡ Christopher ¡Po5s. ¡The ¡Life ¡and ¡Death ¡of ¡Discourse ¡ EnIIes: ¡IdenIfying ¡Singleton ¡MenIons. ¡NAACL ¡2013 ¡

slide-73
SLIDE 73

Life ¡and ¡Death ¡of ¡DEs ¡

73 ¡

Nestle ¡USA ¡issued ¡a ¡voluntary ¡recall ¡of ¡ its ¡Nesquik ¡chocolate ¡powder ¡aler ¡ being ¡Ipped ¡off ¡by ¡an ¡ingredient ¡ supplier ¡of ¡possible ¡salmonella ¡

  • contaminaIon. ¡

The ¡Glendale-­‑based ¡company ¡said ¡it ¡ was ¡calling ¡back ¡canisters ¡of ¡the ¡ product, ¡which ¡is ¡mixed ¡with ¡milk ¡to ¡ create ¡a ¡sweet ¡drink, ¡that ¡were ¡made ¡ in ¡October ¡and ¡sold ¡naIonwide. ¡ Consumers ¡should ¡look ¡for ¡containers ¡ bearing ¡an ¡expiraIon ¡date ¡of ¡October ¡

  • 2014. ¡

Nestle ¡decided ¡to ¡recall ¡the ¡power ¡

slide-74
SLIDE 74

Life ¡and ¡Death ¡of ¡DEs ¡

74 ¡

Nestle ¡USA ¡issued ¡a ¡voluntary ¡recall ¡of ¡ its ¡Nesquik ¡chocolate ¡powder ¡aler ¡ being ¡Ipped ¡off ¡by ¡an ¡ingredient ¡ supplier ¡of ¡possible ¡salmonella ¡

  • contaminaIon. ¡

The ¡Glendale-­‑based ¡company ¡said ¡it ¡ was ¡calling ¡back ¡canisters ¡of ¡the ¡ product, ¡which ¡is ¡mixed ¡with ¡milk ¡to ¡ create ¡a ¡sweet ¡drink, ¡that ¡were ¡made ¡ in ¡October ¡and ¡sold ¡naIonwide. ¡ Consumers ¡should ¡look ¡for ¡containers ¡ bearing ¡an ¡expiraIon ¡date ¡of ¡October ¡

  • 2014. ¡

Nestle ¡decided ¡to ¡recall ¡the ¡powder ¡

slide-75
SLIDE 75

Life ¡and ¡Death ¡of ¡DEs ¡

75 ¡

Nestle ¡USA ¡issued ¡a ¡voluntary ¡recall ¡of ¡ its ¡Nesquik ¡chocolate ¡powder ¡aler ¡ being ¡Ipped ¡off ¡by ¡an ¡ingredient ¡ supplier ¡of ¡possible ¡salmonella ¡

  • contamina2on. ¡

The ¡Glendale-­‑based ¡company ¡said ¡it ¡ was ¡calling ¡back ¡canisters ¡of ¡the ¡ product, ¡which ¡is ¡mixed ¡with ¡milk ¡to ¡ create ¡a ¡sweet ¡drink, ¡that ¡were ¡made ¡ in ¡October ¡and ¡sold ¡naIonwide. ¡ Consumers ¡should ¡look ¡for ¡containers ¡ bearing ¡an ¡expira2on ¡date ¡of ¡October ¡

  • 2014. ¡

Nestle ¡decided ¡to ¡recall ¡the ¡powder ¡

slide-76
SLIDE 76

Life ¡and ¡Death ¡of ¡DEs ¡

76 ¡

Nestle ¡USA ¡issued ¡a ¡voluntary ¡recall ¡of ¡ its ¡Nesquik ¡chocolate ¡powder ¡aler ¡ being ¡Ipped ¡off ¡by ¡an ¡ingredient ¡ supplier ¡of ¡possible ¡salmonella ¡

  • contamina2on. ¡

The ¡Glendale-­‑based ¡company ¡said ¡it ¡ was ¡calling ¡back ¡canisters ¡of ¡the ¡ product, ¡which ¡is ¡mixed ¡with ¡milk ¡to ¡ create ¡a ¡sweet ¡drink, ¡that ¡were ¡made ¡ in ¡October ¡and ¡sold ¡naIonwide. ¡ Consumers ¡should ¡look ¡for ¡containers ¡ bearing ¡an ¡expira2on ¡date ¡of ¡October ¡

  • 2014. ¡

Nestle ¡decided ¡to ¡recall ¡the ¡powder ¡

slide-77
SLIDE 77

Life ¡and ¡Death ¡of ¡DEs ¡

77 ¡

slide-78
SLIDE 78

Life ¡and ¡Death ¡of ¡DEs ¡

78 ¡

consumers Nestle

Will ¡I ¡die ¡ immediately? ¡ Will ¡I ¡have ¡a ¡ short/long ¡life? ¡

slide-79
SLIDE 79

Data: ¡CoNLL-­‑2012 ¡ST ¡

79 ¡

  • OntoNotes ¡does ¡not ¡mark ¡singleton ¡enIIes. ¡
  • NPs ¡not ¡annotated ¡as ¡coreferent ¡are ¡added ¡as ¡singletons. ¡
slide-80
SLIDE 80

PredicIng ¡lifespans ¡

80 ¡

  • Discourse ¡referents ¡(Kar5unen ¡1976) ¡
  • Modal ¡subordinaIon ¡(Roberts ¡1990) ¡
  • Kim ¡took ¡an ¡exam ¡yesterday. ¡It ¡was ¡hard. ¡
  • Kim ¡didn’t ¡take ¡an ¡exam ¡yesterday. ¡It ¡was ¡hard. ¡
  • Kim ¡must ¡buy ¡a ¡box ¡of ¡cookies. ¡It ¡is ¡big. ¡
  • Kim ¡must ¡buy ¡a ¡box ¡of ¡cookies ¡and ¡give ¡it ¡to ¡her ¡grandmother. ¡
  • Mary ¡wants ¡to ¡marry ¡a ¡rich ¡man. ¡He ¡must ¡be ¡a ¡banker. ¡
  • Mary ¡wants ¡to ¡marry ¡a ¡rich ¡man. ¡He ¡is ¡a ¡banker. ¡
  • Kim ¡wants ¡to ¡catch ¡a ¡fish. ¡Do ¡you ¡see ¡the ¡fish ¡from ¡here? ¡
slide-81
SLIDE 81

PredicIng ¡lifespans ¡

81 ¡

slide-82
SLIDE 82

PredicIng ¡lifespans ¡

82 ¡

slide-83
SLIDE 83

PredicIng ¡lifespans ¡

83 ¡

Obama ¡said ¡p ¡ I ¡thought ¡I ¡could ¡get ¡a ¡2cket. ¡ I ¡thought ¡I ¡could ¡get ¡it. ¡

slide-84
SLIDE 84

PredicIng ¡lifespans ¡

84 ¡

R ¡ P ¡ F1 ¡ Singleton ¡ 82.3 ¡ 79.2 ¡ 80.7 ¡ Coreferent ¡ 72.2 ¡ 76.1 ¡ 74.1 ¡

≤ ¡0.5 ¡

> ¡0.5 ¡ R ¡ P ¡ F1 ¡ Singleton ¡ 50.5 ¡ 89.6 ¡ 64.6 ¡ Coreferent ¡ 41.3 ¡ 86.8 ¡ 55.9 ¡ < ¡0.2 ¡ > ¡0.8 ¡ P-oriented model

CoNLL-­‑2012 ¡shared ¡task ¡

slide-85
SLIDE 85

Results: ¡test ¡

85 ¡

MUC ¡ B3 ¡ CEAF-­‑ϕ4 ¡ CoNLL ¡ System ¡ R ¡ P ¡ F1 ¡ R ¡ P ¡ F1 ¡ R ¡ P ¡ F1 ¡ F1 ¡ Baseline ¡ 66.64 ¡ 64.72 ¡ 65.67 ¡ 68.05 ¡ 71.58 ¡ 69.77 ¡ 45.49 ¡ 47.55 ¡ 46.50 ¡ 60.65 ¡ w/ ¡Singleton ¡ ¡ ¡ ¡ ¡ ¡ ¡detector ¡ 66.08 ¡ 67.33 ¡ 66.70 ¡ 66.40 ¡ 73.14 ¡ 69.61 ¡ 47.77 ¡ 46.38 ¡ 47.07 ¡ 61.13 ¡

CoNLL-­‑2012 ¡shared ¡task ¡

MUC ¡ B3 ¡ CEAF-­‑ϕ4 ¡ CoNLL ¡ System ¡ R ¡ P ¡ F1 ¡ R ¡ P ¡ F1 ¡ R ¡ P ¡ F1 ¡ F1 ¡ Baseline ¡ 66.64 ¡ 64.72 ¡ 65.67 ¡ 58.53 ¡ 71.58 ¡ 64.40 ¡ 45.49 ¡ 47.55 ¡ 46.50 ¡ 58.86 ¡ w/ ¡Singleton ¡ ¡ ¡ ¡ ¡ ¡ ¡detector ¡ 66.08 ¡ 67.33 ¡ 66.70 ¡ 58.14 ¡ 73.14 ¡ 64.78 ¡ 47.77 ¡ 46.38 ¡ 47.07 ¡ 59.52 ¡

Fixed ¡scorer ¡

slide-86
SLIDE 86

 Up ¡to ¡60% ¡

1 State ¡of ¡the ¡art ¡ 2 Hurdles ¡

 Beyond ¡the ¡60% ¡

3 Unsupervised ¡Mining ¡of ¡Coreference ¡Pairs ¡ ¡ 4 Discarding ¡Singleton ¡EnIIes ¡

Outline ¡

86 ¡

slide-87
SLIDE 87
  • Complexity ¡of ¡coreference ¡resoluIon ¡

Conclusion ¡

87 ¡

  • Coreference ¡is ¡not ¡semanIc ¡similarity ¡

 ¡ ¡SoluIon: ¡Restricted ¡distribuIonal ¡similarity ¡

  • Coreference ¡resoluIon ¡systems ¡rely ¡on ¡string ¡match ¡
  • We ¡need ¡to ¡capture ¡the ¡context ¡surrounding ¡the ¡menIon ¡

 ¡ ¡SoluIon: ¡Context ¡incompaIbility ¡

  • Only ¡a ¡few ¡enIIes ¡are ¡menIoned ¡more ¡than ¡once ¡

 ¡ ¡SoluIon: ¡Discard ¡singletons ¡

slide-88
SLIDE 88
  • Beyond ¡string ¡matching: ¡more ¡semanIcs, ¡world ¡knowledge ¡
  • Protagonist ¡idenIficaIon, ¡Saliency ¡
  • Different ¡domains ¡
  • MulIlingual ¡coreference ¡
  • Hybrid ¡systems ¡
  • The ¡curse ¡(and ¡beauty) ¡of ¡context ¡

What’s ¡next? ¡

88 ¡

slide-89
SLIDE 89

Ques2ons? ¡Feedback? ¡

recasens@google.com ¡

89 ¡