Creation HS: Computational Linguistics for Low-Resource - - PowerPoint PPT Presentation

creation hs computational linguistics for low resource
SMART_READER_LITE
LIVE PREVIEW

Creation HS: Computational Linguistics for Low-Resource - - PowerPoint PPT Presentation

Ef#iciency in Resource Creation HS: Computational Linguistics for Low-Resource Languages Mengfei Zhou June 1, 2016 Ins4tute for Computa4onal Linguis4cs


slide-1
SLIDE 1

Ef#iciency ¡in ¡Resource ¡ Creation ¡

HS: ¡Computational ¡Linguistics ¡for ¡Low-­‑Resource ¡Languages ¡

¡

Mengfei ¡Zhou ¡ June ¡1, ¡2016 ¡ ¡

¡ Ins4tute ¡for ¡Computa4onal ¡Linguis4cs ¡ ¡ University ¡Heidelberg ¡

¡ ¡

1 ¡

slide-2
SLIDE 2

Motivation ¡

  • A ¡lack ¡of ¡annotated ¡data ¡
  • Collec4on ¡of ¡data ¡is ¡neither ¡easy ¡nor ¡cheap ¡
  • We ¡may ¡have ¡a ¡lot ¡of ¡English ¡annotated ¡data, ¡

but ¡for ¡a ¡new ¡language, ¡how ¡can ¡we ¡effec4vely ¡ create ¡annotated ¡data? ¡ ¡

2 ¡

slide-3
SLIDE 3

Big ¡Picture ¡

How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡

  • ­‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ß ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡

  • ­‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ß ¡not ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡

  • ­‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ß ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-­‑of-­‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡

3 ¡

slide-4
SLIDE 4

Big ¡Picture ¡

How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡

  • ­‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ß ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡

  • ­‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ß ¡not ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡

  • ­‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ß ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-­‑of-­‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡

¡Ngai ¡& ¡

Yarowsky ¡ 2000 ¡

4 ¡

slide-5
SLIDE 5

Big ¡Picture ¡

How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡

  • ­‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ß ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡

  • ­‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ß ¡not ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡

  • ­‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ß ¡effec4ve! ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-­‑of-­‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡

Yarowsky ¡ et ¡al ¡2001 ¡

¡Ngai ¡& ¡

Yarowsky ¡ 2000 ¡

5 ¡

slide-6
SLIDE 6

Presentation ¡Outline ¡

  • Base ¡noun ¡phrase ¡chunking ¡
  • Ac4ve ¡learning: ¡the ¡basics ¡
  • Apply ¡ac4ve ¡learning ¡to ¡base ¡noun ¡phrase ¡chunking ¡
  • Learning ¡by ¡rules ¡for ¡base ¡noun ¡phrase ¡chunking ¡
  • Comparison ¡(human ¡cost, ¡performance): ¡rule ¡wri4ng ¡vs. ¡

annota4on ¡

  • ­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑

projec4on ¡across ¡aligned ¡corpora ¡applying ¡to ¡2 ¡tasks ¡ ¡ ¡ ¡ ¡1. ¡part-­‑of-­‑speech ¡tagger ¡(detailed) ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡(basic) ¡ ¡

¡

¡Ngai ¡& ¡

Yarowsky ¡ 2000 ¡ Yarowsky ¡ et ¡al ¡2001 ¡

6 ¡

slide-7
SLIDE 7

Base ¡Noun ¡Phrase ¡Chunking ¡

  • ­‑

Each ¡of ¡these ¡larger ¡boxes ¡is ¡a ¡NP ¡chunk ¡

  • ­‑

Amount ¡of ¡work ¡has ¡been ¡done ¡in ¡this ¡domain ¡and ¡many ¡ different ¡methods ¡have ¡been ¡applied ¡

  • ­‑

Ramshaw ¡& ¡Marcus’ ¡transforma4on ¡rules-­‑based ¡system ¡ (f-­‑measure ¡92.0) ¡is ¡regarded ¡as ¡the ¡de ¡facto ¡standard ¡for ¡ the ¡domain ¡ 7 ¡

slide-8
SLIDE 8

Which ¡approach ¡can ¡work ¡ better? ¡

8 ¡

Rule-­‑wri4ng ¡approach ¡

  • ­‑> ¡directly ¡encode ¡

linguis4c ¡knowledge ¡ ¡ ¡ ra4onalist ¡approach ¡ Labeling ¡data ¡and ¡ using ¡ac4ve ¡learning ¡

  • ­‑> ¡label ¡sentences ¡& ¡

let ¡the ¡machine ¡sort ¡it ¡

  • ut ¡

induc4onist ¡approach ¡

slide-9
SLIDE 9

Active ¡Learning: ¡the ¡basics ¡ ¡ ¡

Learner-­‑guided ¡selec4on ¡to ¡reduce ¡annota4on ¡effort ¡

picture ¡from ¡Rehbein ¡& ¡Ruppenhofer’s ¡slide ¡ ¡ 9 ¡

slide-10
SLIDE 10

Active ¡Learning: ¡the ¡basics ¡ ¡ ¡

picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡ 10 ¡

slide-11
SLIDE 11

Active ¡Learning: ¡the ¡basics ¡ ¡ ¡

picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016’s ¡slide ¡ 11 ¡

slide-12
SLIDE 12

Active ¡Learning: ¡the ¡basics ¡ ¡ ¡

Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡

picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡ 12 ¡

slide-13
SLIDE 13

Active ¡Learning: ¡the ¡basics ¡ ¡ ¡

picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡

Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡

13 ¡

slide-14
SLIDE 14

Active ¡Learning: ¡the ¡basics ¡ ¡ ¡

Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡

picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡

the ¡more ¡ uncertain ¡the ¡ example, ¡the ¡ useful ¡it ¡would ¡ ¡ be ¡to ¡have ¡this ¡ example ¡ annotated ¡!! ¡

14 ¡

slide-15
SLIDE 15

Query-­‑by-­‑committee ¡approach ¡

  • How ¡can ¡we ¡find ¡the ¡most ¡uncertain ¡examples? ¡
  • Query-­‑by-­‑commieee ¡approach ¡uses ¡mul4ple ¡

models ¡to ¡evaluate ¡the ¡data, ¡and ¡candidates ¡for ¡ annota4on ¡are ¡drawn ¡from ¡the ¡pool ¡of ¡examples ¡ in ¡which ¡the ¡models ¡disagree. ¡

15 ¡

slide-16
SLIDE 16

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡

corpus ¡C ¡

16 ¡

slide-17
SLIDE 17

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡

corpus ¡C ¡

C: ¡15-­‑18 ¡of ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡

17 ¡

slide-18
SLIDE 18

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡1) ¡

corpus ¡C ¡

C: ¡15-­‑18 ¡of ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡ Seed ¡set ¡ t ¡= ¡100 ¡

arbitrarily ¡pick ¡t ¡sentences ¡ for ¡hand ¡annota4on ¡

18 ¡

slide-19
SLIDE 19

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡2) ¡

corpus ¡C ¡

delete ¡these ¡t ¡sentences ¡ from ¡C ¡

training ¡ set ¡T ¡

put ¡these ¡t ¡sentences ¡into ¡T ¡ t ¡

C: ¡15-­‑18 ¡of ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡

19 ¡

Seed ¡set ¡ t ¡= ¡100 ¡

slide-20
SLIDE 20

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡3) ¡

t1 ¡ t2 ¡ t3 ¡

divide ¡T ¡into ¡m ¡subset ¡ m ¡= ¡3 ¡

20 ¡

slide-21
SLIDE 21

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡4) ¡

t1 ¡ t2 ¡ t3 ¡

use ¡each ¡subset ¡as ¡the ¡ training ¡set ¡for ¡a ¡model ¡ ¡

21 ¡

slide-22
SLIDE 22

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡5) ¡

corpus ¡C ¡

evaluate ¡each ¡model ¡on ¡the ¡ remaining ¡sentences ¡in ¡C ¡

t1 ¡ t2 ¡ t3 ¡

use ¡each ¡subset ¡as ¡the ¡ training ¡set ¡for ¡a ¡model ¡ ¡

22 ¡

slide-23
SLIDE 23

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡6) ¡

corpus ¡C ¡

pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡

23 ¡

slide-24
SLIDE 24

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡6) ¡

corpus ¡C ¡

pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡

24 ¡

batch ¡size ¡ ¡x ¡= ¡50 ¡

slide-25
SLIDE 25

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡6) ¡

corpus ¡C ¡

pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡ batch ¡size ¡ ¡x ¡= ¡50 ¡

Why ¡50? ¡

  • ­‑ ¡Take ¡a ¡reasonable ¡

amount ¡of ¡work ¡and ¡ 4me ¡(15-­‑30 ¡min) ¡ before ¡taking ¡a ¡break ¡ (3 ¡min) ¡ ¡while ¡the ¡ machine ¡selects ¡the ¡ next ¡

25 ¡

slide-26
SLIDE 26

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡6) ¡

corpus ¡C ¡

pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡ What ¡ about ¡D? ¡

Why ¡50? ¡

  • ­‑ ¡Take ¡a ¡reasonable ¡

amount ¡of ¡work ¡and ¡ 4me ¡(15-­‑30 ¡min) ¡ before ¡taking ¡a ¡break ¡ (3 ¡min) ¡ ¡while ¡the ¡ machine ¡selects ¡the ¡ next ¡

26 ¡

batch ¡size ¡ ¡x ¡= ¡50 ¡

slide-27
SLIDE 27

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡7) ¡

training ¡ set ¡T ¡

annotate ¡these ¡x ¡sentences ¡ and ¡add ¡them ¡to ¡T ¡ ¡

corpus ¡C ¡

pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡ x ¡

27 ¡

batch ¡size ¡ ¡x ¡= ¡50 ¡

slide-28
SLIDE 28

Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡8) ¡

t1 ¡ t2 ¡ t3 ¡

divide ¡T ¡into ¡m ¡subset ¡ Repeat ¡from ¡ Step ¡3, ¡10 ¡ itera4ons ¡ m ¡= ¡3 ¡

28 ¡

slide-29
SLIDE 29

Disagreement ¡measure ¡

  • Standard ¡measure: ¡Vote ¡Entropy ¡Measure ¡
  • where ¡k ¡= ¡number ¡of ¡models ¡in ¡commieee ¡(e.g. ¡k ¡= ¡3) ¡
  • V(c,e) ¡= ¡number ¡of ¡models ¡assigning ¡c ¡to ¡e ¡(e,g. ¡V(c,e)=2) ¡ ¡
  • c: ¡class ¡
  • e: ¡example ¡ ¡

D = − 1 logk V(c,e) k logV(c,e) k

c

For ¡each ¡example, ¡if ¡all ¡models ¡assign ¡a ¡same ¡label, ¡the ¡ disagreement ¡score ¡is ¡low; ¡if ¡models ¡assign ¡different ¡labels, ¡the ¡ disagreement ¡score ¡is ¡high. ¡ ¡

29 ¡

slide-30
SLIDE 30

Vote ¡Entropy ¡Measure: ¡Example ¡

30 ¡

Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ M3: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3 ¡ ¡ ¡ ¡ ¡ ¡ ¡D4 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D5 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡-­‑> ¡mean ¡disagreement ¡score ¡D ¡for ¡sentence ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

OBI ¡framework ¡for ¡baseNP ¡chunking: ¡ Classify ¡every ¡word ¡as ¡Beginning(B), ¡Inside(I) ¡or ¡Outside(O) ¡

  • f ¡the ¡none ¡phrase ¡ ¡

¡

slide-31
SLIDE 31

Disagreement ¡measure ¡

  • a ¡novel ¡disagreement ¡measure: ¡F-­‑complement ¡Measure ¡

¡

  • K ¡is ¡the ¡commieee ¡of ¡models ¡
  • Mi, ¡Mj ¡are ¡individual ¡models ¡in ¡K ¡
  • F1(Mi(e),Mj(e)) ¡is ¡F1 ¡of ¡Mi’s ¡labeling ¡of ¡e ¡rela4ve ¡to ¡Mj’s ¡labeling ¡of ¡e. ¡

F

1 = 2 * Precision * Recall

Precison + Recall Precision = # of correct proposed labelings # of proposed labelings Recall = # of correct proposed labelings # of correct labelings D = 1 2 (1− F

1(Mi(e), M j(e))) Mi, M j ∈K

where ¡

31 ¡

slide-32
SLIDE 32

32 ¡

F-­‑complement ¡measure ¡: ¡Example ¡

Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Gold ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Predict ¡ ¡ calculate ¡precision, ¡recall, ¡f-­‑score ¡ calculate ¡Disagreement ¡score ¡

OBI ¡framework ¡for ¡baseNP ¡chunking: ¡ Classify ¡every ¡word ¡as ¡Beginning(B), ¡Inside(I) ¡or ¡Outside(O) ¡

  • f ¡the ¡none ¡phrase ¡ ¡

¡

slide-33
SLIDE 33

33 ¡

F-­‑complement ¡measure ¡: ¡Example ¡

Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Gold ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Predict ¡ ¡ calculate ¡precision, ¡recall, ¡f-­‑score ¡

F-­‑score ¡between ¡every ¡two ¡ model ¡is ¡high, ¡disagreement ¡ score ¡is ¡low; ¡F-­‑score ¡between ¡ every ¡two ¡model ¡is ¡low, ¡ disagreement ¡score ¡is ¡high ¡

slide-34
SLIDE 34

34 ¡

F-­‑complement ¡measure ¡: ¡Example ¡

Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Gold ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Predict ¡ ¡ calculate ¡precision, ¡recall, ¡f-­‑score ¡

F-­‑complement ¡can ¡ be ¡used ¡in ¡ applica4ons ¡where ¡ vote ¡entropy ¡is ¡ difficult, ¡e.g. ¡parsing ¡ (not ¡classifica4on) ¡ F-­‑score ¡between ¡every ¡two ¡ model ¡is ¡high, ¡disagreement ¡ score ¡is ¡low; ¡F-­‑score ¡between ¡ every ¡two ¡model ¡is ¡low, ¡ disagreement ¡score ¡is ¡high ¡

slide-35
SLIDE 35

Disagreement ¡measure ¡

35 ¡

slide-36
SLIDE 36

Active ¡learning ¡with ¡Real ¡Time ¡ Human ¡Supervision ¡

  • Goal: ¡inves4gate ¡the ¡rela4ve ¡costs ¡of ¡rule ¡wri4ng ¡vs. ¡

annota4on ¡ ¡ ¡à ¡use ¡a ¡realis4c ¡model ¡rather ¡than ¡simula4on ¡ experiment ¡ ¡ ¡

  • More ¡powerful ¡machines ¡in ¡lab ¡rather ¡than ¡the ¡user’s ¡

home ¡machine ¡

  • Subjects: ¡7 ¡graduate ¡students ¡(5 ¡na4ve ¡English ¡

speakers, ¡none ¡had ¡linguis4cs ¡training) ¡

36 ¡

slide-37
SLIDE 37

Active ¡learning ¡with ¡Real ¡Time ¡ Human ¡Supervision ¡

  • Ini4al ¡training ¡set ¡T: ¡100 ¡sentences ¡from ¡Ramshaw ¡& ¡

Marcus’ ¡training ¡set ¡(Gold ¡Standard ¡annota4on) ¡

  • Students ¡were ¡firstly ¡asked ¡to ¡spend ¡4me ¡in ¡a ¡

feedback ¡phase, ¡annotate ¡up ¡to ¡50 ¡sentences ¡from ¡ 100 ¡sentences ¡

  • Ini4al ¡corpus ¡of ¡100 ¡sentences ¡served ¡as ¡reference ¡

corpus ¡for ¡annotators ¡

  • Ac4ve ¡learning ¡phase ¡follows ¡the ¡feedback ¡phase ¡

37 ¡

slide-38
SLIDE 38

Learning ¡by ¡Rules ¡

  • The ¡system ¡was ¡wrieen ¡as ¡cgiscript ¡ ¡
  • Rule ¡format: ¡

¡ ¡ ¡ ¡Eg ¡1: ¡inser4ng ¡new ¡brackets ¡ ¡ ¡ ¡ ¡ ¡ ¡# ¡TheDT ¡ ¡manNN ¡ ¡ranVBD ¡=> ¡(TheDT ¡ ¡manNN) ¡ ¡ranVBD ¡

¡ ¡ ¡ ¡ ¡ ¡{_DT ¡ADJ* ¡NOUN+} ¡

¡

¡ ¡ ¡ ¡ ¡ ¡Eg ¡2: ¡spliyng ¡a ¡noun ¡phrase ¡

¡ ¡ ¡ ¡# ¡(NewNNP ¡ ¡YorkNNP ¡ ¡FridayNNP) ¡=> ¡(NewNNP ¡ ¡YorkNNP) ¡(FridayNNP) ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡[{ ¡ANYWORD* ¡NOUN+} ¡{ADJ*TIMEDAY}] ¡

38 ¡

slide-39
SLIDE 39

Python ¡Example ¡(NLTK) ¡ ¡

39 ¡

slide-40
SLIDE 40

Rule ¡writing ¡experiments ¡

  • Subjects: ¡17 ¡advanced ¡computer ¡science ¡students ¡
  • Experimental ¡condi4ons ¡as ¡equal ¡as ¡possible: ¡ ¡
  • ­‑ use ¡the ¡iden4cal ¡test ¡set ¡as ¡in ¡the ¡annota4on ¡

experiments ¡

  • ­‑ use ¡the ¡same ¡ini4al ¡100 ¡gold ¡standard ¡sentences ¡for ¡

both ¡ini4al ¡ ¡bracke4ng ¡standards ¡guidance ¡and ¡rule-­‑ quality ¡feedback ¡

  • The ¡4me ¡the ¡students ¡spend ¡on ¡the ¡task ¡varied ¡

widely: ¡1.5 ¡hours ¡to ¡9 ¡hours, ¡average ¡5 ¡hours ¡

40 ¡

slide-41
SLIDE 41

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

41 ¡

slide-42
SLIDE 42

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

machine ¡learning ¡ could ¡do ¡ini4al ¡ training ¡ immediate ¡on ¡ the ¡data ¡

42 ¡

slide-43
SLIDE 43

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

machine ¡learning ¡ could ¡do ¡ini4al ¡ training ¡ immediate ¡on ¡ the ¡data ¡ rule ¡wri4ng ¡learners ¡ also ¡receive ¡ immediate ¡feedback ¡

  • n ¡their ¡first ¡rules, ¡

but ¡were ¡slower ¡to ¡ incorporate ¡this ¡ feedback ¡on ¡their ¡ new ¡rules ¡

43 ¡

slide-44
SLIDE 44

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

44 ¡

slide-45
SLIDE 45

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

45 ¡

6 ¡rule ¡writers ¡are ¡ all ¡na4ve ¡speaker ¡

  • vs. ¡2 ¡non-­‑na4ve ¡

speakers ¡in ¡ annota4on ¡group ¡

slide-46
SLIDE 46

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

46 ¡

6 ¡rule ¡writers ¡are ¡ all ¡na4ve ¡speaker ¡

  • vs. ¡2 ¡non-­‑na4ve ¡

speakers ¡in ¡ annota4on ¡group ¡ rule ¡writers: ¡6 ¡ strongest ¡out ¡of ¡17 ¡

  • vs. ¡ ¡all ¡7 ¡annota4on ¡

results ¡ ¡

slide-47
SLIDE 47

Experiment ¡Results ¡– ¡Rule ¡ Writing ¡vs. ¡Annotation ¡

despite ¡favorable ¡ treatment, ¡rule ¡ wri4ng ¡s4ll ¡ underperforms ¡ annota4on ¡based ¡ learning ¡

47 ¡

slide-48
SLIDE 48

Another ¡approach: ¡ ¡projection ¡ across ¡aligned ¡corpora ¡ ¡

48 ¡

slide-49
SLIDE 49

Another ¡approach: ¡ ¡projection ¡ across ¡aligned ¡corpora ¡ ¡

Idea: ¡overcome ¡ annotated ¡ resource ¡shortage ¡

  • f ¡resource-­‑poor ¡

language ¡with ¡help ¡

  • f ¡resource-­‑rich ¡

language ¡

49 ¡

slide-50
SLIDE 50

Presentation ¡Outline ¡

  • Base ¡noun ¡phrase ¡chunking ¡
  • Ac4ve ¡learning: ¡the ¡basics ¡
  • Apply ¡ac4ve ¡learning ¡to ¡base ¡noun ¡phrase ¡chunking ¡
  • Learning ¡by ¡rules ¡for ¡base ¡noun ¡phrase ¡chunking ¡
  • Comparison ¡(human ¡cost, ¡performance): ¡rule ¡wri4ng ¡vs. ¡

annota4on ¡

  • ­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑

projec2on ¡across ¡aligned ¡corpora ¡applying ¡to ¡2 ¡tasks ¡ ¡ ¡ ¡ ¡1. ¡part-­‑of-­‑speech ¡tagger ¡(detailed) ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡(basic) ¡ ¡

¡

¡Ngai ¡& ¡

Yarowsky ¡ 2000 ¡ Yarowsky ¡ et ¡al ¡2001 ¡

50 ¡

slide-51
SLIDE 51

Part-­‑of-­‑speech ¡tagger ¡introduction ¡

  • Goal: ¡project ¡POS ¡analysis ¡via ¡word-­‑aligned ¡parallel ¡

bilingual ¡corpora ¡

  • First ¡step: ¡use ¡an ¡exis4ng ¡POS ¡tagger ¡to ¡annotate ¡English ¡

side ¡of ¡the ¡parallel ¡corpus ¡

  • Three ¡models: ¡ ¡ ¡

¡ ¡ ¡ ¡a. ¡Direct ¡transfer ¡ ¡ ¡ ¡ ¡ ¡b. ¡Standard ¡bigram ¡model ¡ ¡ ¡ ¡ ¡c. ¡ ¡Noisy-­‑robust ¡bigram ¡induc4on ¡

¡ ¡ ¡ ¡

51 ¡

slide-52
SLIDE 52

Part-­‑of-­‑speech ¡tagger ¡introduction ¡

  • Granularity ¡issue: ¡target ¡mismatches ¡and ¡differences ¡in ¡

morphologically ¡realized ¡POS ¡granularity ¡between ¡two ¡ languages ¡

  • Two ¡tagsets: ¡ ¡

¡ ¡ ¡ ¡a. ¡Core ¡tagset: ¡noun(N), ¡verb(V), ¡adverb(R), ¡adjec4ve(J), ¡ preposi4on(I), ¡determiner(D) ¡etc. ¡ ¡ ¡ ¡ ¡ ¡b. ¡Eng ¡eqv ¡tagset: ¡granularity ¡captured ¡in ¡the ¡English ¡ Penn ¡Treebank ¡tagset ¡ ¡ ¡ ¡ ¡ ¡ ¡-­‑ ¡NN ¡and ¡NNS ¡for ¡singular ¡and ¡plural ¡nouns ¡ ¡ ¡ ¡ ¡ ¡ ¡-­‑ ¡basic ¡verb ¡tense ¡VB/VBN/VBG/VBD ¡

52 ¡

slide-53
SLIDE 53

Direct ¡transfer ¡ ¡

  • The ¡raw ¡tags ¡are ¡transformed ¡via ¡the ¡word ¡alignments ¡

53 ¡

slide-54
SLIDE 54

Direct ¡transfer ¡ ¡

  • The ¡raw ¡tags ¡are ¡transformed ¡via ¡the ¡word ¡alignments ¡

noisy: ¡

  • n ¡auto-­‑aligned ¡data ¡

Core ¡tagset: ¡0.76 ¡ ¡

  • n ¡hand-­‑aligned ¡data ¡

Core ¡tagset: ¡0.85 ¡

54 ¡

slide-55
SLIDE 55

Standard ¡bigram ¡model ¡

¡using ¡Bayes’ ¡rule, ¡with ¡two ¡assump4ons: ¡ ¡

a) the ¡probability ¡of ¡a ¡word ¡appearing ¡depends ¡only ¡on ¡its ¡own ¡tag ¡ and ¡is ¡independent ¡of ¡neighboring ¡words ¡and ¡tags ¡ b) the ¡probability ¡of ¡a ¡tag ¡is ¡dependent ¡only ¡on ¡the ¡previous ¡tag, ¡ rather ¡than ¡the ¡en4re ¡tag ¡sequence ¡(bigram ¡assump4on) ¡

55 ¡

slide-56
SLIDE 56

Standard ¡bigram ¡model ¡(Example) ¡

in ¡our ¡case: ¡ ¡ w ¡–> ¡French ¡word ¡ ¡ ¡ t ¡ ¡–> ¡ ¡get ¡via ¡alignments ¡ more ¡about ¡Viterbi ¡ algorithm: ¡refer ¡to ¡ heps://en.wikipedia.org/ wiki/Viterbi_algorithm ¡ ¡

56 ¡

slide-57
SLIDE 57

Standard ¡bigram ¡model ¡(Example) ¡

in ¡our ¡case: ¡ ¡ w ¡–> ¡French ¡word ¡ ¡ ¡ t ¡ ¡–> ¡ ¡get ¡via ¡alignments ¡ also ¡noisy: ¡

  • n ¡auto-­‑aligned ¡data ¡

Core ¡tagset: ¡0.86 ¡

57 ¡

slide-58
SLIDE 58

Noisy-­‑robust ¡bigram ¡induction ¡

¡ • Ideas: ¡ ¡

¡ ¡ ¡ ¡a) ¡train ¡the ¡lexical ¡prior ¡P(wi|ti) ¡and ¡tag-­‑sequence ¡ P(ti|ti-­‑1) ¡separately ¡using ¡aggressive ¡genera4on ¡

  • techniques. ¡

¡ ¡ ¡ ¡b) ¡downweight ¡or ¡exclude ¡training ¡data ¡segments ¡ iden4fied ¡as ¡poorly ¡aligned ¡or ¡likely ¡noise. ¡

58 ¡

slide-59
SLIDE 59

lexical ¡prior ¡Estimation ¡

  • modify: ¡P(wi|ti) ¡
  • We ¡need ¡an ¡improved ¡es4ma4on ¡of ¡P(ti|wi) ¡
  • Words ¡in ¡French ¡have ¡a ¡strong ¡tendency ¡to ¡have ¡only ¡1 ¡

possible ¡core ¡POS ¡tag, ¡and ¡vary ¡rarely ¡have ¡more ¡than ¡two. (not ¡two ¡most ¡frequent ¡core ¡tag: ¡0.03% ¡in ¡French, ¡0.37% ¡in ¡ English) ¡ ¡ ¡ ¡ ¡ ¡ ¡à ¡that ¡means, ¡if ¡there’re ¡many ¡other ¡tags ¡for ¡a ¡word ¡type, ¡ they ¡are ¡almost ¡incorrect ¡

à 59 ¡

slide-60
SLIDE 60

lexical ¡prior ¡Estimation ¡

Reduce ¡weight ¡of ¡2nd ¡most ¡frequent ¡tag ¡ Increase ¡weight ¡of ¡1st ¡most ¡frequent ¡tag ¡ Not ¡two ¡frequent ¡tags: ¡P ¡= ¡0 ¡ ¡ ¡

( ¡t(i) ¡= ¡the ¡ith ¡most ¡frequent ¡tag ¡for ¡w ¡) ¡

60 ¡

slide-61
SLIDE 61

lexical ¡prior ¡Estimation ¡

Reduce ¡weight ¡of ¡2nd ¡most ¡frequent ¡tag ¡ Increase ¡weight ¡of ¡1st ¡most ¡frequent ¡tag ¡ Not ¡two ¡frequent ¡tags: ¡P ¡= ¡0 ¡ ¡ ¡

( ¡t(i) ¡= ¡the ¡ith ¡most ¡frequent ¡tag ¡for ¡w ¡) ¡

  • Eg. ¡achat: ¡62/(62+48+1) ¡= ¡0.56 ¡

0.56 ¡is ¡increased ¡to ¡0.76 ¡ ¡

61 ¡

slide-62
SLIDE 62

lexical ¡prior ¡Estimation ¡

Reduce ¡weight ¡of ¡2nd ¡most ¡frequent ¡tag ¡ Increase ¡weight ¡of ¡1st ¡most ¡frequent ¡tag ¡ Not ¡two ¡frequent ¡tags: ¡P ¡= ¡0 ¡ ¡ ¡

( ¡t(i) ¡= ¡the ¡ith ¡most ¡frequent ¡tag ¡for ¡w ¡) ¡

  • Eg. ¡achat: ¡62/(62+48+1) ¡= ¡0.56 ¡

0.56 ¡is ¡increased ¡to ¡0.76 ¡ ¡ apply ¡the ¡model ¡recursively, ¡select ¡two ¡ highest ¡frequency ¡subtags ¡for ¡each ¡of ¡the ¡ two ¡remaining ¡core ¡tags ¡

62 ¡

slide-63
SLIDE 63

Problem ¡of ¡1-­‑to-­‑n ¡phrase ¡ alignment ¡

ideal ¡situa4on: ¡ alignments ¡are ¡1-­‑1, ¡ clean ¡POS ¡projec4on ¡ ¡ problema4c ¡situa4on: ¡ a ¡English ¡token ¡correspond ¡to ¡many ¡French ¡tokens, ¡which ¡(or) ¡all ¡of ¡these ¡ French ¡words ¡should ¡inherit ¡the ¡English ¡plural ¡noun(NNS) ¡tag? ¡ ¡

63 ¡

slide-64
SLIDE 64

Problem ¡of ¡1-­‑to-­‑n ¡phrase ¡ alignment ¡

  • Use ¡rela4ve ¡posi4on ¡in ¡the ¡compound ¡(a, ¡b, ¡c, ¡etc.). ¡ ¡
  • 1-­‑to-­‑n: ¡Laws/NNS ¡à ¡Les/NNSa ¡ ¡lois/NNSb ¡ ¡ ¡1-­‑to-­‑1: ¡The/DT ¡à ¡Les/DT ¡
  • Problem ¡can ¡be ¡solved ¡since ¡rela4vely ¡frequent ¡occurrence ¡of ¡

correct ¡1-­‑to-­‑1 ¡alignments ¡and ¡aggressive ¡smoothing ¡towards ¡a ¡single ¡ POS ¡tag ¡

  • How ¡to ¡combine ¡P(NNSa|Les) ¡and ¡P(DT|Les)? ¡ ¡

¡ ¡

64 ¡

slide-65
SLIDE 65

Tag ¡Sequence ¡Model ¡Estimation ¡

  • modify: ¡P(ti|ti-­‑1) ¡
  • choose ¡set ¡of ¡filtered, ¡high ¡confidence ¡alignment ¡data, ¡

downweigh4ng ¡of ¡low-­‑weight ¡confidence ¡alignment ¡ regions ¡

  • 2 ¡different ¡informa4on ¡sources ¡for ¡sentence ¡filtering/

weightering: ¡

  • a) ¡final ¡Model-­‑3 ¡alignment ¡score ¡for ¡the ¡sentence ¡ ¡
  • b) ¡a ¡sentence ¡level ¡agreement ¡measure ¡between ¡the ¡

projected ¡tag ¡and ¡1st ¡itera4on ¡lexical ¡priors, ¡penalizing ¡ words ¡whose ¡projected ¡tag ¡doesn’t ¡match ¡the ¡majority ¡ lexical ¡prior ¡

65 ¡

slide-66
SLIDE 66

Evaluation ¡and ¡results ¡

66 ¡

slide-67
SLIDE 67

Basic ¡ideas ¡of ¡morphological ¡ analysis ¡induction ¡

  • Use ¡bilingual ¡corpora ¡to ¡align ¡complex ¡inflected ¡word ¡forms ¡in ¡

a ¡new ¡language ¡with ¡their ¡root ¡forms. ¡

a ¡single ¡step ¡transi4ve ¡associa4on: ¡croyant-­‑believing-­‑croire ¡ a ¡mul4-­‑step ¡transi4ve ¡associa4on: ¡croyaient-­‑believed-­‑believe-­‑croire, ¡ croissant-­‑growing-­‑grow-­‑croître ¡ use ¡other ¡English ¡leamma ¡(such ¡as ¡THINK): ¡croyaient-­‑thought-­‑think-­‑ croire ¡ ¡

67 ¡

slide-68
SLIDE 68

Basic ¡ideas ¡of ¡morphological ¡ analysis ¡induction ¡

  • Mul4ple ¡bridge ¡offers ¡greater ¡robustness ¡

68 ¡

slide-69
SLIDE 69

Basic ¡ideas ¡of ¡morphological ¡ analysis ¡induction ¡

  • Mul4ple ¡bridge ¡offers ¡greater ¡robustness ¡

precision: ¡ 98.5% ¡with ¡1.2 ¡ million ¡word ¡set ¡

69 ¡

slide-70
SLIDE 70

Conclusion ¡and ¡discussion ¡

  • It ¡is ¡more ¡efficient ¡and ¡more ¡successful ¡to ¡train ¡a ¡system ¡using ¡

ac4ve ¡learning ¡annota4on ¡rather ¡than ¡rule ¡wri4ng ¡for ¡base ¡ noun ¡phrase ¡chunking ¡task. ¡

  • Q1. ¡How ¡can ¡we ¡apply ¡ac4ve ¡learning ¡to ¡other ¡tasks? ¡

¡ ¡ ¡ ¡-­‑ ¡disagreement ¡measure ¡ ¡ ¡ ¡ ¡-­‑ ¡the ¡process ¡of ¡realis4c ¡model ¡

  • Q2. ¡Different ¡learning ¡algorithm ¡can ¡select ¡different ¡most ¡

uncertain ¡examples, ¡if ¡they ¡are ¡used ¡for ¡other ¡algorithm, ¡we ¡ probably ¡can’t ¡get ¡the ¡same ¡performance. ¡How ¡we ¡can ¡select ¡ annotated ¡data ¡for ¡a ¡more ¡widely ¡usage? ¡ ¡ ¡

70 ¡

slide-71
SLIDE 71

Conclusion ¡and ¡discussion ¡

  • We ¡can ¡use ¡projec4on ¡across ¡aligned ¡corpora ¡for ¡many ¡

different ¡tasks ¡

  • This ¡achievement ¡is ¡noteworthy ¡becausu ¡it ¡requires ¡absolutely ¡

no ¡hand-­‑annotate ¡training ¡data ¡

  • How ¡to ¡get ¡a ¡robust ¡model ¡based ¡on ¡the ¡direct ¡transfer ¡

model? ¡ ¡ ¡ ¡ ¡-­‑ ¡POS: ¡majority ¡tag ¡smoothing, ¡choose ¡high ¡confidence ¡ alignment ¡data ¡ ¡ ¡ ¡ ¡(for ¡other ¡task: ¡observe ¡errors, ¡generalize ¡methods) ¡

  • The ¡mul4ple ¡bridge ¡formula ¡can ¡also ¡be ¡used ¡for ¡many ¡other ¡

tasks ¡ ¡ ¡ ¡ ¡ ¡(e.g ¡detect ¡more ¡English ¡paraphrases ¡which ¡have ¡modal ¡sense ¡ given ¡seed ¡English ¡paraphrases) ¡ ¡

71 ¡

slide-72
SLIDE 72

Reference ¡

  • Pictures ¡in ¡page ¡7, ¡39: ¡Bird, ¡S., ¡Klein, ¡E.,and ¡Loper, ¡E. ¡Natural ¡Language ¡

Processing ¡with ¡Python. ¡Chapter ¡7 ¡ ¡Extrac4ng ¡Informa4on ¡from ¡Text. ¡ hep://www.nltk.org/book/ch07.html ¡

  • Pictures ¡in ¡page ¡9-­‑14: ¡Rehbeinand ¡Ruppenhofer‘s ¡slide ¡of ¡seminar ¡

ss2016 ¡"ac4ve ¡learning ¡for ¡the ¡acquisi4on ¡of ¡causal ¡language" hep://www.cl.uni-­‑heidelberg.de/courses/ss16/dlnlp/material/slides/ intro-­‑al.pdf ¡

  • Ngai, ¡G. ¡and ¡Yarowsky, ¡D. ¡(2000). ¡Rule ¡wri4ng ¡or ¡Annota4on: ¡Cost-­‑

efficient ¡Resource ¡Usage ¡for ¡Base ¡Noun ¡Phrase ¡Chunking. ¡ACL ¡'00 ¡ Proceedings ¡of ¡the ¡38th ¡Annual ¡Mee4ng ¡on ¡Associa4on ¡for ¡ Computa4onal ¡Linguis4cs, ¡pages ¡117-­‑125. ¡

  • Yarowsky, ¡D., ¡Ngai, ¡G. ¡and ¡Wicentowski, ¡R. ¡(2001). ¡HLT ¡'01 ¡Proceedings ¡
  • f ¡the ¡first ¡interna4onal ¡conference ¡on ¡Human ¡language ¡technology ¡

research, ¡pages ¡1-­‑8. ¡

  • Yarowsky, ¡D. ¡and ¡Ngai, ¡G. ¡(2001). ¡NAACL ¡'01 ¡Proceedings ¡of ¡the ¡second ¡

mee4ng ¡of ¡the ¡North ¡American ¡Chapter ¡of ¡the ¡Associa4on ¡for ¡ Computa4onal ¡Linguis4cs ¡on ¡Language ¡technologies, ¡pages ¡1-­‑8. ¡

  • Jurafsky, ¡D. ¡and ¡James, ¡H. ¡M. ¡Speech ¡and ¡Language ¡Processing. ¡Chapter ¡

9 ¡Part-­‑of-­‑Speech ¡Tagging. ¡

72 ¡

slide-73
SLIDE 73

Thank ¡ ¡you! ¡

73 ¡