Ef#iciency ¡in ¡Resource ¡ Creation ¡
HS: ¡Computational ¡Linguistics ¡for ¡Low-‑Resource ¡Languages ¡
¡
Mengfei ¡Zhou ¡ June ¡1, ¡2016 ¡ ¡
¡ Ins4tute ¡for ¡Computa4onal ¡Linguis4cs ¡ ¡ University ¡Heidelberg ¡
¡ ¡
1 ¡
Creation HS: Computational Linguistics for Low-Resource - - PowerPoint PPT Presentation
Ef#iciency in Resource Creation HS: Computational Linguistics for Low-Resource Languages Mengfei Zhou June 1, 2016 Ins4tute for Computa4onal Linguis4cs
HS: ¡Computational ¡Linguistics ¡for ¡Low-‑Resource ¡Languages ¡
Mengfei ¡Zhou ¡ June ¡1, ¡2016 ¡ ¡
¡ Ins4tute ¡for ¡Computa4onal ¡Linguis4cs ¡ ¡ University ¡Heidelberg ¡
¡ ¡
1 ¡
but ¡for ¡a ¡new ¡language, ¡how ¡can ¡we ¡effec4vely ¡ create ¡annotated ¡data? ¡ ¡
2 ¡
How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-‑of-‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡
3 ¡
How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-‑of-‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡
¡Ngai ¡& ¡
Yarowsky ¡ 2000 ¡
4 ¡
How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-‑of-‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡
Yarowsky ¡ et ¡al ¡2001 ¡
¡Ngai ¡& ¡
Yarowsky ¡ 2000 ¡
5 ¡
annota4on ¡
projec4on ¡across ¡aligned ¡corpora ¡applying ¡to ¡2 ¡tasks ¡ ¡ ¡ ¡ ¡1. ¡part-‑of-‑speech ¡tagger ¡(detailed) ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡(basic) ¡ ¡
¡
¡Ngai ¡& ¡
Yarowsky ¡ 2000 ¡ Yarowsky ¡ et ¡al ¡2001 ¡
6 ¡
Each ¡of ¡these ¡larger ¡boxes ¡is ¡a ¡NP ¡chunk ¡
Amount ¡of ¡work ¡has ¡been ¡done ¡in ¡this ¡domain ¡and ¡many ¡ different ¡methods ¡have ¡been ¡applied ¡
Ramshaw ¡& ¡Marcus’ ¡transforma4on ¡rules-‑based ¡system ¡ (f-‑measure ¡92.0) ¡is ¡regarded ¡as ¡the ¡de ¡facto ¡standard ¡for ¡ the ¡domain ¡ 7 ¡
8 ¡
Rule-‑wri4ng ¡approach ¡
linguis4c ¡knowledge ¡ ¡ ¡ ra4onalist ¡approach ¡ Labeling ¡data ¡and ¡ using ¡ac4ve ¡learning ¡
let ¡the ¡machine ¡sort ¡it ¡
induc4onist ¡approach ¡
Learner-‑guided ¡selec4on ¡to ¡reduce ¡annota4on ¡effort ¡
picture ¡from ¡Rehbein ¡& ¡Ruppenhofer’s ¡slide ¡ ¡ 9 ¡
picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡ 10 ¡
picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016’s ¡slide ¡ 11 ¡
Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡
picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡ 12 ¡
picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡
Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡
13 ¡
Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡
picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡
the ¡more ¡ uncertain ¡the ¡ example, ¡the ¡ useful ¡it ¡would ¡ ¡ be ¡to ¡have ¡this ¡ example ¡ annotated ¡!! ¡
14 ¡
models ¡to ¡evaluate ¡the ¡data, ¡and ¡candidates ¡for ¡ annota4on ¡are ¡drawn ¡from ¡the ¡pool ¡of ¡examples ¡ in ¡which ¡the ¡models ¡disagree. ¡
15 ¡
corpus ¡C ¡
16 ¡
corpus ¡C ¡
C: ¡15-‑18 ¡of ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡
17 ¡
corpus ¡C ¡
C: ¡15-‑18 ¡of ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡ Seed ¡set ¡ t ¡= ¡100 ¡
arbitrarily ¡pick ¡t ¡sentences ¡ for ¡hand ¡annota4on ¡
18 ¡
corpus ¡C ¡
delete ¡these ¡t ¡sentences ¡ from ¡C ¡
training ¡ set ¡T ¡
put ¡these ¡t ¡sentences ¡into ¡T ¡ t ¡
C: ¡15-‑18 ¡of ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡
19 ¡
Seed ¡set ¡ t ¡= ¡100 ¡
t1 ¡ t2 ¡ t3 ¡
divide ¡T ¡into ¡m ¡subset ¡ m ¡= ¡3 ¡
20 ¡
t1 ¡ t2 ¡ t3 ¡
use ¡each ¡subset ¡as ¡the ¡ training ¡set ¡for ¡a ¡model ¡ ¡
21 ¡
corpus ¡C ¡
evaluate ¡each ¡model ¡on ¡the ¡ remaining ¡sentences ¡in ¡C ¡
t1 ¡ t2 ¡ t3 ¡
use ¡each ¡subset ¡as ¡the ¡ training ¡set ¡for ¡a ¡model ¡ ¡
22 ¡
corpus ¡C ¡
pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡
23 ¡
corpus ¡C ¡
pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡
24 ¡
batch ¡size ¡ ¡x ¡= ¡50 ¡
corpus ¡C ¡
pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡ batch ¡size ¡ ¡x ¡= ¡50 ¡
Why ¡50? ¡
amount ¡of ¡work ¡and ¡ 4me ¡(15-‑30 ¡min) ¡ before ¡taking ¡a ¡break ¡ (3 ¡min) ¡ ¡while ¡the ¡ machine ¡selects ¡the ¡ next ¡
25 ¡
corpus ¡C ¡
pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡ What ¡ about ¡D? ¡
Why ¡50? ¡
amount ¡of ¡work ¡and ¡ 4me ¡(15-‑30 ¡min) ¡ before ¡taking ¡a ¡break ¡ (3 ¡min) ¡ ¡while ¡the ¡ machine ¡selects ¡the ¡ next ¡
26 ¡
batch ¡size ¡ ¡x ¡= ¡50 ¡
training ¡ set ¡T ¡
annotate ¡these ¡x ¡sentences ¡ and ¡add ¡them ¡to ¡T ¡ ¡
corpus ¡C ¡
pick ¡the ¡x ¡sentences ¡in ¡C ¡ with ¡the ¡highest ¡ disagreement ¡D ¡for ¡ annota4on ¡ x ¡
27 ¡
batch ¡size ¡ ¡x ¡= ¡50 ¡
t1 ¡ t2 ¡ t3 ¡
divide ¡T ¡into ¡m ¡subset ¡ Repeat ¡from ¡ Step ¡3, ¡10 ¡ itera4ons ¡ m ¡= ¡3 ¡
28 ¡
D = − 1 logk V(c,e) k logV(c,e) k
c
For ¡each ¡example, ¡if ¡all ¡models ¡assign ¡a ¡same ¡label, ¡the ¡ disagreement ¡score ¡is ¡low; ¡if ¡models ¡assign ¡different ¡labels, ¡the ¡ disagreement ¡score ¡is ¡high. ¡ ¡
29 ¡
30 ¡
Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ M3: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3 ¡ ¡ ¡ ¡ ¡ ¡ ¡D4 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D5 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡-‑> ¡mean ¡disagreement ¡score ¡D ¡for ¡sentence ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
OBI ¡framework ¡for ¡baseNP ¡chunking: ¡ Classify ¡every ¡word ¡as ¡Beginning(B), ¡Inside(I) ¡or ¡Outside(O) ¡
¡
¡
F
1 = 2 * Precision * Recall
Precison + Recall Precision = # of correct proposed labelings # of proposed labelings Recall = # of correct proposed labelings # of correct labelings D = 1 2 (1− F
1(Mi(e), M j(e))) Mi, M j ∈K
where ¡
31 ¡
32 ¡
Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Gold ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Predict ¡ ¡ calculate ¡precision, ¡recall, ¡f-‑score ¡ calculate ¡Disagreement ¡score ¡
OBI ¡framework ¡for ¡baseNP ¡chunking: ¡ Classify ¡every ¡word ¡as ¡Beginning(B), ¡Inside(I) ¡or ¡Outside(O) ¡
¡
33 ¡
Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Gold ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Predict ¡ ¡ calculate ¡precision, ¡recall, ¡f-‑score ¡
F-‑score ¡between ¡every ¡two ¡ model ¡is ¡high, ¡disagreement ¡ score ¡is ¡low; ¡F-‑score ¡between ¡ every ¡two ¡model ¡is ¡low, ¡ disagreement ¡score ¡is ¡high ¡
34 ¡
Sentence ¡s: ¡w1 ¡w2 ¡w3 ¡w4 ¡w5 ¡ ¡ M1: ¡ ¡ ¡ ¡ ¡ ¡[w1(O) ¡ ¡ ¡w2(B) ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Gold ¡ ¡ M2: ¡ ¡ ¡ ¡ ¡ ¡[w1(B) ¡ ¡ ¡ ¡w2(I) ¡ ¡ ¡ ¡w3(I) ¡ ¡ ¡w4(O) ¡ ¡ ¡w5(O)] ¡ ¡ ¡ ¡à ¡Predict ¡ ¡ calculate ¡precision, ¡recall, ¡f-‑score ¡
F-‑complement ¡can ¡ be ¡used ¡in ¡ applica4ons ¡where ¡ vote ¡entropy ¡is ¡ difficult, ¡e.g. ¡parsing ¡ (not ¡classifica4on) ¡ F-‑score ¡between ¡every ¡two ¡ model ¡is ¡high, ¡disagreement ¡ score ¡is ¡low; ¡F-‑score ¡between ¡ every ¡two ¡model ¡is ¡low, ¡ disagreement ¡score ¡is ¡high ¡
35 ¡
annota4on ¡ ¡ ¡à ¡use ¡a ¡realis4c ¡model ¡rather ¡than ¡simula4on ¡ experiment ¡ ¡ ¡
home ¡machine ¡
speakers, ¡none ¡had ¡linguis4cs ¡training) ¡
36 ¡
Marcus’ ¡training ¡set ¡(Gold ¡Standard ¡annota4on) ¡
feedback ¡phase, ¡annotate ¡up ¡to ¡50 ¡sentences ¡from ¡ 100 ¡sentences ¡
corpus ¡for ¡annotators ¡
37 ¡
¡ ¡ ¡ ¡Eg ¡1: ¡inser4ng ¡new ¡brackets ¡ ¡ ¡ ¡ ¡ ¡ ¡# ¡TheDT ¡ ¡manNN ¡ ¡ranVBD ¡=> ¡(TheDT ¡ ¡manNN) ¡ ¡ranVBD ¡
¡ ¡ ¡ ¡ ¡ ¡{_DT ¡ADJ* ¡NOUN+} ¡
¡
¡ ¡ ¡ ¡ ¡ ¡Eg ¡2: ¡spliyng ¡a ¡noun ¡phrase ¡
¡ ¡ ¡ ¡# ¡(NewNNP ¡ ¡YorkNNP ¡ ¡FridayNNP) ¡=> ¡(NewNNP ¡ ¡YorkNNP) ¡(FridayNNP) ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡[{ ¡ANYWORD* ¡NOUN+} ¡{ADJ*TIMEDAY}] ¡
38 ¡
39 ¡
experiments ¡
both ¡ini4al ¡ ¡bracke4ng ¡standards ¡guidance ¡and ¡rule-‑ quality ¡feedback ¡
widely: ¡1.5 ¡hours ¡to ¡9 ¡hours, ¡average ¡5 ¡hours ¡
40 ¡
41 ¡
machine ¡learning ¡ could ¡do ¡ini4al ¡ training ¡ immediate ¡on ¡ the ¡data ¡
42 ¡
machine ¡learning ¡ could ¡do ¡ini4al ¡ training ¡ immediate ¡on ¡ the ¡data ¡ rule ¡wri4ng ¡learners ¡ also ¡receive ¡ immediate ¡feedback ¡
but ¡were ¡slower ¡to ¡ incorporate ¡this ¡ feedback ¡on ¡their ¡ new ¡rules ¡
43 ¡
44 ¡
45 ¡
6 ¡rule ¡writers ¡are ¡ all ¡na4ve ¡speaker ¡
speakers ¡in ¡ annota4on ¡group ¡
46 ¡
6 ¡rule ¡writers ¡are ¡ all ¡na4ve ¡speaker ¡
speakers ¡in ¡ annota4on ¡group ¡ rule ¡writers: ¡6 ¡ strongest ¡out ¡of ¡17 ¡
results ¡ ¡
despite ¡favorable ¡ treatment, ¡rule ¡ wri4ng ¡s4ll ¡ underperforms ¡ annota4on ¡based ¡ learning ¡
47 ¡
48 ¡
Idea: ¡overcome ¡ annotated ¡ resource ¡shortage ¡
language ¡with ¡help ¡
language ¡
49 ¡
annota4on ¡
projec2on ¡across ¡aligned ¡corpora ¡applying ¡to ¡2 ¡tasks ¡ ¡ ¡ ¡ ¡1. ¡part-‑of-‑speech ¡tagger ¡(detailed) ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡(basic) ¡ ¡
¡
¡Ngai ¡& ¡
Yarowsky ¡ 2000 ¡ Yarowsky ¡ et ¡al ¡2001 ¡
50 ¡
bilingual ¡corpora ¡
side ¡of ¡the ¡parallel ¡corpus ¡
¡ ¡ ¡ ¡a. ¡Direct ¡transfer ¡ ¡ ¡ ¡ ¡ ¡b. ¡Standard ¡bigram ¡model ¡ ¡ ¡ ¡ ¡c. ¡ ¡Noisy-‑robust ¡bigram ¡induc4on ¡
¡ ¡ ¡ ¡
51 ¡
morphologically ¡realized ¡POS ¡granularity ¡between ¡two ¡ languages ¡
¡ ¡ ¡ ¡a. ¡Core ¡tagset: ¡noun(N), ¡verb(V), ¡adverb(R), ¡adjec4ve(J), ¡ preposi4on(I), ¡determiner(D) ¡etc. ¡ ¡ ¡ ¡ ¡ ¡b. ¡Eng ¡eqv ¡tagset: ¡granularity ¡captured ¡in ¡the ¡English ¡ Penn ¡Treebank ¡tagset ¡ ¡ ¡ ¡ ¡ ¡ ¡-‑ ¡NN ¡and ¡NNS ¡for ¡singular ¡and ¡plural ¡nouns ¡ ¡ ¡ ¡ ¡ ¡ ¡-‑ ¡basic ¡verb ¡tense ¡VB/VBN/VBG/VBD ¡
52 ¡
53 ¡
noisy: ¡
Core ¡tagset: ¡0.76 ¡ ¡
Core ¡tagset: ¡0.85 ¡
54 ¡
a) the ¡probability ¡of ¡a ¡word ¡appearing ¡depends ¡only ¡on ¡its ¡own ¡tag ¡ and ¡is ¡independent ¡of ¡neighboring ¡words ¡and ¡tags ¡ b) the ¡probability ¡of ¡a ¡tag ¡is ¡dependent ¡only ¡on ¡the ¡previous ¡tag, ¡ rather ¡than ¡the ¡en4re ¡tag ¡sequence ¡(bigram ¡assump4on) ¡
55 ¡
in ¡our ¡case: ¡ ¡ w ¡–> ¡French ¡word ¡ ¡ ¡ t ¡ ¡–> ¡ ¡get ¡via ¡alignments ¡ more ¡about ¡Viterbi ¡ algorithm: ¡refer ¡to ¡ heps://en.wikipedia.org/ wiki/Viterbi_algorithm ¡ ¡
56 ¡
in ¡our ¡case: ¡ ¡ w ¡–> ¡French ¡word ¡ ¡ ¡ t ¡ ¡–> ¡ ¡get ¡via ¡alignments ¡ also ¡noisy: ¡
Core ¡tagset: ¡0.86 ¡
57 ¡
¡ ¡ ¡ ¡a) ¡train ¡the ¡lexical ¡prior ¡P(wi|ti) ¡and ¡tag-‑sequence ¡ P(ti|ti-‑1) ¡separately ¡using ¡aggressive ¡genera4on ¡
¡ ¡ ¡ ¡b) ¡downweight ¡or ¡exclude ¡training ¡data ¡segments ¡ iden4fied ¡as ¡poorly ¡aligned ¡or ¡likely ¡noise. ¡
58 ¡
possible ¡core ¡POS ¡tag, ¡and ¡vary ¡rarely ¡have ¡more ¡than ¡two. (not ¡two ¡most ¡frequent ¡core ¡tag: ¡0.03% ¡in ¡French, ¡0.37% ¡in ¡ English) ¡ ¡ ¡ ¡ ¡ ¡ ¡à ¡that ¡means, ¡if ¡there’re ¡many ¡other ¡tags ¡for ¡a ¡word ¡type, ¡ they ¡are ¡almost ¡incorrect ¡
à 59 ¡
Reduce ¡weight ¡of ¡2nd ¡most ¡frequent ¡tag ¡ Increase ¡weight ¡of ¡1st ¡most ¡frequent ¡tag ¡ Not ¡two ¡frequent ¡tags: ¡P ¡= ¡0 ¡ ¡ ¡
( ¡t(i) ¡= ¡the ¡ith ¡most ¡frequent ¡tag ¡for ¡w ¡) ¡
60 ¡
Reduce ¡weight ¡of ¡2nd ¡most ¡frequent ¡tag ¡ Increase ¡weight ¡of ¡1st ¡most ¡frequent ¡tag ¡ Not ¡two ¡frequent ¡tags: ¡P ¡= ¡0 ¡ ¡ ¡
( ¡t(i) ¡= ¡the ¡ith ¡most ¡frequent ¡tag ¡for ¡w ¡) ¡
0.56 ¡is ¡increased ¡to ¡0.76 ¡ ¡
61 ¡
Reduce ¡weight ¡of ¡2nd ¡most ¡frequent ¡tag ¡ Increase ¡weight ¡of ¡1st ¡most ¡frequent ¡tag ¡ Not ¡two ¡frequent ¡tags: ¡P ¡= ¡0 ¡ ¡ ¡
( ¡t(i) ¡= ¡the ¡ith ¡most ¡frequent ¡tag ¡for ¡w ¡) ¡
0.56 ¡is ¡increased ¡to ¡0.76 ¡ ¡ apply ¡the ¡model ¡recursively, ¡select ¡two ¡ highest ¡frequency ¡subtags ¡for ¡each ¡of ¡the ¡ two ¡remaining ¡core ¡tags ¡
62 ¡
ideal ¡situa4on: ¡ alignments ¡are ¡1-‑1, ¡ clean ¡POS ¡projec4on ¡ ¡ problema4c ¡situa4on: ¡ a ¡English ¡token ¡correspond ¡to ¡many ¡French ¡tokens, ¡which ¡(or) ¡all ¡of ¡these ¡ French ¡words ¡should ¡inherit ¡the ¡English ¡plural ¡noun(NNS) ¡tag? ¡ ¡
63 ¡
correct ¡1-‑to-‑1 ¡alignments ¡and ¡aggressive ¡smoothing ¡towards ¡a ¡single ¡ POS ¡tag ¡
¡ ¡
64 ¡
downweigh4ng ¡of ¡low-‑weight ¡confidence ¡alignment ¡ regions ¡
weightering: ¡
projected ¡tag ¡and ¡1st ¡itera4on ¡lexical ¡priors, ¡penalizing ¡ words ¡whose ¡projected ¡tag ¡doesn’t ¡match ¡the ¡majority ¡ lexical ¡prior ¡
65 ¡
66 ¡
a ¡new ¡language ¡with ¡their ¡root ¡forms. ¡
a ¡single ¡step ¡transi4ve ¡associa4on: ¡croyant-‑believing-‑croire ¡ a ¡mul4-‑step ¡transi4ve ¡associa4on: ¡croyaient-‑believed-‑believe-‑croire, ¡ croissant-‑growing-‑grow-‑croître ¡ use ¡other ¡English ¡leamma ¡(such ¡as ¡THINK): ¡croyaient-‑thought-‑think-‑ croire ¡ ¡
67 ¡
68 ¡
precision: ¡ 98.5% ¡with ¡1.2 ¡ million ¡word ¡set ¡
69 ¡
ac4ve ¡learning ¡annota4on ¡rather ¡than ¡rule ¡wri4ng ¡for ¡base ¡ noun ¡phrase ¡chunking ¡task. ¡
¡ ¡ ¡ ¡-‑ ¡disagreement ¡measure ¡ ¡ ¡ ¡ ¡-‑ ¡the ¡process ¡of ¡realis4c ¡model ¡
uncertain ¡examples, ¡if ¡they ¡are ¡used ¡for ¡other ¡algorithm, ¡we ¡ probably ¡can’t ¡get ¡the ¡same ¡performance. ¡How ¡we ¡can ¡select ¡ annotated ¡data ¡for ¡a ¡more ¡widely ¡usage? ¡ ¡ ¡
70 ¡
different ¡tasks ¡
no ¡hand-‑annotate ¡training ¡data ¡
model? ¡ ¡ ¡ ¡ ¡-‑ ¡POS: ¡majority ¡tag ¡smoothing, ¡choose ¡high ¡confidence ¡ alignment ¡data ¡ ¡ ¡ ¡ ¡(for ¡other ¡task: ¡observe ¡errors, ¡generalize ¡methods) ¡
tasks ¡ ¡ ¡ ¡ ¡ ¡(e.g ¡detect ¡more ¡English ¡paraphrases ¡which ¡have ¡modal ¡sense ¡ given ¡seed ¡English ¡paraphrases) ¡ ¡
71 ¡
Processing ¡with ¡Python. ¡Chapter ¡7 ¡ ¡Extrac4ng ¡Informa4on ¡from ¡Text. ¡ hep://www.nltk.org/book/ch07.html ¡
ss2016 ¡"ac4ve ¡learning ¡for ¡the ¡acquisi4on ¡of ¡causal ¡language" hep://www.cl.uni-‑heidelberg.de/courses/ss16/dlnlp/material/slides/ intro-‑al.pdf ¡
efficient ¡Resource ¡Usage ¡for ¡Base ¡Noun ¡Phrase ¡Chunking. ¡ACL ¡'00 ¡ Proceedings ¡of ¡the ¡38th ¡Annual ¡Mee4ng ¡on ¡Associa4on ¡for ¡ Computa4onal ¡Linguis4cs, ¡pages ¡117-‑125. ¡
research, ¡pages ¡1-‑8. ¡
mee4ng ¡of ¡the ¡North ¡American ¡Chapter ¡of ¡the ¡Associa4on ¡for ¡ Computa4onal ¡Linguis4cs ¡on ¡Language ¡technologies, ¡pages ¡1-‑8. ¡
9 ¡Part-‑of-‑Speech ¡Tagging. ¡
72 ¡
73 ¡