language resource addition dictionary or corpus
play

Language Resource Addition: Dictionary or Corpus? Shinsuke Mori - PowerPoint PPT Presentation

Language Resource Addition: Dictionary or Corpus? Shinsuke Mori Graham Neubig Kyoto University NAIST 2014 May 29 1 / 30 Table of Contents Overview Morphological Analysis Evaluation Realistic Cases Conclusion 2 / 30 NLP for


  1. Language Resource Addition: Dictionary or Corpus? Shinsuke Mori Graham Neubig Kyoto University NAIST 2014 May 29 1 / 30

  2. Table of Contents Overview Morphological Analysis Evaluation Realistic Cases Conclusion 2 / 30

  3. NLP for Applications ◮ Machine learning approach 1. Annotation standard 2. Language resource (Texts with annotations) 3. Classifiers ◮ High accuracy in the general domain ◮ We have enough large annotated data ◮ Not sufficiently accurate for various texts ◮ Achieve a high accuracy by all means!! 3 / 30

  4. Language Resource Addition for ML-based NLP ✓ ✏ Language resource addition never betrays!! ✒ ✑ ◮ As dictionary entries ◮ Without context ⇒ Improve NLP ◮ Easy for tool users ··· You just edit the dictionary. ◮ As an annotated corpus ··· You need re-training. ◮ Not easy for tool users ◮ With context ⇒ Improve more? 4 / 30

  5. Task for Experiments ◮ Japanese morphological analysis = WS + PT ✓ ✏ Word segmentation (WS) 吾輩は猫である ex.) I am a cat ⇓ 吾輩 は 猫 で あ る ✒ ✑ ✓ ✏ Part-of-speech tagging (PT) 吾輩 は 猫 で あ る ex.) ⇓ N P N P V Suf ✒ ✑ ◮ Most ambiguity lies in WS 5 / 30

  6. Sequence-based Approach (SB) ◮ MeCab: CRF-based joint method [Kudo 04] 吾輩 は 猫 で あ る N P N P V Suf ◮ refers to the word to be tagged w , the word sequences to its left w − and right w + , and their POS ◮ requires fully annotated language resources ✞ ☎ ex.) 吾輩 /N は /P 猫 /N で /P あ /V る /Suf ✝ ✆ Cf. [Tsuboi 08] 6 / 30

  7. Pointwise Approach (PW) ◮ KyTea: 2-step pointwise method (SVM or other) [Neubig 11] ◮ Word segmentation ⇒ POS tagging 吾 輩 は 猫 で あ る 0 1 1 1 1 1 ◮ refers to only the word to be tagged w , and the character sequences to its left c − and right c + ◮ never refers to any estimated values! ◮ is trainable from partially annotated language resources ✞ ☎ ex.) 吾輩は 猫 である ✝ ✆ no annot. no annot. 7 / 30

  8. Pointwise Approach (PW) ◮ KyTea: 2-step pointwise method (SVM or other) [Neubig 11] ◮ Word segmentation ⇒ POS tagging 吾 輩 は 猫 で あ る N ◮ refers to only the word to be tagged w , and the character sequences to its left c − and right c + ◮ never refers to any estimated values! ◮ is trainable from partially annotated language resources ✞ ☎ ex.) 吾輩は 猫 /N である ✝ ✆ no annot. no annot. 8 / 30

  9. Dictionary or Corpus ✓ ✏ Dictionary word1/POS1,POS2 word2/POS2,POS3 . . . ✒ ✑ ✓ ✏ Corpus left context word1/POS1 right context left context word1/POS2 right context left context word2/POS2 right context left context word2/POS3 right context . . . ✒ ✑ ◮ Unknown words are found in real texts with contexts 9 / 30

  10. Experimental Setting 1. BCCWJ (Balanced Corpus of Contemporary Written Japanese) [Maekawa 08] Corpus Domain #words General 784k (Core Data - Yahoo!QA) General + Web 898k (Core Data) Web for test 13.0k Dictionary Domain #words Coverage (word/POS) General 29.7k 96.3% General + Web 32.5k 97.9% 10 / 30

  11. MA and method ◮ Morphological analyzer 1. MeCab: CRF-based joint method [Kudo 04] 2. KyTea: 2-step pointwise method [Neubig 11] ◮ Adaptation strategies 1. No adaptation: Use the corpus and the dictionary in the general domain. 2. Dictionary addition (no re-training): Add words appearing in the Web training corpus to the dictionary (MeCab only). 3. Dictionary addition (re-training): + estimate the weights on the general domain training data. 4. Corpus addition: Add annotated sentences in the Web training corpus and train the parameters. 11 / 30

  12. Accuracy Mesurement ◮ N REF : the number of word-POS pairs in the correct sentence ◮ N SY S : in the system output ◮ N LCS : the length of the LCS (longuest common subsequence) Recall = N LCS Prec. = N LCS , . N REF N SY S ◮ F-measure: the harmonic mean of the Recall and the Prec. � − 1 � 1 2 N LCS 2( R − 1 + P − 1 ) F = = . N REF + N SY S 12 / 30

  13. Word Segmentation Accuracy Adaptation strategy MeCab KyTea No adaptation 95.20% 95.54% Dict. addition (no re-training) 96.59% - Dict. addition (re-training) 96.55% 96.75% Corpus addition 96.85% 97.15% ◮ Dictionary addition: +1.35% (MeCab), +1.21% (KyTea) ◮ Corpus addition: +0.30% (MeCab), +0.40% (KyTea) 75~80% Without context With context 13 / 30

  14. Realistic Cases ◮ The previous experiments are somewhat artificial or in-vitro ◮ Full annotation required ✞ ☎ ex.) 吾輩 /N は /P 猫 /N で /P あ /V る /Suf ✝ ✆ ◮ Two real adaptation scenarios or in-vivo ◮ Partial annotation ✞ ☎ ex.) 吾輩は 猫 /N である ✝ ✆ no annot. no annot. ◮ Only KyTea (MeCab does not support such data) ◮ focusing on word segmentation where most ambiguity lies 14 / 30

  15. Case 1: Recipe Text Analysis for Procedural Text Understanding 1. 各 各 各 各 / ホット ホット ホット ホット ドッグ ドッグ ドッグ ドッグ パン /F パン パン パン の の の の / 内側 内側 内側 内側 /F に に に に 、 、 、 、 / マヨネーズ マヨネーズ マヨネーズ マヨネーズ /F 、 、 、 、 / マスタード マスタード マスタード /F マスタード 、 、 、 、 / 甘味 甘味 甘味 甘味 料 料 /F 料 料 F-part-of (each) ( cmi ) (mayonnaise) (mustard) (sweet relish) (hot dog buns) (of) (Incide) を を を を / 広げ 広げ /Ac 広げ 広げ る る る る 。 。 。 。 d-obj d-obj d-obj ◮ Recipe flow graph i-obj d-obj ( cmd ) (spread) ( infl. ) corpus [Mori 14] / フランクフルト フランクフルト フランクフルト フランクフルト /F を を を を / 入れ 入れ /Ac 入れ 入れ 、 、 、 、 / 13 13 13 13 × × × × 9 9 9 9 “ /St “ “ “ の の の の / オーブン オーブン オーブン オーブン 皿 /T 皿 皿 皿 に に に に / 置 置 置 置 /Ac く く く く 。 。 。 。 i-obj other-mod d-obj i-obj (05/29 Session: (of) (baking dish) ( cmi ) (place) ( infl. ) (frankfurter) ( cmd ) (fill) (13 x 9 “) 2. 各 各 各 各 / ホット ホット ドッグ ホット ホット ドッグ ドッグ /F ドッグ に に に に / チリ チリ チリ チリ /F 、 、 、 、 / チーズ チーズ /F チーズ チーズ 、 、 、 、 / オニオン オニオン オニオン オニオン /F を を を を / ふりかけ ふりかけ /Ac ふりかけ ふりかけ る る る る 。 。 。 。 F-eq i-obj P34 - Corpora and d-obj d-obj d-obj (each) (hot dog) ( cmi ) (chili) (cheese) (onion) ( cmd ) (sprinkle) ( infl. ) d-obj 3. / アルミホイル アルミホイル アルミホイル アルミホイル /T で で で で / 覆 覆 /Ac 覆 覆 い い い い 、 、 、 、 / オーブン オーブン オーブン オーブン /T に に に に / 置 置 置 /Ac 置 く く く く 。 。 。 。 Annotation) T-comp d-obj i-obj (aluminum foil) (cmc) (cover) ( infl. ) (oven) ( cmi ) (place) ( infl. ) そして そして そして そして 、 、 、 、 / 350 350 350 350 度 度 度 度 /St で で で で / 45 45 45 45 分 分 分 分 間 間 間 間 /D / 焼 焼 焼 焼 /Ac く く く く 。 。 。 。 T-comp d-obj other-mod (then) (350 degrees) (cmc) (45 minutes) (bake) ( infl. ) ◮ Specifications #Sent. #NEs #Words #Char. Training 1,760 13,197 33,088 50,002 Test 724 – 13,147 19,975 15 / 30

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend