Constructing a Valence Lexicon for a Treebank of German Erhard W. - - PowerPoint PPT Presentation

constructing a valence lexicon for a treebank of german
SMART_READER_LITE
LIVE PREVIEW

Constructing a Valence Lexicon for a Treebank of German Erhard W. - - PowerPoint PPT Presentation

Constructing a Valence Lexicon for a Treebank of German Erhard W. Hinrichs, Kathrin Beck {eh, kbeck}@sfs.uni-tuebingen.de University of Tbingen Seminar fr Sprachwissenschaft Germany 12/13/10 Erhard Hinrichs, Kathrin Beck


slide-1
SLIDE 1

Constructing a Valence Lexicon for a Treebank of German

Erhard W. Hinrichs, Kathrin Beck

{eh, kbeck}@sfs.uni-tuebingen.de

University of Tübingen Seminar für Sprachwissenschaft Germany

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-2
SLIDE 2

The TüBa-D/Z Treebank

‘But there would be intelligent solutions which do not cost money.’

German newspaper corpus:

Ø data source: die tageszeitung (taz) Ø ca. 36 000 sentences Ø semi-automatic annotation

Annotation scheme:

Ø context-free backbone Ø PS grammar + predicate argument structure Ø topological fields

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-3
SLIDE 3

Other Valence Lexica

§ PropBank (Palmer et al. 2005) additional layer of semantic roles in the Penn Treebank § FrameNet (Baker et al. 1998) based on frame semantics § Prague valency lexicon PDT-VALLEX (Hajič et al. 2003) created on the basis of the Prague Dependency Treebank

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-4
SLIDE 4

The TüBa-D/Z Valence Lexicon

einsetzen: ON [einsetzen] OA (R4-5603) ======= Bsp: Wir haben Computer eingesetzt ‘We used the computer.’ ON [einsetzen] OA FOPP (für, gegen) (R4-3126) Bsp: Wir setzen uns für eine Feuerpause ein ‘We supported a cease fire.’ Bsp: Gegen den Widerstand setzt der Senat Polizeiknüppel ein (R4-27058) ‘Against the resistance the senate used billy clubs.’ ON [einsetzen] (R4-2903) Bsp: Schneefall hatte eingesetzt ‘Snowfall had set in.’ ON [einsetzen] OA PRED (R4-17034) Bsp: Gourmetköche setzen sie als Garnitur ein ‘Gourmet cooks used it as garnish.’ ON [einsetzen] OD OA (N5-37382) Bsp: Man setzt den Pflanzen neue Gene ein ‘One inserts new genes into the plants.’

Example entry of a polysemous verb: The valence lexicon:

Ø constructed in lockstep with the development of the TüBa‑D/Z Ø The number of verb lemmas and valence frames corresponds with the number of sentences in the TüBa-D/Z Ø 4896 distinct verb lemmas Ø 8013 valence frames (total) Ø 717 distinct valence frames

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-5
SLIDE 5

Label Description ON nominative object (incl. subject clauses) OG genitive object OD dative object OA accusative object OS sentential object OPP

  • bligatory prepositional object

FOPP facultative prepositional object OADVP adverbial object OADJP adjectival object PRED predicate OV verbal object

Grammatical Function Labels

Inventory of grammatical function labels used in the valence lexicon:

Ø coincides with the edge labels used in the syntactic annotation Ø corresponds directly to syntax ¡

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-6
SLIDE 6

Quantitative Analysis I

Accession rates for frames, verb lemmas, and their combinations in ranges of 5000 sentences:

1000 2000 3000 4000 5000 6000 7000 8000 9000 5000 10000 15000 20000 25000 30000 35000 40000 Number of annotated sentences Number of frames Number verb lemmas combined

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-7
SLIDE 7

Quantitative Analysis I

Accession rates for frames, verb lemmas, and their combinations in ranges of 5000 sentences:

1000 2000 3000 4000 5000 6000 7000 8000 9000 5000 10000 15000 20000 25000 30000 35000 40000 Number of annotated sentences Number of frames Number verb lemmas combined 33.9% ¡ 17.4% ¡ 10.4% ¡ 10.0% ¡ 9.0% ¡ 8.5% ¡ 5.9% ¡

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-8
SLIDE 8

2 4 6 8 10 12 14 16 machen: schreiben: denken: halten: lassen: nehmen: sehen: geben: sagen: sprechen: tun: finden: haben: sein: stehen: Valence frames per verb lemma Lemma r 40 000 r 35 000 r 30 000 r 25 000 r 20 000 r 15 000 r 10 000 r 5000

Quantitative Analysis II ¡

Distribution of valence frames over sentence number range (r) for the 15 verb lemmas with the highest number of valence frames:

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-9
SLIDE 9

Quantitative Analysis III ¡

Number of distinct valence frames:

Ø 717 distinct valence frames (including prepositions) Ø The frequency of occurrence for a specific valence frame ranges from 2243 (ON OA) down to 3 (36 distinct valence frames) 2 (67 distinct valence frames) 1 (488 distinct valence frames)

500 1000 1500 2000 2500 ON OA ON ON (PASSIV) ON OS ON OD OA ON OD ON OA PRED OA (INFINITIV) ON PRED ON OD OS ON PRED (PASSIV) ON OA FOPP (mit) ON OA OD ON OA OS ON OPP (auf) ON OADVP ON OA OPP (in) ON OD (PASSIV) ON OA FOPP (in) ON OA FOPP (zu) ON OPP (in) ON FOPP (in) EMPTY ON FOPP (mit) ON OADJP ON OA FOPP (an) ON FOPP (über) ON OA FOPP (auf) ON OPP (mit) ON FOPP (an) Frequency Valence frame

Top 30 list of valence frames

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-10
SLIDE 10

Quantitative Analysis IV

Verb lemma Valence frames per verb lemma Frequency count machen 16 1 schreiben 15 1 denken, halten 14 2 lassen, nehmen, sehen 13 3 geben, sagen, sprechen, tun 12 4 finden, haben, sein, stehen 11 4 entscheiden ... wissen 10 9 bleiben … verpflichten 9 6 bekommen … ziehen 8 15 anfangen … zahlen 7 25 abstimmen … wünschen 6 33 anbieten … zwingen 5 85 abfahren … zustimmen 4 146 abgeben … zweifeln 3 347 abbrechen … zutreffen 2 921 aalen … zwitschern 1 3294

Valence frame count per verb lemma and frequency count:

4896 verb lemmas (total) 67.3% (3294 verb lemmas): 1 frame 18.8% (921 verb lemmas): 2 frames 7.1% (347 verb lemmas): 3 frames 3.0% (146 verb lemmas): 4 frames 1.7% (85 verb lemmas): 5 frames 1.8% (88 verb lemmas): 6-10 frames 0.3% (15 verb lemmas): more than 10 frames

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-11
SLIDE 11

Conclusion and Future Work

Current state of work:

Ø TüBa-D/Z:

  • ca. 40 000 sentences

Ø Valence Lexicon: 4947 distinct verb lemmas 8139 valence frames (total) 755 distinct valence frames

Integration with other resources of German (e.g. GermaNet):

Benefits: Ø opportunity to clarify the intended sense of a verb by matches of verb senses with valence frames Ø empirical verification of the relationship between the correlation of distinct valence frames and sense distinction

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-12
SLIDE 12

Thank you for your attention ¡

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-13
SLIDE 13

Quantitative Analysis V

Lemma Lemma frequency Valence frame count per verb sein 10009 11 werden 6545 7 haben 5766 11 können 2164 6 sollen 1418 6 müssen 1373 5 wollen 1294 8 geben 1021 12 sagen 922 12 machen 801 16 kommen 668 10 lassen 626 13 gehen 562 10 stehen 475 11 sehen 462 13 bleiben 409 9 dürfen 379 5 heißen 364 10 wissen 364 10 finden 361 11

Correlation of lemma frequency with the number of valence frames per verb:

Top 20 correlation of lemma frequency and valence frame count per verb ¡

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

slide-14
SLIDE 14

Quantitative Analysis VI

10 20 30 40 50 60 70 80 90 100 sein sollen sagen gehen dürfen erklären halten spielen gelten leben glauben scheinen ziehen brauchen erreichen fragen einsetzen tragen verstehen übernehmen bestätigen unterstützen anbieten verlassen ausgehen Relative frequency Lemma

LF VFC Linear (VFC)

Top 100 correlation of lemma frequency and valence frame count:

Ø weak correlation ¡

12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡