Folktale Classification using Learning to Rank Dong Nguyen, Dolf - - PowerPoint PPT Presentation

folktale classification using learning to rank
SMART_READER_LITE
LIVE PREVIEW

Folktale Classification using Learning to Rank Dong Nguyen, Dolf - - PowerPoint PPT Presentation

Folktale Classification using Learning to Rank Dong Nguyen, Dolf Trieschnigg, and Marit Theune University of Twente Folktales Fairy tales Riddles Legends Urban legends Jokes Etc.. Folktale researchers Folktales


slide-1
SLIDE 1

Folktale Classification using Learning to Rank

Dong Nguyen, Dolf Trieschnigg, and Mariët Theune University of Twente

slide-2
SLIDE 2
slide-3
SLIDE 3
slide-4
SLIDE 4
slide-5
SLIDE 5
slide-6
SLIDE 6

Folktales

  • Fairy tales
  • Riddles
  • Legends
  • Urban legends
  • Jokes
  • Etc..
slide-7
SLIDE 7

Folktale researchers

  • Folktales are a resource to research

– Variation in tales – Shifting moral values, beliefs, identities etc. – Intertextuality

slide-8
SLIDE 8

Classification systems

  • Folktale researchers have developed

classification systems

  • To compare and analyze stories
  • To organize stories
slide-9
SLIDE 9

Classification systems

  • Folktale researchers have developed

classification systems

  • To compare and analyze stories
  • To organize stories

Story types ¡

slide-10
SLIDE 10

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy.

slide-11
SLIDE 11

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-12
SLIDE 12

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A guy bikes through the park at night. He encounters a girl covered in blood. On their way to the police, she suddenly

  • disappears. She resembles a

murdered girl… A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-13
SLIDE 13

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A guy bikes through the park at night. He encounters a girl covered in blood. On their way to the police, she suddenly

  • disappears. She resembles a

murdered girl… A car driver picks up a hitchhiker and borrows her his sweater. When he stops by to pick up the sweater, he discovers she passed away due to a car accident a while ago. He finds his sweater on her grave. A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-14
SLIDE 14

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A guy bikes through the park at night. He encounters a girl covered in blood. On their way to the police, she suddenly

  • disappears. She resembles a

murdered girl… A car driver picks up a hitchhiker and borrows her his sweater. When he stops by to pick up the sweater, he discovers she passed away due to a car accident a while ago. He finds his sweater on her grave. A car driver picks up a girl wearing a white dress. He accidently spills red wine on her dress. The next day he finds out she died a year ago. When the police open her grave, they find the white dress with the red wine spot. A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-15
SLIDE 15

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A guy bikes through the park at night. He encounters a girl covered in blood. On their way to the police, she suddenly

  • disappears. She resembles a

murdered girl… A car driver picks up a hitchhiker and borrows her his sweater. When he stops by to pick up the sweater, he discovers she passed away due to a car accident a while ago. He finds his sweater on her grave. A car driver picks up a girl wearing a white dress. He accidently spills red wine on her dress. The next day he finds out she died a year ago. When the police open her grave, they find the white dress with the red wine spot. A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-16
SLIDE 16

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A guy bikes through the park at night. He encounters a girl covered in blood. On their way to the police, she suddenly

  • disappears. She resembles a

murdered girl… A car driver picks up a hitchhiker and borrows her his sweater. When he stops by to pick up the sweater, he discovers she passed away due to a car accident a while ago. He finds his sweater on her grave. A car driver picks up a girl wearing a white dress. He accidently spills red wine on her dress. The next day he finds out she died a year ago. When the police open her grave, they find the white dress with the red wine spot. A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-17
SLIDE 17

The Vanishing Hitchhiker (BRUN 01000)

  • A ghostly or heavenly hitchhiker that vanishes

from a vehicle, sometimes after giving warning or prophecy. A guy bikes through the park at night. He encounters a girl covered in blood. On their way to the police, she suddenly

  • disappears. She resembles a

murdered girl… A car driver picks up a hitchhiker and borrows her his sweater. When he stops by to pick up the sweater, he discovers she passed away due to a car accident a while ago. He finds his sweater on her grave. A car driver picks up a girl wearing a white dress. He accidently spills red wine on her dress. The next day he finds out she died a year ago. When the police open her grave, they find the white dress with the red wine spot. A car driver picks up a

  • hitchhiker. They talk about

spiritual topics in life. Suddenly the hitchhiker

  • vanishes. The police tell

him they have heard the story earlier that day.

slide-18
SLIDE 18

Story Type Indexes: ATU

Aarne-­‑Thompson-­‑Uther ¡ ¡ classifica4on ¡system ¡(ATU) ¡ ¡ Red ¡Riding ¡Hood ¡ ¡(ATU ¡0333), ¡ ¡ The ¡Race ¡between ¡Hare ¡and ¡ Tortoise ¡(ATU ¡0275A), ¡etc.

slide-19
SLIDE 19

Story Type Indexes: Brunvand

Urban ¡legends ¡

¡ The ¡Microwaved ¡Pet ¡(BRUN ¡02000), ¡ The ¡Kidney ¡Heist ¡(BRUN ¡06305), ¡ ¡ The ¡Killer ¡in ¡the ¡Backseat ¡ ¡ ¡ ¡ ¡(BRUN ¡01305), ¡ ¡ The ¡Vanishing ¡Hitchhiker ¡ ¡ ¡ ¡ ¡ ¡(BRUN ¡01000), ¡ etc.

slide-20
SLIDE 20

Automatic Identification

  • f Story Types
  • Increasing digitalization
  • Discover relationships between stories
slide-21
SLIDE 21

Outline

  • Problem ¡descrip4on, ¡corpora ¡
  • Experimental ¡setup ¡

– Baselines, ¡Learning ¡to ¡Rank ¡ ¡

  • Results ¡

– Baselines, ¡Feature ¡analysis, ¡Error ¡analysis ¡

  • Discussion/Conclusion ¡
slide-22
SLIDE 22

Goal and Evaluation

Given an input story, return a ranking of story types

  • Semi automatic setting

¡Reciprocal ¡Rank ¡(MRR) ¡ ¡

  • Classifica4on ¡

– Simula4ng ¡a ¡classifica4on ¡seRng. ¡The ¡highest ¡ranked ¡ label ¡is ¡then ¡taken ¡as ¡the ¡predicted ¡class. ¡ ¡

¡Accuracy

1 ranki

slide-23
SLIDE 23

Folktale database

  • Dutch Folktale Database

(http://www.verhalenbank.nl)

  • Over 42.000 stories
  • In our experiments: only stories written in

standard Dutch

slide-24
SLIDE 24

Dataset I

Number of stories Number of storytypes 20 40 60 20 40 60

(a) ATU

Number of stories Number of storytypes 20 40 60 20 40 60

(b) Brunvand

  • Fig. 1. Story type frequencies
slide-25
SLIDE 25

Dataset II

Index ¡ Train ¡ Dev ¡ Test ¡ Nr ¡documents ¡ 400 ¡ ¡ 75 ¡ ¡ 25 ¡ 50 ¡ Nr ¡story ¡types ¡ 98 ¡ 59 ¡ ¡ 24 ¡ 43 ¡ Index ¡ Train ¡ Dev ¡ Test ¡ Nr ¡documents ¡ 687 ¡ ¡ 175 ¡ 50 ¡ 75 ¡ Nr ¡story ¡types ¡ 125 ¡ ¡ 92 ¡ 40 ¡ 50 ¡

ATU ¡ Brunvand ¡

slide-26
SLIDE 26

Baselines: big doc

Vanishing ¡ Hitchiker ¡ Microwaved ¡ Pet ¡ Killer ¡in ¡the ¡ Backseat ¡ ¡ Killer ¡in ¡the ¡ Backseat ¡ ¡

Input ¡document ¡(query) ¡ Ranking ¡

slide-27
SLIDE 27

Baselines: small doc

Vanishing ¡ Hitchiker ¡ Microwaved ¡ Pet ¡ Killer ¡in ¡the ¡ Backseat ¡

Input ¡document ¡(query) ¡ Ranking ¡

Vanishing ¡ Hitchiker ¡ Microwaved ¡ Pet ¡ Killer ¡in ¡the ¡ Backseat ¡ When ¡taking ¡the ¡top ¡ranked ¡label ¡as ¡the ¡class, ¡ ¡this ¡is ¡the ¡same ¡as ¡a ¡Nearest ¡Neighbour ¡classifier ¡(k=1). ¡ ¡

slide-28
SLIDE 28

Results - Baseline

MRR ¡ Accuracy ¡ Smalldoc ¡ 0.7779 ¡ ¡ 0.72 ¡ ¡ Bigdoc ¡ 0.4423 ¡ ¡ 0.36 ¡ ¡ MRR ¡ Accuracy ¡ Smalldoc ¡ 0.6430 ¡ ¡ 0.56 ¡ ¡ Bigdoc ¡ 0.6411 ¡ ¡ 0.56 ¡ ¡

ATU ¡ Brunvand ¡

slide-29
SLIDE 29

Learning to Rank

  • 1. Retrieve ¡an ¡ini4al ¡set ¡of ¡candidate ¡stories ¡

(small ¡document ¡baseline). ¡ ¡

  • 2. Apply ¡learning ¡to ¡rank ¡to ¡rerank ¡the ¡top ¡50 ¡
  • candidates. ¡ ¡
  • 3. Create ¡a ¡final ¡ranked ¡list ¡of ¡story ¡types, ¡by ¡

taking ¡the ¡corresponding ¡labels ¡of ¡the ¡ranked ¡ stories ¡and ¡removing ¡duplicates.

slide-30
SLIDE 30

Features I

  • Small ¡Document ¡Scores ¡(IR) ¡

– Indicates ¡the ¡score ¡of ¡the ¡query ¡on ¡the ¡candidate ¡stories. ¡ – Fulltext ¡(BM25 ¡-­‑ ¡Full ¡text), ¡only ¡nouns ¡(BM25 ¡-­‑ ¡nouns) ¡and ¡only ¡ verbs ¡(BM25 ¡– ¡verbs) ¡

  • Big ¡Document ¡Scores ¡(Bigdoc) ¡

– Similarity ¡to ¡all ¡stories ¡of ¡the ¡candidate's ¡story ¡type ¡(bigdoc) ¡ Fulltext ¡(Bigdoc ¡-­‑ ¡BM25 ¡-­‑ ¡Full ¡text), ¡only ¡nouns ¡(Bigdoc ¡-­‑ ¡BM25 ¡-­‑ ¡ nouns) ¡and ¡only ¡verbs ¡(Bigdoc ¡-­‑ ¡BM25 ¡-­‑ ¡verbs). ¡

  • Lexical ¡Similarity ¡(LS) ¡

– Jaccard ¡and ¡TFIDF ¡similarity, ¡calculated ¡on ¡the ¡following ¡token ¡ types: ¡unigram, ¡bigrams, ¡character ¡ngrams ¡(2-­‑5), ¡chunks, ¡named ¡ en44es, ¡4me ¡and ¡loca4ons. ¡

slide-31
SLIDE 31

Features II

  • Verb(Subject, Object) triplets
  • Extracted based on dependencies obtained

using Frog parser

Lives (princess, castle)

  • Disappear(driver,) ¡

¡

slide-32
SLIDE 32

Features III

  • Matches

– Exact, Subject-Object, Verb-Object, Subject-Verb

  • Abstraction

– VerbNet

Example: ‘consider-29.9’ class in VerbNet: achten (esteem), bevinden (find), inzien (realise), menen (think/believe), veronderstellen (presume), kennen (know), wanen (falsely believe), denken (think)

slide-33
SLIDE 33

Feature Analysis I

MRR ¡ Accuracy ¡ Baseline ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(smalldoc) ¡ ¡ 0.7779 ¡ ¡ 0.72 ¡ ¡ + ¡Bigdoc ¡ ¡ 0.8367 ¡ ¡ 0.78 ¡ ¡ + ¡IR ¡ ¡ 0.8049 ¡ ¡ 0.76 ¡ ¡ + ¡LS ¡ 0.7921 ¡ ¡ 0.72 ¡ ¡ + ¡Triplets ¡ ¡ 0.8016 ¡ ¡ 0.72 ¡ ¡ All ¡ 0.8569 ¡ ¡ 0.82 ¡ ¡ MRR ¡ Accuracy ¡ Baseline ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(smalldoc) ¡ ¡ 0.6430 ¡ 0.56 ¡ + ¡Bigdoc ¡ ¡ 0.7933 ¡ 0.72 ¡ + ¡IR ¡ ¡ 0.7247 ¡ 0.61 ¡ + ¡LS ¡ 0.6810 ¡ 0.60 ¡ + ¡Triplets ¡ ¡ 0.6600 ¡ 0.59 ¡ All ¡ 0.8132 ¡ 0.76 ¡

ATU ¡ Brunvand ¡

slide-34
SLIDE 34

Feature Analysis II

Feature ¡ Weight ¡ Bigdoc: ¡BM25 ¡-­‑ ¡nouns ¡ ¡ 0.179 ¡ ¡ Bigdoc: ¡BM25 ¡-­‑ ¡full ¡text ¡ ¡ 0.158 ¡ ¡ LS: ¡unigrams ¡-­‑ ¡TFIDF ¡ ¡ 0.109 ¡ ¡ Bigdoc: ¡BM25 ¡-­‑ ¡verbs ¡ ¡ 0.069 ¡ ¡ Triplets: ¡SO ¡match, ¡ Jaccard, ¡no ¡abstrac4on ¡ ¡ 0.063 ¡ ¡

ATU ¡ Brunvand ¡

Feature ¡ Weight ¡ Bigdoc: ¡BM25 ¡-­‑ ¡full ¡text ¡ ¡ 0.209 ¡ ¡ Bigdoc: ¡BM25 ¡-­‑ ¡nouns ¡ ¡ 0.204 ¡ ¡ LS: ¡unigrams ¡-­‑ ¡TFIDF ¡ ¡ 0.065 ¡ ¡ IR: ¡BM25 ¡-­‑ ¡nouns ¡ ¡ 0.062 ¡ ¡ Bigdoc: ¡BM25 ¡-­‑ ¡verbs ¡ ¡ 0.051 ¡ ¡

slide-35
SLIDE 35

Error analysis

  • Matches ¡based ¡on ¡style ¡instead ¡of ¡actual ¡plot. ¡

Dis4nguishing ¡narrator, ¡or ¡very ¡short ¡stories. ¡

  • ATU: ¡Also ¡matched ¡on ¡content ¡words ¡that ¡

were ¡not ¡core ¡to ¡the ¡plot. ¡Happened ¡in ¡ par4cular ¡with ¡long ¡stories. ¡

slide-36
SLIDE 36

Discussion

  • High ¡MRR ¡ ¡

– Suitable ¡for ¡a ¡semi-­‑automa4c ¡seRng, ¡where ¡ annotators ¡are ¡presented ¡with ¡a ¡ranked ¡list ¡

  • What’s ¡next? ¡ ¡Other ¡type ¡indexes, ¡dialects, ¡historical ¡
  • variants. ¡
slide-37
SLIDE 37

Summary

  • Classifica4on ¡of ¡story ¡types. ¡
  • Two ¡story ¡type ¡indexes: ¡ ¡ATU ¡and ¡Brunvand. ¡
  • Nearest ¡Neighbor ¡using ¡Learning ¡to ¡Rank ¡
  • approach. ¡
  • Combining ¡a ¡small ¡document ¡and ¡big ¡

document ¡model ¡was ¡very ¡effec4ve. ¡