Aspect Extraction with Automated Prior Knowledge Learning Zhiyuan - - PowerPoint PPT Presentation

aspect extraction with automated prior knowledge learning
SMART_READER_LITE
LIVE PREVIEW

Aspect Extraction with Automated Prior Knowledge Learning Zhiyuan - - PowerPoint PPT Presentation

Aspect Extraction with Automated Prior Knowledge Learning Zhiyuan (Brett) Chen Arjun Mukherjee Bing Liu Aspect Extraction Extracting aspect terms Aspect Terms This camera takes beautiful pictures but its price is


slide-1
SLIDE 1

Aspect Extraction with Automated Prior Knowledge Learning

Zhiyuan (Brett) Chen Arjun Mukherjee Bing Liu

slide-2
SLIDE 2

Aspect Extraction

Extracting ¡aspect ¡terms

slide-3
SLIDE 3

Aspect Terms

This ¡camera ¡takes ¡beautiful ¡ pictures ¡but ¡its ¡price ¡is ¡higher ¡ than ¡$200.

slide-4
SLIDE 4

Aspect Terms

This ¡camera ¡takes ¡beautiful ¡ pictures ¡but ¡its ¡price ¡is ¡higher ¡ than ¡$200.

slide-5
SLIDE 5

Aspect Extraction

Grouping ¡terms ¡into ¡categories Extracting ¡aspect ¡terms

slide-6
SLIDE 6

Grouping

Picture Photo Image

Aspect ¡1 Aspect ¡2

Price Cost Money

slide-7
SLIDE 7

Aspect Extraction

Input: ¡A ¡review ¡collection

  • Output: ¡A ¡set ¡of ¡aspects

(with ¡top ¡aspect ¡terms).

  • Price

Cheap Cost Money Pricy Battery Life Charge AAA Hour

Aspect ¡1 Aspect ¡2

slide-8
SLIDE 8

Topic Models to Extract Aspects

(e.g., ¡Chen ¡et ¡al., ¡2013; ¡Kim ¡et ¡al., ¡2013; ¡Lazaridou ¡et ¡al., ¡2013; ¡ Mukherjee ¡and ¡Liu, ¡2012; ¡Moghaddam ¡and ¡Ester, ¡2011; ¡Sauper ¡et ¡ al., ¡2011; ¡Lin ¡and ¡He, ¡2009; ¡Titov ¡and ¡McDonald, ¡2008; ¡Lu ¡and ¡Zhai, ¡ 2008;)

Perform ¡both ¡extracting ¡and ¡grouping

  • A ¡topic ¡is ¡basically ¡an ¡aspect
slide-9
SLIDE 9

Traditional Modeling Flow

M ¡Docs Domain ¡1

slide-10
SLIDE 10

Traditional Modeling Flow

T ¡Topics LDA M ¡Docs Domain ¡1

slide-11
SLIDE 11

Traditional Modeling Flow

T ¡Topics LDA M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2

slide-12
SLIDE 12

Traditional Modeling Flow

T ¡Topics LDA M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N

slide-13
SLIDE 13

Can we improve these topics by using them only?

slide-14
SLIDE 14

Can we improve these topics by using them only? Fully automatic No other resources No human intervention

slide-15
SLIDE 15

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Our Proposed Algorithm

slide-16
SLIDE 16

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Topic ¡Base

Our Proposed Algorithm

slide-17
SLIDE 17

Knowledge ¡Base

Learn ¡Knowledge ¡Automatically

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Topic ¡Base

Our Proposed Algorithm

slide-18
SLIDE 18

Knowledge ¡Base

Learn ¡Knowledge ¡Automatically

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Topic ¡Base

Our Proposed Algorithm

a) ¡Existing ¡ Domains

slide-19
SLIDE 19

AKL (Automated Knowledge LDA)

Knowledge ¡Base

Learn ¡Knowledge ¡Automatically

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Topic ¡Base

M ¡Docs Domain ¡1 T ¡Topics AKL M ¡Docs Domain ¡2 T ¡Topics AKL M ¡Docs Domain ¡N T ¡Topics AKL

Our Proposed Algorithm

a) ¡Existing ¡ Domains

slide-20
SLIDE 20

Knowledge ¡Base

Learn ¡Knowledge ¡Automatically

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Topic ¡Base

Our Proposed Algorithm

b) ¡New ¡ Domain

slide-21
SLIDE 21

Knowledge ¡Base

Learn ¡Knowledge ¡Automatically

M ¡Docs Domain ¡1 T ¡Topics LDA M ¡Docs Domain ¡2 T ¡Topics LDA M ¡Docs Domain ¡N T ¡Topics LDA

Topic ¡Base

M ¡Docs Domain ¡N+1 T ¡Topics AKL

Our Proposed Algorithm

b) ¡New ¡ Domain

slide-22
SLIDE 22

Why don’t we merge documents from different domains and run LDA?

slide-23
SLIDE 23

Run LDA on Merged Data

Number ¡of ¡Topics

  • Topic ¡belongs ¡to ¡which ¡domain
  • Scalability
slide-24
SLIDE 24

M ¡Docs M ¡Docs M ¡Docs M ¡Docs M ¡Docs

Run LDA on Merged Data

slide-25
SLIDE 25

Run LDA on Merged Data

Run ¡LDA

slide-26
SLIDE 26

Our Proposed Algorithm

Run ¡LDA Run ¡LDA Run ¡LDA Run ¡LDA Run ¡LDA

slide-27
SLIDE 27

T ¡Topics T ¡Topics T ¡Topics T ¡Topics T ¡Topics

Our Proposed Algorithm

slide-28
SLIDE 28

Our Proposed Algorithm

Learn ¡Knowledge

slide-29
SLIDE 29

Knowledge

Our Proposed Algorithm

Knowledge Knowledge Knowledge Knowledge

slide-30
SLIDE 30

Our Proposed Algorithm

Run ¡AKL Run ¡AKL Run ¡AKL Run ¡AKL Run ¡AKL

slide-31
SLIDE 31

Multiple ¡Senses Knowledge Reliability Learn Knowledge Automatically

slide-32
SLIDE 32

Multiple ¡Senses Knowledge Reliability Learn Knowledge Automatically

slide-33
SLIDE 33

{Light, ¡Bright} {Light, ¡Luminance} {Light, ¡Weight} {Light, ¡Heavy} Light

Multiple Senses

slide-34
SLIDE 34

Existing ¡Models ¡with ¡Multiple Senses Assume ¡single ¡sense DF-‐‑–LDA ¡(Andrzejewski ¡et ¡al., ¡2009)

  • User ¡specified ¡multiple ¡senses

MC-‐‑–LDA ¡(Chen ¡et ¡al., ¡2013)

  • Automatically ¡distinguish ¡senses ¡

when ¡extracting ¡knowledge

slide-35
SLIDE 35

Multiple ¡Senses Knowledge Reliability Topic ¡Clustering Learn knowledge Automatically

slide-36
SLIDE 36

Topic Clustering A ¡topic ¡represents ¡words ¡with ¡ similar ¡meaning ¡(but ¡noisy)

  • Group ¡topics ¡with ¡similar ¡sense ¡into ¡
  • ne ¡cluster
  • Different ¡senses ¡of ¡a ¡word ¡should ¡

be ¡split ¡into ¡different ¡clusters

slide-37
SLIDE 37

Multiple ¡Senses Knowledge Reliability Topic ¡Clustering Learn knowledge Automatically

slide-38
SLIDE 38

Topic Overlapping Every ¡product ¡domain ¡has ¡price.

  • Most ¡electronic ¡domains ¡have ¡battery.
  • Some ¡electronic ¡domains ¡share ¡screen.
slide-39
SLIDE 39

Example

Battery Life Picture Charge Battery Price Life Size Battery Charge AAA Screen

  • D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3
slide-40
SLIDE 40

Example

Battery Life Picture Charge Battery Price Life Size Battery Charge AAA Screen

  • D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3

Two ¡words ¡together ¡at ¡least ¡2 ¡times

slide-41
SLIDE 41

Example

Battery Life Picture Charge Battery Price Life Size Battery Charge AAA Screen

  • D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3

Two ¡words ¡together ¡at ¡least ¡2 ¡times

  • {Battery, ¡Life} ¡and ¡{Battery, ¡Charge}
slide-42
SLIDE 42

Multiple ¡Senses Knowledge Reliability Topic ¡Clustering Frequent ¡Itemset ¡ Mining Learn knowledge Automatically

slide-43
SLIDE 43

Frequent Itemset Mining (FIM) Each ¡topic ¡is ¡a ¡transaction

  • Find ¡frequent ¡patterns ¡satisfy ¡

minimum ¡support ¡thresholds

  • Each ¡pattern ¡contains ¡2 ¡terms
slide-44
SLIDE 44

Knowledge Representation In ¡the ¡form ¡of ¡knowledge ¡clusters ¡(KC)

  • Each ¡KC ¡has ¡a ¡list ¡of ¡frequent ¡2-‐‑–

patterns

  • KC1: ¡{battery, ¡life}, ¡{battery, ¡charge}, ¡

{battery, ¡hour}, ¡{charge, ¡hour}

slide-45
SLIDE 45

AKL (Automated Knowledge LDA) Incorporate ¡ Knowledge Wrong ¡Know. ¡ Towards ¡Domain

slide-46
SLIDE 46

AKL Model Add ¡variable ¡c Incorporate ¡ Knowledge Wrong ¡Know. ¡ Towards ¡Domain

slide-47
SLIDE 47

AKL Plate Notation

c: ¡knowledge ¡cluster

slide-48
SLIDE 48

AKL Plate Notation

c: ¡knowledge ¡cluster

slide-49
SLIDE 49

AKL Plate Notation

c: ¡knowledge ¡cluster

slide-50
SLIDE 50

AKL Plate Notation

c: ¡knowledge ¡cluster

slide-51
SLIDE 51

AKL Model Add ¡variable ¡c GPU ¡Model Incorporate ¡ Knowledge Wrong ¡Know. ¡ Towards ¡Domain

slide-52
SLIDE 52

Topic ¡0 price

LDA with SPU (Simple Pólya Urn Model)

slide-53
SLIDE 53

Topic ¡0 price price

LDA with SPU (Simple Pólya Urn Model)

slide-54
SLIDE 54

Topic ¡0 price

AKL with GPU (Generalized Pólya Urn Model)

slide-55
SLIDE 55

Topic ¡0 price price cheap

{price, ¡cheap}

AKL with GPU (Generalized Pólya Urn Model)

slide-56
SLIDE 56

AKL Model Add ¡variable ¡c GPU ¡Model Incorporate ¡ Knowledge Wrong ¡Know. ¡ Towards ¡Domain

slide-57
SLIDE 57

Wrong Know. Towards Domain

Wrong ¡because ¡of ¡TM ¡mistakes {Price, ¡Picture}

  • Wrong ¡towards ¡a ¡particular ¡domain ¡

{Light, ¡Bright} {Light, ¡Weight}

slide-58
SLIDE 58

AKL Model Add ¡variable ¡c GPU ¡Model Co-‐‑–Document ¡ Frequency ¡Ratio Incorporate ¡ Knowledge Wrong ¡Know. ¡ Towards ¡Domain

slide-59
SLIDE 59

Co-Document Frequency Ratio

slide-60
SLIDE 60

Co-Document Frequency Ratio

  • Estimated ¡in ¡the ¡current ¡domain
slide-61
SLIDE 61

Co-Document Frequency Ratio

  • Estimated ¡in ¡the ¡current ¡domain
  • {Price, ¡Cheap}

{Price, ¡Image}

slide-62
SLIDE 62

Evaluation

slide-63
SLIDE 63

Evaluation

36 ¡product ¡domains. ¡Each ¡ domain:

1000 ¡Reviews 15 ¡Topics

Evaluation Human Objective

slide-64
SLIDE 64

Model Comparison

LDA ¡(Blei ¡et ¡al., ¡2003) GK-‐‑–LDA ¡(Chen ¡et ¡al., ¡2013)

  • MC-‐‑–LDA ¡(Chen ¡et ¡al., ¡2013)
slide-65
SLIDE 65

Model Comparison

LDA ¡(Blei ¡et ¡al., ¡2003) GK-‐‑–LDA ¡(Chen ¡et ¡al., ¡2013)

  • Feed ¡them ¡with ¡the ¡knowledge ¡

from ¡our ¡algorithm MC-‐‑–LDA ¡(Chen ¡et ¡al., ¡2013)

slide-66
SLIDE 66

Objective Evaluation

  • 1510
  • 1490
  • 1470
  • 1450
  • 1430

1 2 3 4 5 6 Topic Coherence

AKL GK-LDA MC-LDA LDA

slide-67
SLIDE 67

Example Aspects

slide-68
SLIDE 68

Human Evaluation

0.6 0.7 0.8 0.9 1.0

Camera Computer Headphone GPS

Precision @ 5 AKL GK-LDA MC-LDA LDA

slide-69
SLIDE 69

Human Evaluation

0.6 0.7 0.8 0.9 1.0

Camera Computer Headphone GPS

Precision @ 10 AKL GK-LDA MC-LDA LDA

slide-70
SLIDE 70

Number of Topic Clusters

  • 1510
  • 1490
  • 1470
  • 1450
  • 1430

20 30 40 50 60 70 Topic Coherence #Clusters

slide-71
SLIDE 71

Conclusions

To ¡extract ¡better ¡aspects

  • Learn ¡knowledge ¡automatically
  • AKL: ¡Leverage ¡automated ¡knowledge
slide-72
SLIDE 72

Multiple ¡Senses Knowledge Reliability Learn knowledge Automatically Topic ¡Clustering Frequent ¡Itemset ¡ Mining

slide-73
SLIDE 73

AKL Model Add ¡variable ¡c GPU ¡Model Co-‐‑–Document ¡ Frequency ¡Ratio Incorporate ¡ Knowledge Wrong ¡Know. ¡ Towards ¡Domain

slide-74
SLIDE 74

Q&A