Mul$-Modal Bayesian Embeddings for Learning Social Knowledge - - PowerPoint PPT Presentation

mul modal bayesian embeddings for learning social
SMART_READER_LITE
LIVE PREVIEW

Mul$-Modal Bayesian Embeddings for Learning Social Knowledge - - PowerPoint PPT Presentation

Mul$-Modal Bayesian Embeddings for Learning Social Knowledge Graphs Zhilin Yang 12 , Jie Tang 1 , William W. Cohen 2 1 Tsinghua University 2 Carnegie Mellon


slide-1
SLIDE 1

Mul$-­‑Modal ¡Bayesian ¡Embeddings ¡for ¡ Learning ¡Social ¡Knowledge ¡Graphs ¡

Zhilin ¡Yang12, ¡Jie ¡Tang1, ¡William ¡W. ¡Cohen2 ¡

1Tsinghua ¡University ¡ 2Carnegie ¡Mellon ¡University ¡

slide-2
SLIDE 2

AMiner: ¡academic ¡social ¡network ¡

Research ¡interests ¡

slide-3
SLIDE 3

Text-­‑Based ¡Approach ¡

List ¡of ¡publica$ons ¡ Research ¡interests ¡ Infer ¡

slide-4
SLIDE 4

Text-­‑Based ¡Approach ¡

Term ¡Frequency ¡=> ¡“challenging ¡problem” ¡ TF-­‑IDF ¡=> ¡“line ¡drawing” ¡

slide-5
SLIDE 5

Knowledge-­‑Driven ¡ Approach ¡

List ¡of ¡publica$ons ¡ Research ¡interests ¡ Infer ¡

Ar>ficial ¡Intelligence ¡ Data ¡Mining ¡ Machine ¡ Learning ¡ Clustering ¡ Associa>on ¡ Rules ¡

Knowledge ¡bases ¡

slide-6
SLIDE 6

Problem: ¡ Learning ¡Social ¡Knowledge ¡Graphs ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡ Natural ¡Language ¡ Processing ¡ Deep ¡Learning ¡ for ¡NLP ¡ Recurrent ¡ networks ¡for ¡NER ¡ Deep ¡Learning ¡

slide-7
SLIDE 7

Problem: ¡ Learning ¡Social ¡Knowledge ¡Graphs ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡ Natural ¡Language ¡ Processing ¡ Deep ¡Learning ¡ for ¡NLP ¡

Social ¡network ¡structure ¡ Social ¡text ¡ Knowledge ¡base ¡

Recurrent ¡ networks ¡for ¡NER ¡ Deep ¡Learning ¡

slide-8
SLIDE 8

Problem: ¡ Learning ¡Social ¡Knowledge ¡Graphs ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡ Deep ¡Learning ¡ Natural ¡Language ¡ Processing ¡ Deep ¡Learning ¡ for ¡NLP ¡ Recurrent ¡ networks ¡for ¡NER ¡

Infer ¡a ¡ranked ¡list ¡of ¡concepts ¡ Kevin: ¡Deep ¡Learning, ¡Natural ¡Language ¡Processing ¡ Jing: ¡Recurrent ¡Networks, ¡Named ¡En$ty ¡Recogni$on ¡

slide-9
SLIDE 9

Challenges ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡ Natural ¡Language ¡ Processing ¡ Deep ¡Learning ¡ for ¡NLP ¡ Recurrent ¡ networks ¡for ¡NER ¡ Deep ¡Learning ¡

Two ¡modali$es ¡– ¡users ¡and ¡concepts ¡ How ¡to ¡leverage ¡informa$on ¡from ¡both ¡modali$es? ¡ How ¡to ¡connect ¡these ¡two ¡modali$es? ¡

slide-10
SLIDE 10

Approach ¡

Jane ¡ Kevin ¡ Jing ¡ Deep ¡Learning ¡ for ¡NLP ¡ Recurrent ¡ networks ¡for ¡NER ¡

Natural ¡Language ¡ Processing ¡ Deep ¡Learning ¡

Learn ¡user ¡embeddings ¡ Learn ¡concept ¡embeddings ¡ Social ¡KG ¡

Model ¡

slide-11
SLIDE 11

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

User ¡Embedding ¡ Concept ¡Embedding ¡

slide-12
SLIDE 12

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

User ¡Embedding ¡ Concept ¡Embedding ¡ Gaussian ¡distribu$on ¡ for ¡user ¡embeddings ¡ Gaussian ¡distribu$on ¡ for ¡concept ¡embeddings ¡ Align ¡users ¡and ¡ concepts ¡

slide-13
SLIDE 13

Inference ¡and ¡Learning ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Collapsed ¡Gibbs ¡sampling ¡ Iterate ¡between: ¡

  • 1. Sample ¡latent ¡variables ¡
slide-14
SLIDE 14

Inference ¡and ¡Learning ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Iterate ¡between: ¡

  • 1. Sample ¡latent ¡variables ¡
  • 2. Update ¡parameters ¡

Collapsed ¡Gibbs ¡sampling ¡

slide-15
SLIDE 15

Inference ¡and ¡Learning ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Iterate ¡between: ¡

  • 1. Sample ¡latent ¡variables ¡
  • 2. Update ¡parameters ¡
  • 3. Update ¡embeddings ¡

Collapsed ¡Gibbs ¡sampling ¡

slide-16
SLIDE 16

AMiner ¡Research ¡Interest ¡Dataset ¡

Ø 644,985 ¡researchers ¡ Ø Terms ¡in ¡these ¡researchers’ ¡publica>ons ¡ § Filtered ¡with ¡Wikipedia ¡ Ø Evalua>on ¡ § Homepage ¡matching ¡

  • 1,874 ¡researchers ¡
  • Using ¡homepages ¡as ¡ground ¡truth ¡

§ LinkedIn ¡matching ¡

  • 113 ¡researchers ¡
  • Using ¡LinkedIn ¡skills ¡as ¡ground ¡truth ¡

Code ¡and ¡data ¡available: ¡

h\ps://github.com/kimiyoung/genvector ¡

slide-17
SLIDE 17

Homepage ¡Matching ¡

Method ¡ Precision@5 ¡ GenVector ¡ 78.1003% ¡ GenVector-­‑E ¡ 77.8548% ¡ Sys-­‑Base ¡ 73.8189% ¡ Author-­‑Topic ¡ 74.4397% ¡ NTN ¡ 65.8911% ¡ CountKG ¡ 54.4823% ¡ Using ¡homepages ¡as ¡ground ¡truth. ¡

GenVector ¡ Our ¡model ¡ GenVector-­‑E ¡ Our ¡model ¡w/o ¡embedding ¡update ¡ Sys-­‑Base ¡ AMiner ¡baseline: ¡key ¡term ¡extrac>on ¡ CountKG ¡ Rank ¡by ¡frequency ¡ Author-­‑topic ¡ Classic ¡topic ¡models ¡ NTN ¡ Neural ¡tensor ¡networks ¡

slide-18
SLIDE 18

LinkedIn ¡Matching ¡

Method ¡ Precision@5 ¡ GenVector ¡ 50.4424% ¡ GenVector-­‑E ¡ 49.9145% ¡ Author-­‑Topic ¡ 47.6106% ¡ NTN ¡ 42.0512% ¡ CountKG ¡ 46.8376% ¡

GenVector ¡ Our ¡model ¡ GenVector-­‑E ¡ Our ¡model ¡w/o ¡embedding ¡update ¡ CountKG ¡ Rank ¡by ¡frequency ¡ Author-­‑topic ¡ Classic ¡topic ¡models ¡ NTN ¡ Neural ¡tensor ¡networks ¡

Using ¡LinkedIn ¡skills ¡as ¡ground ¡truth. ¡

slide-19
SLIDE 19

Error ¡Rate ¡of ¡Irrelevant ¡Cases ¡

Method ¡ Error ¡rate ¡ GenVector ¡ 1.2% ¡ Sys-­‑Base ¡ 18.8% ¡ Author-­‑Topic ¡ 1.6% ¡ NTN ¡ 7.2% ¡ Manually ¡label ¡terms ¡that ¡are ¡clearly ¡NOT ¡research ¡ interests, ¡e.g., ¡challenging ¡problem. ¡

GenVector ¡ Our ¡model ¡ Sys-­‑Base ¡ AMiner ¡baseline: ¡key ¡term ¡extrac>on ¡ Author-­‑topic ¡ Classic ¡topic ¡models ¡ NTN ¡ Neural ¡tensor ¡networks ¡

slide-20
SLIDE 20

Qualita$ve ¡Study: ¡ Top ¡Concepts ¡within ¡Topics ¡

Query ¡expansion ¡ Concept ¡mining ¡ Language ¡modeling ¡ Informa>on ¡extrac>on ¡ Knowledge ¡extrac>on ¡ En>ty ¡linking ¡ Language ¡models ¡ Named ¡en>ty ¡recogni>on ¡ Document ¡clustering ¡ Latent ¡seman>c ¡indexing ¡

GenVector ¡

Speech ¡recogni>on ¡ Natural ¡language ¡ *Integrated ¡circuits ¡ Document ¡retrieval ¡ Language ¡models ¡ Language ¡model ¡ *Microphone ¡array ¡ Computa>onal ¡linguis>cs ¡ *Semidefinite ¡programming ¡ Ac>ve ¡learning ¡

Author-­‑Topic ¡

slide-21
SLIDE 21

Qualita$ve ¡Study: ¡ Top ¡Concepts ¡within ¡Topics ¡

Image ¡processing ¡ Face ¡recogni>on ¡ Feature ¡extrac>on ¡ Computer ¡vision ¡ Image ¡segmenta>on ¡ Image ¡analysis ¡ Feature ¡detec>on ¡ Digital ¡image ¡processing ¡ Machine ¡learning ¡algorithms ¡ Machine ¡vision ¡

GenVector ¡

Face ¡recogni>on ¡ *Food ¡intake ¡ Face ¡detec>on ¡ Image ¡recogni>on ¡ *Atmospheric ¡chemistry ¡ Feature ¡extrac>on ¡ Sta>s>cal ¡learning ¡ Discriminant ¡analysis ¡ Object ¡tracking ¡ *Human ¡factors ¡

Author-­‑Topic ¡

slide-22
SLIDE 22

Qualita$ve ¡Study: ¡ Research ¡Interests ¡

Feature ¡extrac>on ¡ Image ¡segmenta>on ¡ Image ¡matching ¡ Image ¡classifica>on ¡ Face ¡recogni>on ¡

GenVector ¡

Face ¡recogni>on ¡ Face ¡image ¡ *Novel ¡approach ¡ *Line ¡drawing ¡ Discriminant ¡analysis ¡

Sys-­‑Base ¡

slide-23
SLIDE 23

Qualita$ve ¡Study: ¡ Research ¡Interests ¡

Unsupervised ¡learning ¡ Feature ¡learning ¡ Bayesian ¡networks ¡ Reinforcement ¡learning ¡ Dimensionality ¡reduc>on ¡

GenVector ¡

*Challenging ¡problem ¡ Reinforcement ¡learning ¡ *Autonomous ¡helicopter ¡ *Autonomous ¡helicopter ¡flight ¡ Near-­‑op>mal ¡planning ¡

Sys-­‑Base ¡

slide-24
SLIDE 24

Online ¡Test ¡

Method ¡ Error ¡rate ¡ GenVector ¡ 3.33% ¡ Sys-­‑Base ¡ 10.00% ¡ A/B ¡test ¡with ¡live ¡users ¡ § Mixing ¡the ¡results ¡with ¡Sys-­‑Base ¡

slide-25
SLIDE 25

Other ¡Social ¡Networks? ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡ Natural ¡Language ¡ Processing ¡ Deep ¡Learning ¡ for ¡NLP ¡

Social ¡network ¡structure ¡ Social ¡text ¡ Knowledge ¡base ¡

Recurrent ¡ networks ¡for ¡NER ¡ Deep ¡Learning ¡

slide-26
SLIDE 26

Conclusion ¡

Ø Study ¡a ¡novel ¡problem ¡ § Learning ¡social ¡knowledge ¡graphs ¡ Ø Propose ¡a ¡model ¡ § Mul>-­‑modal ¡Bayesian ¡embedding ¡ § Integrate ¡embeddings ¡into ¡graphical ¡models ¡ Ø AMiner ¡research ¡interest ¡dataset ¡ § 644,985 ¡researchers ¡ § Homepage ¡and ¡LinkedIn ¡matching ¡as ¡ ground ¡truth ¡ Ø Online ¡deployment ¡on ¡AMiner ¡

slide-27
SLIDE 27

Thanks! ¡

h\ps://github.com/kimiyoung/genvector ¡ ¡ Code ¡and ¡data: ¡

slide-28
SLIDE 28

Social ¡Networks ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡

AMiner, ¡Facebook, ¡Twi\er… ¡ ¡ Huge ¡amounts ¡of ¡informa$on ¡

slide-29
SLIDE 29

Knowledge ¡Bases ¡

Computer ¡Science ¡ Ar>ficial ¡Intelligence ¡ System ¡ Deep ¡Learning ¡ Natural ¡Language ¡ Processing ¡

Wikipedia, ¡Freebase, ¡Yago, ¡NELL… ¡ ¡ Huge ¡amounts ¡of ¡knowledge ¡

slide-30
SLIDE 30

Bridge ¡the ¡Gap ¡

Mike ¡ Jane ¡ Kevin ¡ Jing ¡ Computer ¡Science ¡ Ar>ficial ¡Intelligence ¡ System ¡ Deep ¡Learning ¡ Natural ¡Language ¡ Processing ¡

Bejer ¡user ¡understanding ¡ ¡e.g. ¡mine ¡research ¡interests ¡on ¡AMiner ¡

slide-31
SLIDE 31

Approach ¡

Social ¡network ¡ Knowledge ¡base ¡ User ¡embeddings ¡ Concept ¡ embeddings ¡ Social ¡KG ¡ Model ¡ Social ¡text ¡

Copy ¡picture ¡

slide-32
SLIDE 32

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Documents ¡(one ¡per ¡user) ¡ Concepts ¡for ¡the ¡user ¡ Parameters ¡for ¡topics ¡

slide-33
SLIDE 33

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Generate ¡a ¡topic ¡distribu$on ¡for ¡each ¡document ¡(from ¡a ¡Dirichlet) ¡

slide-34
SLIDE 34

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Generate ¡Gaussian ¡distribu$on ¡for ¡each ¡embedding ¡space ¡(from ¡a ¡ Normal ¡Gamma) ¡

slide-35
SLIDE 35

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Generate ¡the ¡topic ¡for ¡each ¡concept ¡(from ¡a ¡Mul$nomial) ¡

slide-36
SLIDE 36

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Generate ¡the ¡topic ¡for ¡each ¡user ¡(from ¡a ¡Uniform) ¡

slide-37
SLIDE 37

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

Generate ¡embeddings ¡for ¡users ¡and ¡concepts ¡(from ¡a ¡Gaussian) ¡

slide-38
SLIDE 38

Model ¡

T θ

D

f r f k

M

µr λ

r

µk

λ k

z

M y

T

τ r

τ k

α

General ¡

slide-39
SLIDE 39

Inference ¡and ¡Learning ¡

Collapsed ¡Gibbs ¡sampling ¡for ¡inference ¡ Update ¡the ¡embedding ¡during ¡learning ¡ ¡Different ¡from ¡LDAs ¡with ¡discrete ¡observed ¡variables ¡

Sample ¡latent ¡ variables ¡ Update ¡ parameters ¡ Update ¡ Embeddings ¡

Add ¡picture ¡

slide-40
SLIDE 40

Methods ¡for ¡Comparison ¡

Method ¡ Descrip$on ¡ GenVector ¡ Our ¡model ¡ GenVector-­‑E ¡ Our ¡model ¡w/o ¡embedding ¡update ¡ Sys-­‑Base ¡ AMiner ¡baseline: ¡key ¡term ¡extrac>on ¡ CountKG ¡ Rank ¡by ¡frequency ¡ Author-­‑topic ¡ Classic ¡topic ¡models ¡ NTN ¡ Neural ¡tensor ¡networks ¡