From Big Text to Big Knowledge Partha Talukdar Machine And Language - - PowerPoint PPT Presentation

from big text to big knowledge
SMART_READER_LITE
LIVE PREVIEW

From Big Text to Big Knowledge Partha Talukdar Machine And Language - - PowerPoint PPT Presentation

From Big Text to Big Knowledge Partha Talukdar Machine And Language Learning (MALL) Lab SERC & CSA, Indian Institute of Science Matt Gardner Bryan Kisiel Tom Mitchell Derry Wijaya Carnegie Mellon University IISc Overview Indian


slide-1
SLIDE 1

Derry Wijaya Tom Mitchell Partha Talukdar Machine And Language Learning (MALL) Lab SERC & CSA, Indian Institute of Science Matt Gardner Bryan Kisiel

From Big Text to Big Knowledge

Carnegie Mellon University

slide-2
SLIDE 2

IISc Overview

slide-3
SLIDE 3

Indian Institute of Science (IISc), Bangalore

  • Top research institute in India
  • Exceptional research freedom
  • Various programs: PhD, MSc,

Integrated PhD, MTech

  • Beautiful campus, great city
slide-4
SLIDE 4

6

CSA : RESEARCH AREAS

MACHINE LEARNING, AI, PATTERN RECOGNITION, DATA MINING, ANALYTICS, NLP

  • M. N. Murty, Chiranjib Bhattacharyya

Shirish Shevade, Shalabh Bhatnagar, Susheela Devi, Shivani Agarwal, Ambedkar, Partha Talukdar

GAME THEORY AND MECHANISM DESIGN

  • Y. Narahari,

Shalabh Bhatnagar, Shirish Shevade Shivani Agarwal

STOCHASTIC CONTROL AND OPTIMIZATION, REINFORCEMENT LEARNING

Shalabh Bhatnagar, Ambedkar, Chairanjib Bhattacharya, Shivani Agarwal

ALGORITHMS, COMPLEXITY, GRAPH THEORY, COMBINATORICS, GEOMETRY

Sunil Chandran, Satish Govindarajan, Vijay , Chandan, Arnab,

  • R. Hariharan, R.Kannan, Neeldhara
  • INFO. THEORY,

CODING, ALGORITHMIC ALGEBRA

  • D. Ambedkar, Arnab,

PVK, D. Patil, Bhavana

AUTOMATA THEORY, FORMAL METHODS, LOGICS

Deepak D’Souza, Aditya Kanade, K.V. Raghavan,

  • K. Gopinath
  • PROG. LANGUAGES,

COMPILERS, SOFTWARE ENGINEERING

  • Y. N. Srikant, K.V. Raghavan,

Aditya Kanade, Murali Krishna, Uday Kumar, D. D’Souza,

  • R. Govindarajan,K. Gopinath,

ARCHITECTURE, OS, STORAGE, NETWORKS, DISTRIBUTED COMPUTING

Matthew Jacob, R. Govindarajan,

  • K. Gopinath, R.C. Hansdah, Shalabh,

Uday Kumar, Murali Krishna, Arpita, Bhavana

DATABASE SYSTEMS

Jayant Haritsa, R.C. Hansdah,
 Partha Talukdar

CRYPTOLOGY, SECURITY

Sanjit Chatterjee, Arpita, Bhavana,

  • K. Gopinath,

R.C. Hansdah

VISUALIZATION, GRAPHICS,

  • COMP. TOPOLOGY

Vijay Natarajan Satish Govindarajan

slide-5
SLIDE 5

6

CSA : RESEARCH AREAS

MACHINE LEARNING, AI, PATTERN RECOGNITION, DATA MINING, ANALYTICS, NLP

  • M. N. Murty, Chiranjib Bhattacharyya

Shirish Shevade, Shalabh Bhatnagar, Susheela Devi, Shivani Agarwal, Ambedkar, Partha Talukdar

GAME THEORY AND MECHANISM DESIGN

  • Y. Narahari,

Shalabh Bhatnagar, Shirish Shevade Shivani Agarwal

STOCHASTIC CONTROL AND OPTIMIZATION, REINFORCEMENT LEARNING

Shalabh Bhatnagar, Ambedkar, Chairanjib Bhattacharya, Shivani Agarwal

ALGORITHMS, COMPLEXITY, GRAPH THEORY, COMBINATORICS, GEOMETRY

Sunil Chandran, Satish Govindarajan, Vijay , Chandan, Arnab,

  • R. Hariharan, R.Kannan, Neeldhara
  • INFO. THEORY,

CODING, ALGORITHMIC ALGEBRA

  • D. Ambedkar, Arnab,

PVK, D. Patil, Bhavana

AUTOMATA THEORY, FORMAL METHODS, LOGICS

Deepak D’Souza, Aditya Kanade, K.V. Raghavan,

  • K. Gopinath
  • PROG. LANGUAGES,

COMPILERS, SOFTWARE ENGINEERING

  • Y. N. Srikant, K.V. Raghavan,

Aditya Kanade, Murali Krishna, Uday Kumar, D. D’Souza,

  • R. Govindarajan,K. Gopinath,

ARCHITECTURE, OS, STORAGE, NETWORKS, DISTRIBUTED COMPUTING

Matthew Jacob, R. Govindarajan,

  • K. Gopinath, R.C. Hansdah, Shalabh,

Uday Kumar, Murali Krishna, Arpita, Bhavana

DATABASE SYSTEMS

Jayant Haritsa, R.C. Hansdah,
 Partha Talukdar

CRYPTOLOGY, SECURITY

Sanjit Chatterjee, Arpita, Bhavana,

  • K. Gopinath,

R.C. Hansdah

THEORY

VISUALIZATION, GRAPHICS,

  • COMP. TOPOLOGY

Vijay Natarajan Satish Govindarajan

slide-6
SLIDE 6

6

CSA : RESEARCH AREAS

MACHINE LEARNING, AI, PATTERN RECOGNITION, DATA MINING, ANALYTICS, NLP

  • M. N. Murty, Chiranjib Bhattacharyya

Shirish Shevade, Shalabh Bhatnagar, Susheela Devi, Shivani Agarwal, Ambedkar, Partha Talukdar

GAME THEORY AND MECHANISM DESIGN

  • Y. Narahari,

Shalabh Bhatnagar, Shirish Shevade Shivani Agarwal

STOCHASTIC CONTROL AND OPTIMIZATION, REINFORCEMENT LEARNING

Shalabh Bhatnagar, Ambedkar, Chairanjib Bhattacharya, Shivani Agarwal

ALGORITHMS, COMPLEXITY, GRAPH THEORY, COMBINATORICS, GEOMETRY

Sunil Chandran, Satish Govindarajan, Vijay , Chandan, Arnab,

  • R. Hariharan, R.Kannan, Neeldhara
  • INFO. THEORY,

CODING, ALGORITHMIC ALGEBRA

  • D. Ambedkar, Arnab,

PVK, D. Patil, Bhavana

AUTOMATA THEORY, FORMAL METHODS, LOGICS

Deepak D’Souza, Aditya Kanade, K.V. Raghavan,

  • K. Gopinath
  • PROG. LANGUAGES,

COMPILERS, SOFTWARE ENGINEERING

  • Y. N. Srikant, K.V. Raghavan,

Aditya Kanade, Murali Krishna, Uday Kumar, D. D’Souza,

  • R. Govindarajan,K. Gopinath,

ARCHITECTURE, OS, STORAGE, NETWORKS, DISTRIBUTED COMPUTING

Matthew Jacob, R. Govindarajan,

  • K. Gopinath, R.C. Hansdah, Shalabh,

Uday Kumar, Murali Krishna, Arpita, Bhavana

DATABASE SYSTEMS

Jayant Haritsa, R.C. Hansdah,
 Partha Talukdar

CRYPTOLOGY, SECURITY

Sanjit Chatterjee, Arpita, Bhavana,

  • K. Gopinath,

R.C. Hansdah

THEORY COMPUTER SYSTEMS

VISUALIZATION, GRAPHICS,

  • COMP. TOPOLOGY

Vijay Natarajan Satish Govindarajan

slide-7
SLIDE 7

6

CSA : RESEARCH AREAS

MACHINE LEARNING, AI, PATTERN RECOGNITION, DATA MINING, ANALYTICS, NLP

  • M. N. Murty, Chiranjib Bhattacharyya

Shirish Shevade, Shalabh Bhatnagar, Susheela Devi, Shivani Agarwal, Ambedkar, Partha Talukdar

GAME THEORY AND MECHANISM DESIGN

  • Y. Narahari,

Shalabh Bhatnagar, Shirish Shevade Shivani Agarwal

STOCHASTIC CONTROL AND OPTIMIZATION, REINFORCEMENT LEARNING

Shalabh Bhatnagar, Ambedkar, Chairanjib Bhattacharya, Shivani Agarwal

ALGORITHMS, COMPLEXITY, GRAPH THEORY, COMBINATORICS, GEOMETRY

Sunil Chandran, Satish Govindarajan, Vijay , Chandan, Arnab,

  • R. Hariharan, R.Kannan, Neeldhara
  • INFO. THEORY,

CODING, ALGORITHMIC ALGEBRA

  • D. Ambedkar, Arnab,

PVK, D. Patil, Bhavana

AUTOMATA THEORY, FORMAL METHODS, LOGICS

Deepak D’Souza, Aditya Kanade, K.V. Raghavan,

  • K. Gopinath
  • PROG. LANGUAGES,

COMPILERS, SOFTWARE ENGINEERING

  • Y. N. Srikant, K.V. Raghavan,

Aditya Kanade, Murali Krishna, Uday Kumar, D. D’Souza,

  • R. Govindarajan,K. Gopinath,

ARCHITECTURE, OS, STORAGE, NETWORKS, DISTRIBUTED COMPUTING

Matthew Jacob, R. Govindarajan,

  • K. Gopinath, R.C. Hansdah, Shalabh,

Uday Kumar, Murali Krishna, Arpita, Bhavana

DATABASE SYSTEMS

Jayant Haritsa, R.C. Hansdah,
 Partha Talukdar

CRYPTOLOGY, SECURITY

Sanjit Chatterjee, Arpita, Bhavana,

  • K. Gopinath,

R.C. Hansdah

THEORY COMPUTER SYSTEMS INTELLIGENT SYSTEMS

VISUALIZATION, GRAPHICS,

  • COMP. TOPOLOGY

Vijay Natarajan Satish Govindarajan

slide-8
SLIDE 8

Publications (2008-2013)

■ Number of Publications

Books and Monographs 11

Book Chapters 25 Journal Publications 151 Conference Publications 260

■ Journals include SIAM, IEEE,

ACM, JMLR, NC, ML, JA, TCS, JGT, JCSS, I&C, DCG, JCT, SN, etc.

■ Conferences include STOC, FOCS, SODA, SOCG, ICALP, STACS,

LFCS, ISAAC, CC, ICDE, VLDB, AAMAS, NIPS, ICML, UAI, ICDM, COLT, ICPR, IJCAI, AAAI, IJCNN, SIGIR, SIGKDD, SIGMOD, WINE, SDM, ICDAR, IEEE VIS, PLDI, POPL, ICSE, OOPSLA, CGO, EMSOFT, CASES, FORMATS, SAS, SC, FAST, HotOS, HotStorage, SIGMETRICS, PPoPP, PACT

slide-9
SLIDE 9

Sponsors and Collaborators

■ Govt. of India: UGC (CAS), UGC (Infrastructure), DST-FIST, DST

SERC (12 Projects), DBT, DRDO, DIT

■ Universities: MIT, Technion, Harvard, UCB, UCD, UCSC, IITB, IITM,

CMI, ISI, JNU, TIFR, MPI, SUNY, MSU, Alberta, EURANDOM, CMI, Waterloo, Grenoble, Zurich, Leipzig, INRIA, CMU, York, Chalmers

■ Industry Collaborative Projects: IBM, Infosys, TRDDC, Motorola, GM

R & D, SUN, NetApp, AOL, Xerox, TI, Microsoft Research India, Philips, Intel, AMD, Yahoo!, SAP, Nokia, Adobe

■ Industry Faculty Awards: IBM, TRDDC, GM R & D, Microsoft

Research India, AMD, Yahoo!, Google, Bell Labs

■ Overseas Agencies: ONR, Lawrence Livermore, AOARD, Swiss

Bilateral, Indo-German, UKERI, Max-Planck

slide-10
SLIDE 10

Supercomputer Education & Research Centre (SERC)

  • A multi-disciplinary department in IISc
  • A state-of-the-art supercomputing research

facility with a cutting-edge research program

slide-11
SLIDE 11

http://www.serc.iisc.in/

slide-12
SLIDE 12

Research at SERC

slide-13
SLIDE 13

Research at SERC

Computer Systems

† CAD for VLSI † Cloud Computing † Computer Architecture † Database Systems † Distributed Systems † High Performance Computing † Information Systems † Middleware Research † Machine Learning and NLP † Parallel Computing † Visualization & Graphics † Video Analytics

slide-14
SLIDE 14

Research at SERC

Computer Systems

† CAD for VLSI † Cloud Computing † Computer Architecture † Database Systems † Distributed Systems † High Performance Computing † Information Systems † Middleware Research † Machine Learning and NLP † Parallel Computing † Visualization & Graphics † Video Analytics

Computational Science

† Computational

Electromagnetics

† Computational Photonics † Medical Imaging † Scientific Computing and

Mathematical Libraries

† Computational Fluid

Dynamics

† Computational Biology and

Bioinformatics

† Quantum Computing

slide-15
SLIDE 15

Machine Learning @ IISc

  • 13+ faculty from multiple departments (CSA, SERC,

ECE, EE)

  • Highly active research group, strong international

presence

  • http://drona.csa.iisc.ernet.in/~mlcenter/index.html
slide-16
SLIDE 16

Research Programs at IISc

† Ph.D. and M.Sc [Engg] † Min. Qualification:

➢ ME / M Tech or BE / B Tech or equivalent degree in any

Engineering discipline or

➢ M Sc or equivalent degree in Mathematics, Physics,

Statistics, Electronics, Instrumentation or Computer Sciences or

➢ Master’s in Computer Application.

† Selection process

➢ Shortlisting (GATE scores) and Interview

slide-17
SLIDE 17

Research Programs at IISc

† Ph.D. and M.Sc [Engg] † Min. Qualification:

➢ ME / M Tech or BE / B Tech or equivalent degree in any

Engineering discipline or

➢ M Sc or equivalent degree in Mathematics, Physics,

Statistics, Electronics, Instrumentation or Computer Sciences or

➢ Master’s in Computer Application.

† Selection process

➢ Shortlisting (GATE scores) and Interview

Come Join Us!

slide-18
SLIDE 18

Back to Text & Knowledge

slide-19
SLIDE 19

Thesis

13

Background knowledge is key to Intelligent Decision Making

slide-20
SLIDE 20

Thesis

13

Background knowledge is key to Intelligent Decision Making

slide-21
SLIDE 21

Thesis

13

Background knowledge is key to Intelligent Decision Making

?

slide-22
SLIDE 22

Thesis

13

Background knowledge is key to Intelligent Decision Making

?

slide-23
SLIDE 23

Thesis

13

Background knowledge is key to Intelligent Decision Making

inventedCharacter

slide-24
SLIDE 24

Explosion ¡of ¡Unstructured ¡Text ¡Data

14

slide-25
SLIDE 25

Explosion ¡of ¡Unstructured ¡Text ¡Data

14 Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html

300 ¡million ¡new ¡websites ¡added ¡in ¡2011 ¡

alone ¡(a ¡117% ¡growth) ¡ ¡

slide-26
SLIDE 26

Explosion ¡of ¡Unstructured ¡Text ¡Data 500 ¡million ¡Tweets ¡per ¡day ¡(circa ¡Oct ¡2012)

14 Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html

300 ¡million ¡new ¡websites ¡added ¡in ¡2011 ¡

alone ¡(a ¡117% ¡growth) ¡ ¡

slide-27
SLIDE 27

Explosion ¡of ¡Unstructured ¡Text ¡Data 500 ¡million ¡Tweets ¡per ¡day ¡(circa ¡Oct ¡2012)

Time ¡to ¡read ¡for ¡one ¡person: ¡31years

14 Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html

300 ¡million ¡new ¡websites ¡added ¡in ¡2011 ¡

alone ¡(a ¡117% ¡growth) ¡ ¡

slide-28
SLIDE 28

Explosion ¡of ¡Unstructured ¡Text ¡Data 500 ¡million ¡Tweets ¡per ¡day ¡(circa ¡Oct ¡2012)

Time ¡to ¡read ¡for ¡one ¡person: ¡31years

14 Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html

300 ¡million ¡new ¡websites ¡added ¡in ¡2011 ¡

alone ¡(a ¡117% ¡growth) ¡ ¡

Need ¡to ¡harvest ¡knowledge ¡from ¡ unstructured ¡text ¡data

slide-29
SLIDE 29

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15

slide-30
SLIDE 30

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15

... Luke Ravenstahl is the current Mayor of Pittsburgh ... ... After the death of then-mayor Bob O’Connor, Luke Ravenstahl became the mayor in September 2006 ...

Document 1 Document 2

slide-31
SLIDE 31

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15 Person Luke ¡Ravenstahl Bob ¡O’Connor

... Luke Ravenstahl is the current Mayor of Pittsburgh ... ... After the death of then-mayor Bob O’Connor, Luke Ravenstahl became the mayor in September 2006 ...

Document 1 Document 2

slide-32
SLIDE 32

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15 Person Luke ¡Ravenstahl Bob ¡O’Connor LocaBon PiIsburgh

... Luke Ravenstahl is the current Mayor of Pittsburgh ... ... After the death of then-mayor Bob O’Connor, Luke Ravenstahl became the mayor in September 2006 ...

Document 1 Document 2

slide-33
SLIDE 33

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15 Person Luke ¡Ravenstahl Bob ¡O’Connor LocaBon PiIsburgh

MayorOf MayorOf

... Luke Ravenstahl is the current Mayor of Pittsburgh ... ... After the death of then-mayor Bob O’Connor, Luke Ravenstahl became the mayor in September 2006 ...

Document 1 Document 2

slide-34
SLIDE 34

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15 Person MayorOf Bob ¡O’Connor PiIsburgh

Valid ¡UnLl ¡Sep/2006

... Luke Ravenstahl is the current Mayor of Pittsburgh ... ... After the death of then-mayor Bob O’Connor, Luke Ravenstahl became the mayor in September 2006 ...

Document 1 Document 2

slide-35
SLIDE 35

What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text?

15 Person MayorOf Bob ¡O’Connor PiIsburgh

Valid ¡UnLl ¡Sep/2006

Person MayorOf Luke ¡Ravenstahl PiIsburgh

Valid ¡From ¡Sep/2006

... Luke Ravenstahl is the current Mayor of Pittsburgh ... ... After the death of then-mayor Bob O’Connor, Luke Ravenstahl became the mayor in September 2006 ...

Document 1 Document 2

slide-36
SLIDE 36

Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph

16

slide-37
SLIDE 37

Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph

16 Improved Web Search Experience, facilitated by Harvested Knowledge

slide-38
SLIDE 38

Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph

16 Improved Web Search Experience, facilitated by Harvested Knowledge No Structured Information

slide-39
SLIDE 39

Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph

16 Improved Web Search Experience, facilitated by Harvested Knowledge No Structured Information

http://venturebeat.com/2013/01/22/larry-page-on-googles-knowledge-graph-were-still-at-1-of-where-we-want-to-be/

“We’re ¡sBll ¡at ¡1 ¡percent ¡of ¡where ¡we ¡should ¡be.” ¡

  • - Larry Page (Google CEO) on Knowledge Graph [Jan 22, 2013]
slide-40
SLIDE 40

New ¡paradigm ¡for ¡Machine ¡Learning:

Never ¡Ending ¡Learning ¡agent

17

slide-41
SLIDE 41

New ¡paradigm ¡for ¡Machine ¡Learning:

Never ¡Ending ¡Learning ¡agent

Persistent ¡soSware ¡individual

17

slide-42
SLIDE 42

New ¡paradigm ¡for ¡Machine ¡Learning:

Never ¡Ending ¡Learning ¡agent

Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types

17

slide-43
SLIDE 43

New ¡paradigm ¡for ¡Machine ¡Learning:

Never ¡Ending ¡Learning ¡agent

Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types Learns ¡easier ¡things ¡first, ¡then ¡more ¡difficult

17

slide-44
SLIDE 44

New ¡paradigm ¡for ¡Machine ¡Learning:

Never ¡Ending ¡Learning ¡agent

Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types Learns ¡easier ¡things ¡first, ¡then ¡more ¡difficult The ¡more ¡it ¡learns, ¡the ¡more ¡it ¡can ¡learn ¡next

17

slide-45
SLIDE 45

New ¡paradigm ¡for ¡Machine ¡Learning:

Never ¡Ending ¡Learning ¡agent

Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types Learns ¡easier ¡things ¡first, ¡then ¡more ¡difficult The ¡more ¡it ¡learns, ¡the ¡more ¡it ¡can ¡learn ¡next Learns ¡from ¡experience, ¡and ¡from ¡advice

17

slide-46
SLIDE 46

NELL: ¡Never ¡Ending ¡Language ¡Learner

18

slide-47
SLIDE 47

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

18

slide-48
SLIDE 48

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡

18

slide-49
SLIDE 49

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate

18

slide-50
SLIDE 50

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web

18

slide-51
SLIDE 51

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

18

slide-52
SLIDE 52

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

18

slide-53
SLIDE 53

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

The ¡task:

18

slide-54
SLIDE 54

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

The ¡task:

  • run ¡24x7, ¡forever

18

slide-55
SLIDE 55

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

The ¡task:

  • run ¡24x7, ¡forever
  • each ¡day:

18

slide-56
SLIDE 56

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

The ¡task:

  • run ¡24x7, ¡forever
  • each ¡day:
  • extract ¡more ¡facts ¡from ¡the ¡web ¡

18

slide-57
SLIDE 57

NELL: ¡Never ¡Ending ¡Language ¡Learner

Inputs:

  • iniLal ¡ontology ¡
  • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate
  • the ¡web
  • occasional ¡interacLon ¡with ¡human ¡trainers

The ¡task:

  • run ¡24x7, ¡forever
  • each ¡day:
  • extract ¡more ¡facts ¡from ¡the ¡web ¡
  • learn ¡to ¡read ¡(perform ¡#1) ¡beIer ¡than ¡yesterday

18

slide-58
SLIDE 58

NELL ¡Today

19

slide-59
SLIDE 59

NELL ¡Today

Running ¡24x7, ¡since ¡January, ¡12, ¡2010 ¡ Result: ¡ ¡KB ¡with ¡> ¡70 ¡million ¡candidate ¡beliefs, ¡growing ¡daily ¡ ¡learning ¡to ¡reason, ¡as ¡well ¡as ¡read ¡ ¡automaLcally ¡extending ¡its ¡ontology

19

slide-60
SLIDE 60

NELL ¡Today

Running ¡24x7, ¡since ¡January, ¡12, ¡2010 ¡ Result: ¡ ¡KB ¡with ¡> ¡70 ¡million ¡candidate ¡beliefs, ¡growing ¡daily ¡ ¡learning ¡to ¡reason, ¡as ¡well ¡as ¡read ¡ ¡automaLcally ¡extending ¡its ¡ontology

19

slide-61
SLIDE 61

NELL ¡Knowledge ¡Fragment

20

Globe and Mail Stanley
 Cup hockey NHL Toronto CFRB Hockey Team play hasClass won Toronto Maple Leafs home town city paper league Sundin Milson writer radio Air Canada Centre team stadium Canada city stadium politician country Miller airport member Toskala Pearson Skydome Connaught Sunnybrook hospital city company skates helmet uses equipment won Red Wings Detroit hometown GM city company competes
 with Toyota plays in league Prius Corrola created Hino acquired automobile economic sector city stadium climbing football uses equipment

slide-62
SLIDE 62

NELL ¡Knowledge ¡Fragment

20

Globe and Mail Stanley
 Cup hockey NHL Toronto CFRB Hockey Team play hasClass won Toronto Maple Leafs home town city paper league Sundin Milson writer radio Air Canada Centre team stadium Canada city stadium politician country Miller airport member Toskala Pearson Skydome Connaught Sunnybrook hospital city company skates helmet uses equipment won Red Wings Detroit hometown GM city company competes
 with Toyota plays in league Prius Corrola created Hino acquired automobile economic sector city stadium climbing football uses equipment

NELL ¡KB: ¡hIp://rtw.ml.cmu.edu ¡ TwiIer: ¡@cmunell

slide-63
SLIDE 63

NELL ¡Knowledge ¡Fragment

20

Globe and Mail Stanley
 Cup hockey NHL Toronto CFRB Hockey Team play hasClass won Toronto Maple Leafs home town city paper league Sundin Milson writer radio Air Canada Centre team stadium Canada city stadium politician country Miller airport member Toskala Pearson Skydome Connaught Sunnybrook hospital city company skates helmet uses equipment won Red Wings Detroit hometown GM city company competes
 with Toyota plays in league Prius Corrola created Hino acquired automobile economic sector city stadium climbing football uses equipment

NELL ¡KB: ¡hIp://rtw.ml.cmu.edu ¡ TwiIer: ¡@cmunell

Which relation?

slide-64
SLIDE 64

NELL ¡Knowledge ¡Fragment

20

Globe and Mail Stanley
 Cup hockey NHL Toronto CFRB Hockey Team play hasClass won Toronto Maple Leafs home town city paper league Sundin Milson writer radio Air Canada Centre team stadium Canada city stadium politician country Miller airport member Toskala Pearson Skydome Connaught Sunnybrook hospital city company skates helmet uses equipment won Red Wings Detroit hometown GM city company competes
 with Toyota plays in league Prius Corrola created Hino acquired automobile economic sector city stadium climbing football uses equipment

NELL ¡KB: ¡hIp://rtw.ml.cmu.edu ¡ TwiIer: ¡@cmunell

When?: Temporal Scoping Which relation?

slide-65
SLIDE 65

Other Related Efforts

21

slide-66
SLIDE 66

AAAI 2015

slide-67
SLIDE 67

NELL’s Growth over Time

slide-68
SLIDE 68

24

NELL’s Accuracy over Time

slide-69
SLIDE 69

Need knowledge to be …

25

slide-70
SLIDE 70

Need knowledge to be …

  • Available or inferable

25

slide-71
SLIDE 71

Need knowledge to be …

  • Available or inferable
  • Fresh (temporally scoped)

25

slide-72
SLIDE 72

Need knowledge to be …

  • Available or inferable
  • Fresh (temporally scoped)

25

slide-73
SLIDE 73

KB Inference

If:

x1 competes
 with (x1,x2) x2 economic sector (x2, x3) x3

Then:

economic sector (x1, x3)

slide-74
SLIDE 74

PRA: Inference by KB Random Walks

[Lao et al, EMNLP 2011]

KB: Random walk path type: logistic function for R(x,y) ith feature: probability of arriving at node y starting at node x, and taking a random walk along path type i model Pr(R(x,y)):

x competes
 with ? economic sector y

slide-75
SLIDE 75

Feature = Typed Path CityInState, CityInstate-1, CityLocatedInCountry 0.8 0.32 AtLocation-1, AtLocation, CityLocatedInCountry 0.6 0.20 … … … Pittsburgh Pennsylvania

CityInState CityInState-1 C i t y I n S t a t e

  • 1

Philadelphia Harisburg

…(14)

U.S. Feature Value Logistic 
 Regresssion
 Weight CityLocatedInCountry(Pittsburgh) = U.S. p=0.58

CityLocatedInCountry

Delta PPG AtLocation-1

AtLocation

Atlanta Dallas Tokyo Japan CityLocatedInCountry(Pittsburgh) = ?

C i t y L

  • c

a t e d I n C

  • u

n t r y

[Lao et al, EMNLP 2011]

slide-76
SLIDE 76

PRA: learned path types

CityLocatedInCountry(city, country):

8.04 cityliesonriver, cityliesonriver-1, citylocatedincountry 5.42 hasofficeincity-1, hasofficeincity, citylocatedincountry 4.98 cityalsoknownas, cityalsoknownas, citylocatedincountry 2.85 citycapitalofcountry,citylocatedincountry-1,citylocatedincountry 2.29 agentactsinlocation-1, agentactsinlocation, citylocatedincountry 1.22 statehascapital-1, statelocatedincountry 0.66 citycapitalofcountry . . .

7 of the 2985 learned paths for CityLocatedInCountry

slide-77
SLIDE 77

PRA: Challenges

30

slide-78
SLIDE 78

PRA: Challenges

  • Works great when the KB graph is

well connected

30

slide-79
SLIDE 79

PRA: Challenges

  • Works great when the KB graph is

well connected

  • But, sparsity in the KB graph is the

main challenge we wanted to solve!

30

slide-80
SLIDE 80

Subject-Verb-Object (SVO) Data

Web

Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu, while ...

31

slide-81
SLIDE 81

Subject-Verb-Object (SVO) Data

Web

Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu, while ...

31

slide-82
SLIDE 82

Subject-Verb-Object (SVO) Data

Web

Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu, while ...

31

slide-83
SLIDE 83

Subject-Verb-Object (SVO) Data

Web

Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu, while ...

SVO

“Bill Clinton”, “was born in”, “Hope” “Obama”, “was born in” , “Honolulu”

Extract 600m Subject-Verb-Object (SVO) triples from a parsed web corpus of 230 billion tokens

31

slide-84
SLIDE 84

Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013)

32

slide-85
SLIDE 85

Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013)

32

Alex Rodriguez (concept) NY Yankees (concept) World Series (concept) teamPlaysIn

KB Relation Label

slide-86
SLIDE 86

Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013)

32

Alex Rodriguez (concept) NY Yankees (concept) World Series (concept) teamPlaysIn

KB Relation Label

“plays for” “bats for” Alex Rodriguez NY Yankees mention mention

slide-87
SLIDE 87

Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013)

32

Alex Rodriguez (concept) NY Yankees (concept) World Series (concept) teamPlaysIn

KB Relation Label

“plays for” “bats for” Alex Rodriguez NY Yankees mention mention

Lexicalized edges can explode number of paths, feature sparsity => Latent PRA

slide-88
SLIDE 88

Latent PRA (Discretized)

33

slide-89
SLIDE 89

Latent PRA (Discretized)

33

Step 1: Embed lexicalized edge labels

slide-90
SLIDE 90

Latent PRA (Discretized)

33

Step 1: Embed lexicalized edge labels

“plays for”

( A R

  • d

. , N Y Y a n k e e s )

“bats for”

( B . J

  • n

e s , N Y M e s )

slide-91
SLIDE 91

Latent PRA (Discretized)

33

Step 1: Embed lexicalized edge labels

Dimensionality Reduction “plays for”

( A R

  • d

. , N Y Y a n k e e s )

“bats for”

( B . J

  • n

e s , N Y M e s )

slide-92
SLIDE 92

Latent PRA (Discretized)

33

Step 1: Embed lexicalized edge labels

Dimensionality Reduction “plays for”

( A R

  • d

. , N Y Y a n k e e s )

“bats for”

( B . J

  • n

e s , N Y M e s )

L1 L2 L3

“plays for” “bats for”

0.9 0.01 -0.3 0.6 0.01 -0.4

Latent Dimensions

slide-93
SLIDE 93

Latent PRA (Discretized)

33

Step 1: Embed lexicalized edge labels

Dimensionality Reduction “plays for”

( A R

  • d

. , N Y Y a n k e e s )

“bats for”

( B . J

  • n

e s , N Y M e s )

L1 L2 L3

“plays for” “bats for”

0.9 0.01 -0.3 0.6 0.01 -0.4

Latent Dimensions Discretize

slide-94
SLIDE 94

Latent PRA (Discretized)

33

Step 1: Embed lexicalized edge labels

“plays for” “bats for”

+L1 -L3 +L1 -L3

Dimensionality Reduction “plays for”

( A R

  • d

. , N Y Y a n k e e s )

“bats for”

( B . J

  • n

e s , N Y M e s )

L1 L2 L3

“plays for” “bats for”

0.9 0.01 -0.3 0.6 0.01 -0.4

Latent Dimensions Discretize

slide-95
SLIDE 95

Latent PRA (Discretized)

34

slide-96
SLIDE 96

Latent PRA (Discretized)

34

Step 1I: Use discretized embeddings as edge label

slide-97
SLIDE 97

Latent PRA (Discretized)

34

Step 1I: Use discretized embeddings as edge label

“+L1” Alex Rodriguez NY Yankees mention mention “-L3”

slide-98
SLIDE 98

Latent PRA (Discretized)

34

Step 1I: Use discretized embeddings as edge label

“+L1” Alex Rodriguez NY Yankees mention mention “-L3”

Example:

  • “lies on”, “runs through”, “flows through” all get

mapped to same discretized latent dimensions (relevant for cityLiesOnRiver relation)

slide-99
SLIDE 99

Latent PRA Experiments

35

slide-100
SLIDE 100

Latent PRA Experiments

35

slide-101
SLIDE 101

Latent PRA Experiments

35

NELL

MRR 0.225 0.45 0.675 0.9 KB +SVO +Latent (Disc.)

0.9 0.76 0.64

slide-102
SLIDE 102

Latent PRA Experiments

35

NELL

MRR 0.225 0.45 0.675 0.9 KB +SVO +Latent (Disc.)

0.9 0.76 0.64 Freebase

MRR 0.6 0.613 0.625 0.638 0.65 KB +SVO +Latent (Disc.)

0.65 0.64 0.61

slide-103
SLIDE 103

Latent PRA Experiments

35

NELL

MRR 0.225 0.45 0.675 0.9 KB +SVO +Latent (Disc.)

0.9 0.76 0.64 Freebase

MRR 0.6 0.613 0.625 0.638 0.65 KB +SVO +Latent (Disc.)

0.65 0.64 0.61

  • SVO data helps
  • Latent features help further
slide-104
SLIDE 104

Latent PRA: Summary

36

slide-105
SLIDE 105

Latent PRA: Summary

  • Makes PRA robust to KB sparsity

36

slide-106
SLIDE 106

Latent PRA: Summary

  • Makes PRA robust to KB sparsity
  • Increases KB coverage, makes

lexicalized edge labels possible

36

slide-107
SLIDE 107

Latent PRA: Summary

  • Makes PRA robust to KB sparsity
  • Increases KB coverage, makes

lexicalized edge labels possible

  • Combines global and local statistics

36

slide-108
SLIDE 108

Latent PRA: Summary

  • Makes PRA robust to KB sparsity
  • Increases KB coverage, makes

lexicalized edge labels possible

  • Combines global and local statistics
  • Brings Ontological and OpenIE

together

36

slide-109
SLIDE 109

Upcoming EMNLP 2015 papers to overcome sparsity in NELL

slide-110
SLIDE 110

Need knowledge to be …

  • Available or inferable
  • Fresh (temporally scoped) (WSDM ’12, CIKM ‘12)

38

slide-111
SLIDE 111

Need knowledge to be …

  • Available or inferable
  • Fresh (temporally scoped) (WSDM ’12, CIKM ‘12)

38

slide-112
SLIDE 112

Source ¡of ¡Weak ¡Supervision: Doc ¡PublicaBon ¡Time ¡~ ¡Fact ¡Time

39

slide-113
SLIDE 113

Source ¡of ¡Weak ¡Supervision: Doc ¡PublicaBon ¡Time ¡~ ¡Fact ¡Time

39

President Clinton

December 23, 1995

slide-114
SLIDE 114

Source ¡of ¡Weak ¡Supervision: Doc ¡PublicaBon ¡Time ¡~ ¡Fact ¡Time

39

President Clinton

December 23, 1995

AssumpLon: ¡Fact ¡is ¡true ¡at ¡the ¡Lme ¡

  • f ¡document ¡publicaLon
slide-115
SLIDE 115

Temporal ¡Profile ¡of ¡Facts

40

slide-116
SLIDE 116

Temporal ¡Profile ¡of ¡Facts

Key ¡Idea: ¡Temporally ¡scoping ¡mulLple ¡facts ¡ ¡ jointly ¡can ¡reduce ¡uncertainty

40

slide-117
SLIDE 117

Temporal ¡Constraint ¡Examples

41

slide-118
SLIDE 118

Temporal ¡Constraint ¡Examples

Across ¡RelaBons

41

slide-119
SLIDE 119

Is ¡CollecBve ¡Inference ¡EffecBve?

slide-120
SLIDE 120

Is ¡CollecBve ¡Inference ¡EffecBve?

slide-121
SLIDE 121

Is ¡CollecBve ¡Inference ¡EffecBve?

CollecBve ¡Temporal ¡ Scoping Independent ¡Temporal ¡ Scoping

slide-122
SLIDE 122

Is ¡CollecBve ¡Inference ¡EffecBve?

CollecBve ¡Temporal ¡ Scoping Independent ¡Temporal ¡ Scoping

CollecLve ¡temporal ¡scoping ¡improves ¡performance ¡ compared ¡to ¡temporally ¡scoping ¡each ¡fact ¡ separately

slide-123
SLIDE 123

Learning ¡Temporal ¡Constraints

[Talukdar, ¡Wijaya, ¡Mitchell, ¡CIKM ¡2012]

43

slide-124
SLIDE 124

Learning ¡Temporal ¡Constraints

[Talukdar, ¡Wijaya, ¡Mitchell, ¡CIKM ¡2012]

43

slide-125
SLIDE 125

Learning ¡Temporal ¡Constraints

[Talukdar, ¡Wijaya, ¡Mitchell, ¡CIKM ¡2012]

43

  • ­‑ Constraints ¡are ¡

automaLcally ¡learned ¡ by ¡GraphOrder, ¡ proposed ¡graph-­‑based ¡ SSL ¡algorithm ¡for ¡

  • rdering
slide-126
SLIDE 126

Learning ¡Temporal ¡Constraints

[Talukdar, ¡Wijaya, ¡Mitchell, ¡CIKM ¡2012]

43

  • ­‑ Constraints ¡are ¡

automaLcally ¡learned ¡ by ¡GraphOrder, ¡ proposed ¡graph-­‑based ¡ SSL ¡algorithm ¡for ¡

  • rdering
  • ­‑ Exploits ¡dependency ¡

parsed ¡corpus ¡of ¡16 ¡ billion ¡tokens

slide-127
SLIDE 127

Broader ¡Interest: ¡Latent ¡Conceptual ¡ OrganizaBon ¡in ¡Brains ¡and ¡Text

44

Text ¡ Data

slide-128
SLIDE 128

Broader ¡Interest: ¡Latent ¡Conceptual ¡ OrganizaBon ¡in ¡Brains ¡and ¡Text

44

Text ¡ Data

Focus of Past Research

slide-129
SLIDE 129

Broader ¡Interest: ¡Latent ¡Conceptual ¡ OrganizaBon ¡in ¡Brains ¡and ¡Text

44

Text ¡ Data

Focus of Past Research

fMRI ¡ Brain ¡ State

slide-130
SLIDE 130

Broader ¡Interest: ¡Latent ¡Conceptual ¡ OrganizaBon ¡in ¡Brains ¡and ¡Text

44

Text ¡ Data

View ¡1 View ¡2 Latent ¡Conceptual ¡ OrganizaLon ¡in ¡Humans

Focus of Past Research

fMRI ¡ Brain ¡ State

slide-131
SLIDE 131

Broader ¡Interest: ¡Latent ¡Conceptual ¡ OrganizaBon ¡in ¡Brains ¡and ¡Text

44

Text ¡ Data

View ¡1 View ¡2 Latent ¡Conceptual ¡ OrganizaLon ¡in ¡Humans

Focus of Past Research

fMRI ¡ Brain ¡ State

cat

StarSem ¡12, ¡ ¡COLING ¡12, ¡CoNLL ¡13, ¡KDD ¡14, ¡SDM ¡14, ¡ACL ¡14, ¡PLoS ¡ONE]

Current

cat

slide-132
SLIDE 132

Broader ¡Interest: ¡Latent ¡Conceptual ¡ OrganizaBon ¡in ¡Brains ¡and ¡Text

44

Text ¡ Data

View ¡1 View ¡2 Latent ¡Conceptual ¡ OrganizaLon ¡in ¡Humans

fMRI ¡ Brain ¡ State

cat

StarSem ¡12, ¡ ¡COLING ¡12, ¡CoNLL ¡13, ¡KDD ¡14, ¡SDM ¡14, ¡ACL ¡14, ¡PLoS ¡ONE]

Current

cat

Future: Jointly model both Text and Brain Data

slide-133
SLIDE 133

Results ¡Highlight

45

slide-134
SLIDE 134

Results ¡Highlight

45

+

slide-135
SLIDE 135

Results ¡Highlight

45

+ =

slide-136
SLIDE 136

Leila&Wehbe&

[Fedorenko&et&al.& &2012]& [Wehbe&et&al.,&2014]&

Although

b"

Seman(cs" Characters" Syntax" Dialog" Mo(on" Visual"

[Wehbe et al., PLOS ONE 2014]

slide-137
SLIDE 137

Leila&Wehbe&

[Fedorenko&et&al.& &2012]& [Wehbe&et&al.,&2014]&

Although

b"

Seman(cs" Characters" Syntax" Dialog" Mo(on" Visual"

[Wehbe et al., PLOS ONE 2014]

slide-138
SLIDE 138

From ¡Strings ¡to ¡Things ¡and ¡Beyond

slide-139
SLIDE 139

From ¡Strings ¡to ¡Things ¡and ¡Beyond

Construct

slide-140
SLIDE 140

From ¡Strings ¡to ¡Things ¡and ¡Beyond

Construct

New Data

Maintain

slide-141
SLIDE 141

From ¡Strings ¡to ¡Things ¡and ¡Beyond

Construct

New Data

Maintain Apply

slide-142
SLIDE 142

From ¡Strings ¡to ¡Things ¡and ¡Beyond

Construct

New Data

Maintain Apply

slide-143
SLIDE 143

Ongoing ¡Research ¡at ¡MALL ¡Lab

  • Continuous KB evaluation
  • Temporal Micro Reading
  • Representation Learning
  • Large-scale Learning
  • Goal-directed KB expansion

48

Prakhar Pjha (IISc) Arabinda Moni (IISc) Yogesh D. (BTech, IIT BHU) Chandrahas (IISc) Uday Saini (BTech, IIT Ropar) Madhav N. (IISc)

3 PhD, 3 Masters, 4 Project Assistants, 1 Intern

slide-144
SLIDE 144

External ¡CollaboraBon ¡& ¡Support

49

slide-145
SLIDE 145

Final ¡Thoughts

50

slide-146
SLIDE 146

Final ¡Thoughts

50

slide-147
SLIDE 147

Final ¡Thoughts

50

slide-148
SLIDE 148

Final ¡Thoughts

50

Unprecedented ¡opportunity ¡to ¡bring ¡world ¡ knowledge ¡into ¡AI ¡systems ¡-­‑-­‑ ¡focus ¡of ¡my ¡research

Big Text Big Knowledge

slide-149
SLIDE 149

Thank ¡You!

ppt@serc.iisc.in www.talukdar.net

Machine ¡ ¡ Learning Big ¡Data ¡ Processing Natural ¡ Language ¡ Processing Decisions