from big text to big knowledge
play

From Big Text to Big Knowledge Partha Talukdar Machine And Language - PowerPoint PPT Presentation

From Big Text to Big Knowledge Partha Talukdar Machine And Language Learning (MALL) Lab SERC & CSA, Indian Institute of Science Matt Gardner Bryan Kisiel Tom Mitchell Derry Wijaya Carnegie Mellon University IISc Overview Indian


  1. Research Programs at IISc † Ph.D. and M.Sc [Engg] † Min. Qualification: ➢ ME / M Tech or BE / B Tech or equivalent degree in any Engineering discipline or ➢ M Sc or equivalent degree in Mathematics, Physics, Statistics, Electronics, Instrumentation or Computer Sciences or ➢ Master’s in Computer Application. † Selection process ➢ Shortlisting (GATE scores) and Interview Come Join Us!

  2. Back to Text & Knowledge

  3. Thesis Background knowledge is key to Intelligent Decision Making 13

  4. Thesis Background knowledge is key to Intelligent Decision Making 13

  5. Thesis Background knowledge is key to Intelligent Decision Making ? 13

  6. Thesis Background knowledge is key to Intelligent Decision Making ? 13

  7. Thesis Background knowledge is key to Intelligent Decision Making inventedCharacter 13

  8. Explosion ¡of ¡Unstructured ¡Text ¡Data 14

  9. Explosion ¡of ¡Unstructured ¡Text ¡Data 300 ¡million ¡ new ¡websites ¡added ¡in ¡2011 ¡ alone ¡(a ¡117% ¡growth) ¡ ¡ Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html 14

  10. Explosion ¡of ¡Unstructured ¡Text ¡Data 300 ¡million ¡ new ¡websites ¡added ¡in ¡2011 ¡ alone ¡(a ¡117% ¡growth) ¡ ¡ 500 ¡million ¡ Tweets ¡per ¡day ¡(circa ¡Oct ¡2012) Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html 14

  11. Explosion ¡of ¡Unstructured ¡Text ¡Data 300 ¡million ¡ new ¡websites ¡added ¡in ¡2011 ¡ alone ¡(a ¡117% ¡growth) ¡ ¡ 500 ¡million ¡ Tweets ¡per ¡day ¡(circa ¡Oct ¡2012) Time ¡to ¡read ¡for ¡one ¡person: ¡31years Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html 14

  12. Explosion ¡of ¡Unstructured ¡Text ¡Data 300 ¡million ¡ new ¡websites ¡added ¡in ¡2011 ¡ alone ¡(a ¡117% ¡growth) ¡ ¡ 500 ¡million ¡ Tweets ¡per ¡day ¡(circa ¡Oct ¡2012) Time ¡to ¡read ¡for ¡one ¡person: ¡31years Need ¡to ¡harvest ¡knowledge ¡from ¡ unstructured ¡text ¡data Sources: http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/, http://blog.twitter.com/2011/06/200-million-tweets-per-day.html 14

  13. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? 15

  14. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? Document 1 Document 2 ... After the death of then-mayor Bob ... Luke Ravenstahl is O’Connor, Luke Ravenstahl became the the current Mayor of mayor in September 2006 ... Pittsburgh ... 15

  15. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? Document 1 Document 2 ... After the death of then-mayor Bob ... Luke Ravenstahl is O’Connor, Luke Ravenstahl became the the current Mayor of mayor in September 2006 ... Pittsburgh ... Person Luke ¡Ravenstahl Bob ¡O’Connor 15

  16. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? Document 1 Document 2 ... After the death of then-mayor Bob ... Luke Ravenstahl is O’Connor, Luke Ravenstahl became the the current Mayor of mayor in September 2006 ... Pittsburgh ... Person LocaBon Luke ¡Ravenstahl PiIsburgh Bob ¡O’Connor 15

  17. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? Document 1 Document 2 ... After the death of then-mayor Bob ... Luke Ravenstahl is O’Connor, Luke Ravenstahl became the the current Mayor of mayor in September 2006 ... Pittsburgh ... Person LocaBon MayorOf Luke ¡Ravenstahl PiIsburgh Bob ¡O’Connor MayorOf 15

  18. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? Document 1 Document 2 ... After the death of then-mayor Bob ... Luke Ravenstahl is O’Connor, Luke Ravenstahl became the the current Mayor of mayor in September 2006 ... Pittsburgh ... Valid ¡UnLl ¡Sep/2006 Person MayorOf Bob ¡O’Connor PiIsburgh 15

  19. What ¡is ¡Knowledge ¡HarvesBng ¡ from ¡Unstructured ¡Text? Document 1 Document 2 ... After the death of then-mayor Bob ... Luke Ravenstahl is O’Connor, Luke Ravenstahl became the the current Mayor of mayor in September 2006 ... Pittsburgh ... Valid ¡UnLl ¡Sep/2006 Valid ¡From ¡Sep/2006 Person MayorOf Person MayorOf Bob ¡O’Connor PiIsburgh Luke ¡Ravenstahl PiIsburgh 15

  20. Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph 16

  21. Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph Improved Web Search Experience, facilitated by Harvested Knowledge 16

  22. Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph Improved Web Search Experience, facilitated by Harvested Knowledge No Structured Information 16

  23. Use ¡of ¡Harvested ¡Knowledge: ¡Google ¡ Knowledge ¡Graph Improved Web Search Experience, facilitated by Harvested Knowledge No Structured Information “We’re ¡sBll ¡at ¡1 ¡percent ¡of ¡where ¡we ¡should ¡be.” ¡ -- Larry Page (Google CEO) on Knowledge Graph [Jan 22, 2013] http://venturebeat.com/2013/01/22/larry-page-on-googles-knowledge-graph-were-still-at-1-of-where-we-want-to-be/ 16

  24. New ¡paradigm ¡for ¡Machine ¡Learning: Never ¡Ending ¡Learning ¡agent 17

  25. New ¡paradigm ¡for ¡Machine ¡Learning: Never ¡Ending ¡Learning ¡agent Persistent ¡soSware ¡individual 17

  26. New ¡paradigm ¡for ¡Machine ¡Learning: Never ¡Ending ¡Learning ¡agent Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types 17

  27. New ¡paradigm ¡for ¡Machine ¡Learning: Never ¡Ending ¡Learning ¡agent Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types Learns ¡easier ¡things ¡first, ¡then ¡more ¡difficult 17

  28. New ¡paradigm ¡for ¡Machine ¡Learning: Never ¡Ending ¡Learning ¡agent Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types Learns ¡easier ¡things ¡first, ¡then ¡more ¡difficult The ¡more ¡it ¡learns, ¡the ¡more ¡it ¡can ¡learn ¡next 17

  29. New ¡paradigm ¡for ¡Machine ¡Learning: Never ¡Ending ¡Learning ¡agent Persistent ¡soSware ¡individual Learns ¡many ¡funcLons ¡/ ¡knowledge ¡types Learns ¡easier ¡things ¡first, ¡then ¡more ¡difficult The ¡more ¡it ¡learns, ¡the ¡more ¡it ¡can ¡learn ¡next Learns ¡from ¡experience, ¡and ¡from ¡advice 17

  30. NELL: ¡Never ¡Ending ¡Language ¡Learner 18

  31. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: 18

  32. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ 18

  33. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate 18

  34. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web 18

  35. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers 18

  36. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers 18

  37. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers The ¡task: 18

  38. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers The ¡task: • run ¡24x7, ¡forever 18

  39. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers The ¡task: • run ¡24x7, ¡forever • each ¡day: 18

  40. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers The ¡task: • run ¡24x7, ¡forever • each ¡day: • extract ¡more ¡facts ¡from ¡the ¡web ¡ 18

  41. NELL: ¡Never ¡Ending ¡Language ¡Learner Inputs: • iniLal ¡ontology ¡ • few ¡seed ¡examples ¡of ¡each ¡ontology ¡predicate • the ¡web • occasional ¡interacLon ¡with ¡human ¡trainers The ¡task: • run ¡24x7, ¡forever • each ¡day: • extract ¡more ¡facts ¡from ¡the ¡web ¡ • learn ¡to ¡read ¡(perform ¡#1) ¡beIer ¡than ¡yesterday 18

  42. NELL ¡Today 19

  43. NELL ¡Today Running ¡24x7, ¡since ¡January, ¡12, ¡2010 ¡ Result: ¡ ¡KB ¡with ¡> ¡70 ¡million ¡candidate ¡beliefs, ¡growing ¡daily ¡ ¡learning ¡to ¡reason, ¡as ¡well ¡as ¡read ¡ ¡automaLcally ¡extending ¡its ¡ontology 19

  44. NELL ¡Today Running ¡24x7, ¡since ¡January, ¡12, ¡2010 ¡ Result: ¡ ¡KB ¡with ¡> ¡70 ¡million ¡candidate ¡beliefs, ¡growing ¡daily ¡ ¡learning ¡to ¡reason, ¡as ¡well ¡as ¡read ¡ ¡automaLcally ¡extending ¡its ¡ontology 19

  45. NELL ¡Knowledge ¡Fragment football uses climbing equipment skates helmet Canada Sunnybrook Miller uses city Hockey equipment hospital company country Team hockey Detroit GM politician CFRB radio Pearson Toronto play hasClass hometown airport competes 
 with home town Stanley 
 Toronto city Red Cup company city Maple Leafs won won Wings stadium Toyota team stadium Connaught city paper league league acquired city NHL Air Canada member stadium Hino created Centre plays in economic sector Globe and Mail Sundin Prius writer automobile Toskala Skydome Corrola Milson 20

  46. NELL ¡Knowledge ¡Fragment football uses climbing equipment skates helmet Canada Sunnybrook Miller uses city Hockey equipment hospital company country Team hockey Detroit GM politician CFRB radio Pearson Toronto play hasClass hometown airport competes 
 with home town Stanley 
 Toronto city Red Cup company city Maple Leafs won won Wings stadium Toyota team stadium Connaught city paper league league acquired city NELL ¡KB: ¡hIp://rtw.ml.cmu.edu ¡ NHL Air Canada member stadium Hino created Centre plays in TwiIer: ¡@cmunell economic sector Globe and Mail Sundin Prius writer automobile Toskala Skydome Corrola Milson 20

  47. NELL ¡Knowledge ¡Fragment football uses climbing equipment Which relation? skates helmet Canada Sunnybrook Miller uses city Hockey equipment hospital company country Team hockey Detroit GM politician CFRB radio Pearson Toronto play hasClass hometown airport competes 
 with home town Stanley 
 Toronto city Red Cup company city Maple Leafs won won Wings stadium Toyota team stadium Connaught city paper league league acquired city NELL ¡KB: ¡hIp://rtw.ml.cmu.edu ¡ NHL Air Canada member stadium Hino created Centre plays in TwiIer: ¡@cmunell economic sector Globe and Mail Sundin Prius writer automobile Toskala Skydome Corrola Milson 20

  48. NELL ¡Knowledge ¡Fragment football uses climbing equipment Which relation? skates helmet Canada Sunnybrook Miller uses city Hockey equipment hospital company country Team hockey Detroit GM politician CFRB radio Pearson Toronto play hasClass When?: Temporal hometown airport competes 
 Scoping with home town Stanley 
 Toronto city Red Cup company city Maple Leafs won won Wings stadium Toyota team stadium Connaught city paper league league acquired city NELL ¡KB: ¡hIp://rtw.ml.cmu.edu ¡ NHL Air Canada member stadium Hino created Centre plays in TwiIer: ¡@cmunell economic sector Globe and Mail Sundin Prius writer automobile Toskala Skydome Corrola Milson 20

  49. Other Related Efforts 21

  50. AAAI 2015

  51. NELL’s Growth over Time

  52. NELL’s Accuracy over Time 24

  53. Need knowledge to be … 25

  54. Need knowledge to be … • A vailable or inferable 25

  55. Need knowledge to be … • A vailable or inferable • F resh (temporally scoped) 25

  56. Need knowledge to be … • A vailable or inferable • F resh (temporally scoped) 25

  57. KB Inference If: competes 
 economic x1 x2 x3 with sector (x2, (x1,x2) x3) Then: economic sector (x1, x3)

  58. PRA: Inference by KB Random Walks [Lao et al, EMNLP 2011] KB: Random walk competes 
 economic path type: x ? y with sector model Pr(R(x,y)): logistic function for R(x,y) i th feature: probability of arriving at node y starting at node x, and taking a random walk along path type i

  59. [Lao et al, EMNLP 2011] CityLocatedInCountry(Pittsburgh) = ? U.S. Japan Pennsylvania CityLocatedInCountry C CityInState -1 CityInState i t y y r I t n n S u t o a C t e … (14) n - 1 I d e Pittsburgh t a Philadelphia c AtLocation -1 Harisburg o L y t Atlanta i C Dallas AtLocation Tokyo PPG Delta Logistic 
 Regresssion 
 Weight Feature = Typed Path Feature Value CityInState, CityInstate -1 , CityLocatedInCountry 0.8 0.32 AtLocation -1 , AtLocation, CityLocatedInCountry 0.6 0.20 … … … CityLocatedInCountry(Pittsburgh) = U.S. p=0.58

  60. PRA: learned path types CityLocatedInCountry( city, country ) : 8.04 cityliesonriver, cityliesonriver -1 , citylocatedincountry 5.42 hasofficeincity -1 , hasofficeincity, citylocatedincountry 4.98 cityalsoknownas, cityalsoknownas, citylocatedincountry 2.85 citycapitalofcountry,citylocatedincountry -1 ,citylocatedincountry 2.29 agentactsinlocation -1 , agentactsinlocation, citylocatedincountry 1.22 statehascapital -1 , statelocatedincountry 0.66 citycapitalofcountry . . . 7 of the 2985 learned paths for CityLocatedInCountry

  61. PRA: Challenges 30

  62. PRA: Challenges • Works great when the KB graph is well connected 30

  63. PRA: Challenges • Works great when the KB graph is well connected ‣ But, sparsity in the KB graph is the main challenge we wanted to solve! 30

  64. Subject-Verb-Object (SVO) Data Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu , while ... Web 31

  65. Subject-Verb-Object (SVO) Data Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu , while ... Web 31

  66. Subject-Verb-Object (SVO) Data Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu , while ... Web 31

  67. Subject-Verb-Object (SVO) Data SVO “Bill Clinton”, “was born in”, “Hope” “Obama”, “was born in” , “Honolulu” Former President Bill Clinton was born in Hope ... President Obama was born in Honolulu , while ... Web Extract 600m Subject-Verb-Object (SVO) triples from a parsed web corpus of 230 billion tokens 31

  68. Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013) 32

  69. Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013) KB Relation Label teamPlaysIn Alex World NY Yankees Rodriguez Series (concept) (concept) (concept) 32

  70. Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013) KB Relation Label teamPlaysIn Alex World NY Yankees Rodriguez Series (concept) (concept) (concept) mention mention “plays for” Alex NY Yankees Rodriguez “bats for” 32

  71. Our Approach: PRA over KB + SVO Graph (Gardner et al., EMNLP 2013) Lexicalized edges can explode number of KB Relation Label paths, feature sparsity => Latent PRA teamPlaysIn Alex World NY Yankees Rodriguez Series (concept) (concept) (concept) mention mention “plays for” Alex NY Yankees Rodriguez “bats for” 32

  72. Latent PRA (Discretized) 33

  73. Latent PRA (Discretized) Step 1 : Embed lexicalized edge labels 33

  74. Latent PRA (Discretized) Step 1 : Embed lexicalized edge labels ) s e ) e s k e n M a Y Y Y N N , s , . e d n o o R J . A B ( ( “plays for” “bats for” 33

  75. Latent PRA (Discretized) Step 1 : Embed lexicalized edge labels ) s e ) e s k e n M a Y Y Y N N , s , . e d n o o R J Dimensionality . A B ( ( Reduction “plays for” “bats for” 33

  76. Latent PRA (Discretized) Step 1 : Embed lexicalized edge labels ) Latent s e ) e s k e n M a Y Y Dimensions Y N N , s , . e d n o o R J Dimensionality . L1 L2 L3 A B ( ( Reduction “plays for” “plays for” 0.9 0.01 -0.3 “bats for” “bats for” 0.6 0.01 -0.4 33

  77. Latent PRA (Discretized) Step 1 : Embed lexicalized edge labels ) Latent s e ) e s k e n M a Y Y Dimensions Y N N , s , . e d n o o R J Dimensionality . L1 L2 L3 A B ( ( Reduction “plays for” “plays for” 0.9 0.01 -0.3 “bats for” “bats for” 0.6 0.01 -0.4 Discretize 33

  78. Latent PRA (Discretized) Step 1 : Embed lexicalized edge labels ) Latent s e ) e s k e n M a Y Y Dimensions Y N N , s , . e d n o o R J Dimensionality . L1 L2 L3 A B ( ( Reduction “plays for” “plays for” 0.9 0.01 -0.3 “bats for” “bats for” 0.6 0.01 -0.4 Discretize “plays for” +L1 -L3 “bats for” +L1 -L3 33

  79. Latent PRA (Discretized) 34

  80. Latent PRA (Discretized) Step 1I : Use discretized embeddings as edge label 34

  81. Latent PRA (Discretized) Step 1I : Use discretized embeddings as edge label mention mention “ +L1 ” Alex NY Yankees “ -L3 ” Rodriguez 34

  82. Latent PRA (Discretized) Step 1I : Use discretized embeddings as edge label mention mention “ +L1 ” Alex NY Yankees “ -L3 ” Rodriguez Example: • “lies on” , “runs through” , “flows through” all get mapped to same discretized latent dimensions (relevant for cityLiesOnRiver relation) 34

  83. Latent PRA Experiments 35

  84. Latent PRA Experiments 35

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend