aspect extraction with automated prior knowledge learning
play

Aspect Extraction with Automated Prior Knowledge Learning Zhiyuan - PowerPoint PPT Presentation

Aspect Extraction with Automated Prior Knowledge Learning Zhiyuan (Brett) Chen Arjun Mukherjee Bing Liu Aspect Extraction Extracting aspect terms Aspect Terms This camera takes beautiful pictures but its price is


  1. Aspect Extraction with Automated Prior Knowledge Learning Zhiyuan (Brett) Chen Arjun Mukherjee Bing Liu

  2. Aspect Extraction Extracting ¡aspect ¡terms�

  3. Aspect Terms This ¡camera ¡takes ¡beautiful ¡ pictures ¡but ¡its ¡price ¡is ¡higher ¡ than ¡$200.�

  4. Aspect Terms This ¡camera ¡takes ¡beautiful ¡ pictures ¡but ¡its ¡price ¡is ¡higher ¡ than ¡$200.�

  5. Aspect Extraction Extracting ¡aspect ¡terms� Grouping ¡terms ¡into ¡categories�

  6. Grouping Picture� Price� Photo� Cost� Image� Money� Aspect ¡1� Aspect ¡2�

  7. � � � Aspect Extraction Input: ¡A ¡review ¡collection� Aspect ¡1� Aspect ¡2� Output: ¡A ¡set ¡of ¡aspects� Price� Battery� (with ¡top ¡aspect ¡terms).� Cheap� Life� Cost� Charge� Money� AAA� Pricy� Hour�

  8. � � � Topic Models to Extract Aspects (e.g., ¡Chen ¡et ¡al., ¡2013; ¡Kim ¡et ¡al., ¡2013; ¡Lazaridou ¡et ¡al., ¡2013; ¡ Mukherjee ¡and ¡Liu, ¡2012; ¡Moghaddam ¡and ¡Ester, ¡2011; ¡Sauper ¡et ¡ al., ¡2011; ¡Lin ¡and ¡He, ¡2009; ¡Titov ¡and ¡McDonald, ¡2008; ¡Lu ¡and ¡Zhai, ¡ 2008;)� Perform ¡both ¡extracting ¡and ¡grouping� A ¡topic ¡is ¡basically ¡an ¡aspect�

  9. Traditional Modeling Flow � Domain ¡1� M ¡Docs�

  10. Traditional Modeling Flow � Domain ¡1� M ¡Docs� LDA � T ¡ Topics�

  11. Traditional Modeling Flow � Domain ¡1� Domain ¡2� M ¡Docs� M ¡Docs� LDA � LDA � T ¡ Topics� T ¡ Topics�

  12. Traditional Modeling Flow � Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA � LDA � LDA � T ¡ Topics� T ¡ Topics� T ¡ Topics�

  13. Can we improve these topics by using them only?

  14. Can we improve these topics by using them only? Fully automatic No other resources No human intervention

  15. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� T ¡Topics� T ¡Topics� T ¡Topics�

  16. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� Topic ¡Base� T ¡Topics� T ¡Topics� T ¡Topics�

  17. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� Topic ¡Base� T ¡Topics� T ¡Topics� T ¡Topics� Learn ¡Knowledge ¡Automatically� Knowledge ¡Base�

  18. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� Topic ¡Base� T ¡Topics� T ¡Topics� T ¡Topics� Learn ¡Knowledge ¡Automatically� a) ¡Existing ¡ Knowledge ¡Base� Domains�

  19. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� Topic ¡Base� T ¡Topics� T ¡Topics� T ¡Topics� Learn ¡Knowledge ¡Automatically� a) ¡Existing ¡ Knowledge ¡Base� Domains� Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� AKL (Automated � AKL� AKL� AKL� Knowledge LDA) � T ¡Topics� T ¡Topics� T ¡Topics�

  20. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� Topic ¡Base� T ¡Topics� T ¡Topics� T ¡Topics� Learn ¡Knowledge ¡Automatically� b) ¡New ¡ Knowledge ¡Base� Domain�

  21. Our Proposed Algorithm Domain ¡1� Domain ¡2� Domain ¡ N� M ¡Docs� M ¡Docs� M ¡Docs� …� LDA� LDA� LDA� Topic ¡Base� T ¡Topics� T ¡Topics� T ¡Topics� Learn ¡Knowledge ¡Automatically� b) ¡New ¡ Knowledge ¡Base� Domain� Domain ¡ N +1 � M ¡Docs� AKL� T ¡Topics�

  22. Why don’t we merge documents from different domains and run LDA?

  23. � � � � � Run LDA on Merged Data Number ¡of ¡Topics� Topic ¡belongs ¡to ¡which ¡domain� Scalability�

  24. Run LDA on Merged Data M ¡Docs� M ¡Docs� M ¡Docs� M ¡Docs� M ¡Docs�

  25. Run LDA on Merged Data Run ¡LDA�

  26. Our Proposed Algorithm Run ¡LDA� Run ¡LDA� Run ¡LDA� Run ¡LDA� Run ¡LDA�

  27. Our Proposed Algorithm T ¡Topics� T ¡Topics� T ¡Topics� T ¡Topics� T ¡Topics�

  28. Our Proposed Algorithm Learn ¡Knowledge�

  29. Our Proposed Algorithm Knowledge� Knowledge� Knowledge� Knowledge� Knowledge�

  30. Our Proposed Algorithm Run ¡AKL� Run ¡AKL� Run ¡AKL� Run ¡AKL� Run ¡AKL�

  31. Learn Knowledge Automatically Multiple ¡Senses � Knowledge� Reliability�

  32. Learn Knowledge Automatically Multiple ¡Senses � Knowledge� Reliability�

  33. Multiple Senses {Light, ¡Bright}� {Light, ¡Luminance} � Light � {Light, ¡Weight}� {Light, ¡Heavy} �

  34. � � � � Existing ¡Models ¡with ¡ Multiple Senses Assume ¡single ¡sense� �DF-‐‑–LDA ¡ (Andrzejewski ¡et ¡al., ¡2009)� User ¡specified ¡multiple ¡senses� �MC-‐‑–LDA ¡ (Chen ¡et ¡al., ¡2013)� Automatically ¡distinguish ¡senses ¡ when ¡extracting ¡knowledge�

  35. Learn knowledge Automatically Topic ¡Clustering� Multiple ¡Senses � Knowledge� Reliability�

  36. � � � Topic Clustering A ¡topic ¡represents ¡words ¡with ¡ similar ¡meaning ¡(but ¡noisy)� Group ¡topics ¡with ¡similar ¡sense ¡into ¡ one ¡cluster� Different ¡senses ¡of ¡a ¡word ¡should ¡ be ¡split ¡into ¡different ¡clusters�

  37. Learn knowledge Automatically Topic ¡Clustering� Multiple ¡Senses � Knowledge� Reliability�

  38. � � � � Topic Overlapping Every ¡product ¡domain ¡has ¡price.� Most ¡electronic ¡domains ¡have ¡battery.� Some ¡electronic ¡domains ¡share ¡screen.�

  39. � Example D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3� Battery� Battery� Battery� Life� Price� Charge� Picture� Life� AAA� Charge� Size� Screen�

  40. � Example D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3� Battery� Battery� Battery� Life� Price� Charge� Picture� Life� AAA� Charge� Size� Screen� Two ¡words ¡together ¡at ¡least ¡2 ¡times�

  41. � � Example D1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D3� Battery� Battery� Battery� Life� Price� Charge� Picture� Life� AAA� Charge� Size� Screen� Two ¡words ¡together ¡at ¡least ¡2 ¡times� {Battery, ¡Life} ¡and ¡{Battery, ¡Charge}�

  42. Learn knowledge Automatically Topic ¡Clustering� Multiple ¡Senses � Knowledge� Frequent ¡Itemset ¡ Reliability� Mining�

  43. � � � � Frequent Itemset Mining (FIM) Each ¡topic ¡is ¡a ¡transaction� Find ¡frequent ¡patterns ¡satisfy ¡ minimum ¡support ¡thresholds� Each ¡pattern ¡contains ¡2 ¡terms�

  44. � � � � Knowledge Representation In ¡the ¡form ¡of ¡knowledge ¡clusters ¡(KC)� Each ¡KC ¡has ¡a ¡list ¡of ¡frequent ¡2-‐‑– patterns� KC1: ¡{battery, ¡life}, ¡{battery, ¡charge}, ¡ {battery, ¡hour}, ¡{charge, ¡hour}�

  45. AKL (Automated Knowledge LDA) Incorporate ¡ Knowledge � Wrong ¡Know. ¡ Towards ¡Domain�

  46. AKL Model Incorporate ¡ Add ¡variable ¡ c� Knowledge � Wrong ¡Know. ¡ Towards ¡Domain�

  47. AKL Plate Notation c : ¡knowledge ¡cluster �

  48. AKL Plate Notation c : ¡knowledge ¡cluster �

  49. AKL Plate Notation c : ¡knowledge ¡cluster �

  50. AKL Plate Notation c : ¡knowledge ¡cluster �

  51. AKL Model Incorporate ¡ Add ¡variable ¡ c� Knowledge � GPU ¡Model� Wrong ¡Know. ¡ Towards ¡Domain�

  52. LDA with SPU (Simple Pólya Urn Model) price� Topic ¡0�

  53. LDA with SPU (Simple Pólya Urn Model) price� price� Topic ¡0�

  54. AKL with GPU (Generalized Pólya Urn Model) price� Topic ¡0�

  55. AKL with GPU (Generalized Pólya Urn Model) {price, ¡cheap}� price� price� cheap� Topic ¡0�

  56. AKL Model Incorporate ¡ Add ¡variable ¡ c� Knowledge � GPU ¡Model� Wrong ¡Know. ¡ Towards ¡Domain�

  57. � � Wrong Know. Towards Domain Wrong ¡because ¡of ¡TM ¡mistakes� �{Price, ¡Picture}� Wrong ¡towards ¡a ¡particular ¡domain ¡� �{Light, ¡Bright}� �{Light, ¡Weight}�

  58. AKL Model Incorporate ¡ Add ¡variable ¡ c� Knowledge � GPU ¡Model� Co-‐‑–Document ¡ Wrong ¡Know. ¡ Frequency ¡Ratio� Towards ¡Domain�

  59. Co-Document Frequency Ratio

  60. � � � � � � Co-Document Frequency Ratio Estimated ¡in ¡the ¡current ¡domain�

  61. � � � � � � Co-Document Frequency Ratio Estimated ¡in ¡the ¡current ¡domain� {Price, ¡Cheap}� {Price, ¡Image} �

  62. Evaluation

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend