short text similarity with word embeddings
play

Short Text Similarity with Word Embeddings Tom Kenter, Maarten de - PowerPoint PPT Presentation

Short Text Similarity with Word Embeddings Tom Kenter, Maarten de Rijke CIKM 2015 - October 2015 - Melbourne Task: predic-ng short text similarity Given two sentences, do they mean approximately


  1. Short Text Similarity with Word Embeddings Tom Kenter, Maarten de Rijke CIKM 2015 - October 2015 - Melbourne

  2. Task: ¡predic-ng ¡short ¡text ¡similarity ¡ Given ¡two ¡sentences, ¡do ¡they ¡mean ¡ approximately ¡the ¡same? ¡ Melbourne is a nice city The beautiful town of Melbourne Melbourne is a nice city Sydney is close to Melbourne Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  3. Central ¡ques-on ¡of ¡the ¡paper ¡ Can ¡we ¡find ¡out ¡if ¡two ¡sentences ¡mean ¡the ¡ same ¡thing... ¡ ¡ • without ¡using ¡external ¡sources ¡of ¡explicit ¡ seman-c ¡knowledge ¡(like ¡WordNet)? ¡ ¡ • without ¡using ¡prior ¡linguis-c ¡informa-on ¡ (as ¡implemented ¡in, ¡e.g., ¡parsers)? ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  4. Answer ¡in ¡a ¡nutshell ¡ We ¡can! ¡ ¡ 1. Use ¡word ¡embeddings ¡for ¡a ¡word-­‑by-­‑word ¡ comparison ¡of ¡pairs ¡of ¡sentences ¡ 2. Derive ¡features ¡from ¡the ¡comparison ¡ 3. Train ¡SVM ¡classifier ¡ 4. Predict ¡similarity ¡for ¡new ¡unseen ¡sentence ¡ pairs ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  5. Key ¡features ¡ • Arbitrary ¡number ¡of ¡word ¡embedding ¡ sets ¡ ¡ • Mul-ple ¡meta-­‑features ¡from ¡the ¡ comparison ¡of ¡the ¡short ¡text ¡pairs ¡ ¡ • No ¡external ¡seman-c ¡knowledge ¡and ¡ linguis-c ¡tools ¡like ¡parsers ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  6. From ¡word ¡level ¡seman-cs ¡to ¡ sentence ¡level ¡seman-cs ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  7. Mul-ple ¡embedding ¡spaces ¡ Out ¡of ¡the ¡box ¡ • word2vec ¡ • Mikolov, ¡et ¡al. ¡2013 ¡ • Baroni, ¡et ¡al. ¡2014 ¡ • GloVe ¡ • 42B ¡– ¡Pennington, ¡et ¡al. ¡2013 ¡ • 840B ¡– ¡Pennington, ¡et ¡al. ¡2013 ¡ Auxiliary ¡– ¡trained ¡on ¡INEX ¡dataset ¡ • word2vec ¡ • GloVe ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  8. Seman-c ¡graph ¡ Features ¡from ¡seman-c ¡graph ¡ ¡ • bins ¡of ¡all ¡edges ¡ • bins ¡of ¡max ¡edges ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  9. Saliency-­‑weighted ¡seman-c ¡graph ¡ Features ¡from ¡ ¡seman-c ¡graph ¡ ¡ • bins ¡of ¡all ¡edges ¡ • bins ¡of ¡max ¡edges ¡ Saliency ¡weigh-ng ¡func-on ¡ sem(w, ¡s short ) ¡* ¡(k 1 ¡+ ¡1) ¡ IDF(w) ¡* ¡ ¡ sem(w, ¡s short ) ¡+ ¡k 1 ¡* ¡(1 ¡– ¡b ¡+ ¡b ¡* ¡(s short ¡/ ¡avsl)) ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  10. Vector ¡means ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  11. Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  12. Results ¡on ¡MSR ¡Paraphrase ¡Corpus ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  13. Error ¡analysis: ¡lexical ¡overlap ¡ 350 TP TN 300 FN FP 250 Number of examples 200 150 100 50 0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 Lexical overlap (%) Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  14. Key ¡features ¡ • Arbitrary ¡number ¡of ¡word ¡embedding ¡ sets ¡ ¡ • Mul-ple ¡meta-­‑features ¡from ¡the ¡ comparison ¡of ¡the ¡short ¡text ¡pairs ¡ ¡ • No ¡external ¡seman-c ¡knowledge ¡and ¡ linguis-c ¡tools ¡like ¡parsers ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

  15. Thank ¡you! ¡ ¡ ¡ www.tomkenter.nl ¡ tom.kenter@uva.nl ¡ @TomKenter ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend