symposium on bias and diversity in ir
play

SYMPOSIUM ON BIAS AND DIVERSITY IN IR A TESTBED FOR - PowerPoint PPT Presentation

SYMPOSIUM ON BIAS AND DIVERSITY IN IR A TESTBED FOR DIVERSIFICATON IN SEARCH Koblenz, August 31, 2011 Michael Ma:hews, Barcelona Media/Yahoo! Research


  1. SYMPOSIUM ¡ON ¡BIAS ¡AND ¡ DIVERSITY ¡IN ¡IR ¡ ¡ A ¡TESTBED ¡FOR ¡DIVERSIFICATON ¡IN ¡SEARCH ¡ ¡ Koblenz, ¡August ¡31, ¡2011 ¡ Michael ¡Ma:hews, ¡Barcelona ¡Media/Yahoo! ¡Research ¡ 1 ¡

  2. OVERVIEW ¡ • Introduc0on ¡to ¡LivingKnowledge ¡Testbed ¡ – ¡The ¡Diversity ¡Engine ¡ • GeAng ¡started ¡– ¡Our ¡first ¡applica0on! ¡ • Adding ¡text ¡analysis ¡ • Adding ¡mul0media ¡analysis ¡ • Evalua0on ¡ • Indexing ¡and ¡search ¡ • Developing ¡applica0ons ¡ • Future ¡work ¡ 2 ¡

  3. DIVERSITY ¡ENGINE ¡ • Provide ¡collec0ons, ¡annota0on ¡tools ¡and ¡an ¡ evalua0on ¡framework ¡to ¡allow ¡for ¡ collabora0ve ¡and ¡comparable ¡research ¡ • Supports ¡indexing ¡and ¡searching ¡on ¡a ¡wide ¡ variety ¡of ¡document ¡annota0ons ¡including ¡ en00es, ¡bias, ¡trust, ¡polarity, ¡and ¡mul0media ¡ features ¡ ¡ • Support ¡development ¡of ¡bias ¡and ¡diversity ¡ aware ¡applica0ons ¡

  4. ARCHITECTURE ¡ Analysis Index/ Application Document Pipeline Search Development Collections NYT Yahoo! News • Prediction ¡of ¡Community ¡Acceptance • Sentiment ¡in ¡Comments ¡ ßà Comment ¡Ratings • Polarizing ¡Videos ¡ ßà Distribution ¡of ¡Ratings ARC • Topic ¡of ¡Videos ¡ ßà Distribution ¡of ¡Ratings Crawls Evaluation Framework

  5. ¡DESIGN ¡DECISIONS ¡ • Use ¡Open ¡Source ¡tools ¡when ¡available ¡ • Programming ¡Language ¡-­‑ ¡Java ¡1.6 ¡ • Data ¡format ¡– ¡LK ¡XML ¡ • Analysis ¡tools ¡Opera0ng ¡System ¡– ¡Linux ¡ (any ¡so\ware ¡language) ¡ • Indexing/Search ¡-­‑ ¡Solr ¡ • GUI ¡– ¡JSP, ¡HTML, ¡JavaScript, ¡CSS ¡ 5 ¡

  6. LK-­‑XML ¡format. ¡

  7. ¡DOCUMENT ¡COLLECTIONS ¡ • Supported ¡Formats ¡-­‑ARC ¡(Internet ¡ Memory ¡Crawls) ¡,Text, ¡HTML. ¡Kyoto, ¡ BBN, ¡NYT ¡ • Collec0ons ¡ – Tes0ng ¡Examples ¡included ¡with ¡Diversity ¡ Engine ¡ – Large ¡ARCs ¡available ¡from ¡Internet ¡Memory ¡ – Converters ¡provided ¡for ¡other ¡collec0ons ¡ (MPQA, ¡BBN, ¡NYT) ¡that ¡have ¡licensing ¡ restric0ons ¡ 7 ¡

  8. ¡ANALYSIS ¡MODULES ¡ Image ¡Processing Text ¡Processing OpenNLP ¡Entities Wikipedia ¡Places Face ¡Detection City/Landscape Wikipedia ¡People Disambiguated ¡Entities Naturalness Tone Document ¡Layout URLs Colourfulness Photomontage Readability4J SIFT ¡Features Face ¡Tampering Annotations Photo/Cartoon/CG Text ¡Annotation ¡Processing Sentiment Histogram POS EXIF Image ¡Clustering Syntax ¡& ¡ Dictionary TimeML Semantics Sentence ¡ Phrases Statements Subjectivity Image ¡Annotation ¡Processing Quotes SuperSense ¡Tagger Subjective ¡Expressions RDFa ¡Injection Vector ¡Quantisation 8 ¡

  9. ¡INDEXING/SEARCH ¡ • Solr ¡ – Enterprise ¡search ¡pladorm ¡built ¡on ¡top ¡of ¡Lucene ¡ – Xml ¡input ¡and ¡output ¡allows ¡for ¡easy ¡integra0on ¡ with ¡Diversity ¡Engine ¡ – Plug-­‑in ¡framework ¡allows ¡customiza0on ¡ – Built-­‑in ¡facet ¡capabili0es ¡support ¡indexing ¡and ¡ searching ¡on ¡annota0ons ¡ • Integra0on ¡ – Converter ¡from ¡LK ¡XML ¡– ¡Solr ¡XML ¡ – Plug-­‑in ¡for ¡facet ¡ranking ¡and ¡speed ¡improvements ¡ 9 ¡

  10. ¡APPLICATION ¡DEVELOPMENT ¡ • Basis ¡for ¡LivingKnowledge ¡Applica0ons ¡ – Future ¡Predictor ¡ – Media ¡Content ¡Analysis ¡ • Support ¡development ¡– ¡coding ¡required! ¡ • Real ¡World ¡Problems ¡ – HTML ¡Extrac0on ¡ – Scaling ¡to ¡Large ¡Collec0ons ¡ – Provenance ¡ – Some ¡pluggable ¡GUI ¡components ¡ – Examples ¡to ¡ease ¡learning ¡curve ¡ ¡ 10 ¡

  11. ¡APPLICATION ¡DEVELOPMENT ¡ 11 ¡

  12. ¡APPLICATION ¡DEVELOPMENT ¡ 12 ¡

  13. EVALUATION ¡FRAMEWORK ¡ • Framework ¡for ¡the ¡evalua0on ¡of ¡analysis ¡ tools ¡ • Evaluates ¡any ¡possible ¡annota0on ¡ pipeline ¡ • Measures ¡correctness ¡and ¡quality ¡ • Outputs ¡Precision ¡+ ¡Recall ¡ • Compares ¡annota0on ¡output ¡of ¡pipeline ¡ with ¡ground ¡truth ¡data ¡ 13 ¡

  14. ¡OUR ¡FIRST ¡APPLICATION ¡ Download ¡Diversity ¡Engine ¡release ¡from ¡SourceForge ¡ ¡ • tar ¡xzvf ¡[release ¡file] ¡ • cd ¡testbed ¡ • ant ¡build ¡ • apps/testbed ¡conf/testbed/tutorial-­‑applica0on.xml ¡ • What ¡happened? ¡ • – 197 ¡text ¡files ¡and ¡127 ¡images ¡files ¡converted ¡from ¡arc ¡format ¡to ¡LK ¡XML ¡and ¡ stored ¡in ¡devapps/example/data/lkxml ¡ – 2 ¡annotators ¡were ¡run ¡over ¡collec0on ¡ • OpenNLP ¡for ¡tokeniza0on, ¡sentence ¡spliAng, ¡Pos ¡tags ¡ • SST ¡named ¡en0ty ¡recognizer ¡ • Results ¡stored ¡in ¡devapps/example/data/lkxml ¡ – Files ¡were ¡converted ¡to ¡Solr ¡xml ¡format ¡and ¡indexed ¡using ¡solr ¡ • Solr ¡XML ¡stored ¡to ¡devapps/example/data/solr ¡ – HTML ¡Visualiza0on ¡Files ¡stored ¡in ¡devapps/example/data/html ¡ ant ¡deploy-­‑testbed ¡ • – Solr ¡running ¡at ¡hnp://localthost:8983/solr/ ¡ – Example ¡app ¡running ¡at ¡hnp://localhost:8983/testbed/ ¡ 14 ¡

  15. ¡EXAMPLE ¡SOLR ¡OUTPUT ¡ hnp://localhost:8983/solr/select/?q=pu0n ¡ 15 ¡

  16. ¡EXAMPLE ¡APPLICATION ¡ hnp://localhost:8983/testbed/results.jsp?query=pu0n ¡ 16 ¡

  17. ¡EXAMPLE ¡DOCUMENT ¡ 17 ¡

  18. ¡CONFIGURATION ¡FILE ¡ <lk-application logDir= "log" appDir= "devapps/example" > <corpus dir= "corpora/examples/smallarc" format= "arc" /> <image-pipeline> <annotators> </annotators> </image-pipeline> <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> </annotators> </pipeline> <visualize/> <indexer solrHomeDir= "solr/solr“ solrDataDir= "solr/solr/data“ converter= "conf/testbed/tutorial-lk2solr.xml" /> <searcher appTitle= "LivingKnowledge - Example Application" appShortTitle= "Example Application" appUrl= "http://localhost:8983/solr/" > <facets> <facet field= "per" description= "Person" /> <facet field= "loc" description= "Location" /> </facets> </searcher> </lk-application> 18 ¡

  19. ¡TEXT ¡ANALYSIS ¡ <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> </annotators> </pipeline> <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> <annotator exec= "./facts" /> <annotator exec= "./unitn_tagger" /> <annotator exec= "./unitn_subjexpr" /> </annotators> </pipeline> apps/testbed –run pipeline conf/testbed/tutorial-application.xml apps/testbed –run visualization conf/testbed/tutorial-application.xml 19 ¡

  20. ¡TEXT ¡ANALYSIS ¡-­‑ ¡FACTS ¡ devapps/example/data/lkxml/EA-­‑EUElecKons2009-­‑euobserver-­‑0729-­‑20090729085530-­‑00000.arc.15521713.facts.xml ¡ 20 ¡

  21. ¡TEXT ¡ANALYSIS ¡-­‑ ¡FACTS ¡ devapps/example/data/html/EA-­‑EUElecKons2009-­‑euobserver-­‑0729-­‑20090729085530-­‑00000.arc.15521713.html ¡ 21 ¡

  22. ¡IMAGE ¡ANALYSIS ¡ <image-pipeline> <annotators> <annotator exec= "./soton_haarfacedetector" /> </annotators> </pipeline> <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> <annotator exec= "./facts" /> <annotator exec= "./unitn_tagger" /> <annotator exec= "./unitn_subjexpr" /> <annotator exec= "./imageannots" /> </annotators> </pipeline> apps/testbed –run pipeline,image-pipeline –pipeline imageannots conf/testbed/tutorial-application.xml ls devapps/example/data/lkxml/img/* 22 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend