data explora on
play

Data Explora/on Large and complex datasets are commonplace - PowerPoint PPT Presentation

2/1/10 Data Explora/on Large and complex datasets are commonplace nowadays. Cost-Driven Explora2on of Product Catalogs (Amazon, eBay, ) Faceted


  1. 2/1/10 ¡ Data ¡Explora/on ¡ • Large ¡and ¡complex ¡datasets ¡are ¡commonplace ¡ nowadays. ¡ ¡ Cost-­‑Driven ¡Explora2on ¡of ¡ – Product ¡Catalogs ¡(Amazon, ¡eBay, ¡…) ¡ Faceted ¡Query ¡Results ¡ – Publica/ons ¡(Google ¡Scholar, ¡CiteSeer, ¡DBLP, ¡…) ¡ – Gene/Protein ¡Databases ¡(PubMed) ¡ Abhijith ¡Kashyap ¡ • Exposing ¡such ¡datasets ¡to ¡users ¡is ¡ challenging ¡ Vagelis ¡Hris/dis ¡ – Users ¡have ¡a ¡hard ¡/me ¡querying ¡these ¡datasets ¡and ¡ understanding ¡the ¡results. ¡ ¡ ¡ Michalis ¡Petropoulos ¡ – Research ¡in ¡Data ¡Explora/on ¡aims ¡at ¡ easing ¡this ¡pain. ¡ Data ¡Explora/on ¡Tasks ¡ ¡ Example: ¡Google ¡Scholar ¡ • ¡In ¡the ¡simplest ¡case, ¡a ¡user: ¡ ¡ – ¡ ¡Issues ¡a ¡Query ¡ ¡ • Query ¡Formula/on ¡ (Data ¡Explora/on ¡ buzzwords ¡in ¡blue ) ¡ – Browse ¡the ¡returned ¡results. ¡ ¡ • Result ¡Naviga/on ¡ 1 ¡

  2. 2/1/10 ¡ Data ¡Explora/on ¡Challenges ¡ Approaches ¡to ¡Simplify ¡Data ¡Explora/on ¡ • Query ¡Formula/on ¡ • Users ¡have ¡difficulty ¡in ¡formula/ng ¡queries ¡ – Simple ¡Keyword ¡based ¡interface ¡(a ¡la ¡Google) ¡ – Unfamiliarity ¡with ¡underlying ¡data ¡or ¡its ¡structure. ¡ ¡ • Limited ¡expressivity. ¡ – Many ¡queries ¡are ¡ underspecified ¡ ¡ – Advanced ¡Search ¡form ¡ • Informa/on ¡Overload: ¡Most ¡queries ¡issued ¡ • Difficult ¡to ¡Build ¡and ¡difficult ¡to ¡use. ¡ ¡ – Query ¡Autocomplete ¡ ¡ against ¡such ¡datasets ¡return ¡a ¡large ¡number ¡of ¡ • Works ¡for ¡a ¡small ¡number ¡of ¡keywords. ¡ results. ¡ ¡ – Users ¡have ¡trouble ¡naviga/ng ¡large ¡resultsets ¡ Some ¡recent ¡representa/ve ¡works: ¡ looking ¡for ¡results ¡that ¡sa/sfy ¡their ¡informa/on ¡ • DISCOVER: ¡Keyword ¡Search ¡in ¡Rela2onal ¡Databases. ¡ Vagelis ¡Hris/dis, ¡Yannis ¡Papakonstan/nou. ¡VLDB ¡2002 ¡ need ¡ ¡ • Automated ¡Crea2on ¡of ¡a ¡Forms-­‑based ¡Database ¡Query ¡Interface ¡ Magesh ¡Jayapandian ¡and ¡H. ¡V. ¡Jagadish ¡ VLDB ¡Auckland, ¡New ¡Zealand ¡VLDB ¡2008 ¡ • Combining ¡Keyword ¡Search ¡and ¡Forms ¡for ¡Ad ¡Hoc ¡Querying ¡of ¡Databases . ¡ Eric ¡Chu, ¡Akanksha ¡Baid, ¡Xiaoyong ¡Chai, ¡AnHai ¡Doan ¡and ¡Jeffrey ¡Naughton. ¡ ¡ SIGMOD ¡2009. ¡ • Type ¡Less, ¡Find ¡More: ¡Fast ¡Autocomple2on ¡Search ¡With ¡a ¡Succinct ¡Index. ¡ H ¡Bast, ¡I ¡Weber. ¡SIGIR ¡06. ¡ Advanced ¡Search ¡ Approaches ¡to ¡Simplify ¡ Google ¡Scholar ¡ Data ¡Explora/on ¡(cont’d) ¡ • Results ¡Naviga/on ¡ – Results ¡Ranking ¡ – Results ¡Categoriza/on ¡ 2 ¡

  3. 2/1/10 ¡ Results ¡Ranking ¡ Results ¡Categoriza/on ¡ • Results ¡Ranking ¡ ¡ • Organizes ¡the ¡results ¡into ¡categories ¡ – Present ¡an ¡ordered ¡list ¡of ¡results, ¡ordered ¡by ¡a ¡ – A ¡category ¡can ¡be ¡either: ¡ predefined ¡Ranking ¡func/on ¡ • A ¡flat ¡list ¡of ¡terms ¡ ¡ • PageRank ¡(Brin ¡et. ¡al.) ¡ • Organized ¡in ¡an ¡ontology ¡or ¡a ¡concept ¡hierarchy ¡ • ObjectRank ¡(Hris/dis ¡et. ¡al) ¡ – Typically ¡more ¡than ¡one ¡ • ¡Many ¡others ¡(see ¡works ¡by ¡V. ¡Hris/dis, ¡S. ¡Chaudhuri) ¡ ¡ – Used ¡in ¡conjunc/on ¡with ¡ranking ¡ – Problems: ¡ • Each ¡categoriza/on ¡of ¡the ¡results ¡is ¡oien ¡ • Difficult ¡to ¡explain ¡and ¡customize ¡ – Ranking ¡is ¡not ¡aligned ¡with ¡user ¡preference ¡ referred ¡to ¡as ¡a ¡facet ¡ • Problem ¡becomes ¡harder ¡with ¡structured ¡data ¡ – Focus ¡of ¡this ¡work ¡(and ¡presenta/on) ¡ Example: ¡Unstructured ¡Data ¡ Example: ¡Structured ¡Data ¡ Google ¡news ¡ Amazon.com ¡ Hierarchical ¡Facet ¡ Flat ¡Facet ¡ 3 ¡

  4. 2/1/10 ¡ Results ¡Categoriza/on ¡(cont’d) ¡ Example: ¡Amazon.com ¡(cont’d) ¡ • Categoriza/on ¡reduces ¡the ¡user ¡effort ¡during ¡ Results ¡Naviga/on. ¡ • Users ¡navigate ¡the ¡results ¡by ¡selec/ng ¡ condi/ons ¡from ¡one ¡or ¡more ¡facets. ¡ • Each ¡selec/on ¡narrows ¡down ¡the ¡results. ¡ (or ¡ refines ¡ the ¡query) ¡ • The ¡user ¡refines ¡the ¡results ¡un/l ¡she ¡narrows ¡ down ¡to ¡the ¡subset ¡of ¡results ¡that ¡sa/sfies ¡her ¡ informa/on ¡need. ¡ Example: ¡Amazon.com ¡(cont’d) ¡ Faceted ¡Naviga/on ¡ • The ¡user ¡navigates ¡the ¡facet ¡classifica/on ¡ instead ¡of ¡the ¡results. ¡ ¡ The ¡results ¡have ¡narrowed ¡ down ¡significantly ¡ • This ¡classifica/on ¡is ¡typically ¡smaller ¡and ¡ beker ¡organized ¡than ¡the ¡resultset ¡ ¡ Two ¡more ¡condi2ons ¡ • Problems: ¡ ¡ selected ¡ – The ¡facet ¡classifica/on ¡is ¡not ¡ small ¡ enough ¡ • The ¡set ¡of ¡all ¡available ¡choices ¡can ¡easily ¡overwhelm ¡ the ¡user. ¡ ¡ • Amazon ¡was ¡a ¡very ¡simple ¡example ¡ – Try ¡naviga/ng ¡DBLP ¡or ¡Genome ¡databases. ¡ ¡ 4 ¡

  5. 2/1/10 ¡ Hidden ¡Slide ¡ Managing ¡Faceted ¡Naviga/on ¡ • How ¡should ¡the ¡facets ¡and ¡facet ¡condi/ons ¡be ¡ • You ¡might ¡need ¡a ¡more ¡tedious ¡example ¡than ¡ presented ¡to ¡the ¡user? ¡ Amazon ¡here ¡ • Solu/on: ¡Show ¡only ¡a ¡small ¡subset ¡of ¡facets ¡ and ¡facet ¡condi/ons ¡ – Almost ¡all ¡interfaces ¡select ¡facets ¡and ¡condi/ons ¡ based ¡on ¡cardinality ¡(number ¡of ¡results). ¡ ¡ – Can ¡result ¡in ¡ sub-­‑op?mal ¡naviga/on! ¡ – Remember: ¡The ¡objec/ve ¡is ¡to ¡decrease ¡user ¡ effort. ¡ ¡ Managing ¡Faceted ¡Naviga/on: ¡ Example: ¡Amazon.com ¡(cont’d) ¡ Our ¡Approach ¡ • Idea: ¡ “Top” ¡categories ¡aren’t ¡ necessarily ¡the ¡best ¡ – The ¡objec/ve ¡is ¡to ¡decrease ¡user ¡effort. ¡ – So, ¡select ¡the ¡set ¡of ¡facet ¡condi/ons ¡that ¡minimize ¡ the ¡user ¡effort ¡and ¡show ¡them ¡to ¡the ¡user. ¡ • Problems: ¡ – How ¡to ¡measure ¡user ¡effort? ¡ ¡ – Even ¡if ¡we ¡could, ¡how ¡do ¡me ¡measure ¡it ¡even ¡ before ¡the ¡user ¡begins ¡the ¡naviga/on? ¡ ¡ 5 ¡

  6. 2/1/10 ¡ Measuring ¡User ¡Effort ¡ Example: ¡Amazon.com ¡(cont’d) ¡ Example: ¡ ¡ The ¡total ¡cost ¡of ¡naviga/on ¡in ¡the ¡ previous ¡example ¡of ¡“asus ¡laptop” ¡is: ¡ 21 ¡(facet ¡condi2ons) ¡+ ¡4 ¡ • A ¡user ¡naviga/ng ¡the ¡results ¡spends ¡/me ¡and ¡ (refinements) ¡+ ¡18 ¡(results) ¡= ¡43 ¡ effort ¡in: ¡ – Reading ¡the ¡labels ¡of ¡facet ¡condi/ons ¡ – Deciding ¡and ¡clicking ¡on ¡the ¡selec/ng ¡the ¡facet ¡ condi/on ¡ – Reading ¡the ¡resultset. ¡ ¡ • Each ¡of ¡the ¡above ¡ac/on ¡contributes ¡to ¡ naviga/on ¡effort ¡or ¡naviga/on ¡cost ¡ Cost-­‑Based ¡Approach ¡ Decreasing ¡Naviga/on ¡Effort ¡ Decreasing ¡Naviga/on ¡Effort ¡ • In ¡the ¡above ¡naviga/on, ¡the ¡user ¡went ¡through: ¡ • We ¡claim: ¡ ¡ Electronics ¡>> ¡Computers… ¡>> ¡Laptops ¡>> ¡Windows ¡Vista ¡ ¡ ¡ ¡A ¡decreased ¡naviga/on ¡cost ¡translates ¡to: ¡ – Fewer ¡naviga/on ¡ac/ons ¡ ¡ • Instead , ¡if ¡the ¡naviga/on ¡had ¡ • User ¡reach ¡the ¡results ¡they ¡are ¡interested ¡in ¡quickly ¡ – ¡landed ¡directly ¡in ¡laptops, ¡the ¡cost ¡would ¡be: ¡ ¡ – Decreased ¡naviga/on ¡/me ¡ ¡ 6 ¡(opera2ng ¡systems) ¡+ ¡1 ¡(refine) ¡+ ¡18 ¡(results) ¡= ¡25! ¡ – Beker ¡user ¡experience ¡ ¡ – Could ¡have ¡been ¡even ¡less ¡if ¡fewer ¡choices ¡for ¡ opera/ng ¡systems ¡were ¡shown. ¡ • And, ¡experiments ¡support ¡the ¡claim. ¡ – Gets ¡beker ¡with ¡more ¡facets ¡and ¡more ¡complex ¡ datasets. ¡ 6 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend