discovering olap dimensions in semi structured data
play

Discovering OLAP Dimensions in Semi-Structured Data - PowerPoint PPT Presentation

Discovering OLAP Dimensions in Semi-Structured Data Svetlana Mansmann, Nafees Ur Rehman, Andreas Weiler, Marc H. Scholl Database & InformaEon Systems


  1. Discovering ¡OLAP ¡Dimensions ¡in ¡ Semi-­‑Structured ¡Data ¡ Svetlana ¡Mansmann, ¡Nafees ¡Ur ¡Rehman, ¡Andreas ¡Weiler, ¡Marc ¡H. ¡Scholl ¡ Database ¡& ¡InformaEon ¡Systems ¡(DBIS) ¡ Dept ¡of ¡Computer ¡Science, ¡University ¡of ¡Konstanz, ¡Germany ¡ 02-­‑Nov-­‑12 ¡ 1 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  2. Outline ¡  IntroducEon ¡& ¡MoEvaEon ¡  Social ¡Networks ¡and ¡Big ¡Data ¡  OLAP ¡and ¡Data ¡Mining ¡for ¡“Big ¡Data” ¡  Acquiring ¡Facts ¡and ¡Dimensions ¡  Data ¡TransformaEon ¡  Discovering ¡New ¡Elements ¡  Modeling ¡Discovered ¡Elements ¡  Usage ¡& ¡Maintenance ¡of ¡Dynamic ¡Elements ¡  Conclusion ¡ ¡ 02-­‑Nov-­‑12 ¡ 2 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  3. IntroducEon ¡& ¡MoEvaEon ¡  Social ¡Networks ¡  Growing ¡popularity ¡  Huge ¡data ¡volumes ¡  High ¡data ¡generaEon ¡rate ¡  Heterogeneity ¡ ¡  “Big ¡Data” ¡ 02-­‑Nov-­‑12 ¡ 3 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  4. IntroducEon ¡& ¡MoEvaEon ¡  Data ¡Warehouse ¡vs. ¡noSQL ¡  Established ¡and ¡mature ¡technology ¡  Standardized ¡for ¡interchangeability ¡  IntegraEon ¡with ¡Data ¡Mining ¡  Abundance ¡of ¡tools ¡for ¡various ¡tasks ¡  Challenges ¡  Heterogeneous ¡and ¡semi-­‑structured ¡content ¡  Dynamic ¡data, ¡changing ¡dimensions ¡  High ¡data ¡arrival ¡rate ¡  Non-­‑trivial ¡analysis ¡tasks ¡ 02-­‑Nov-­‑12 ¡ 4 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  5. Twi_er: ¡A ¡moEvaEonal ¡scenario ¡  Why ¡Twi_er? ¡  News ¡broadcast ¡& ¡InformaEon ¡exchange ¡placorm ¡  AcEve ¡Users ¡  ¡> ¡140 ¡million ¡  Daily ¡Tweets ¡  ¡> ¡340 ¡million ¡  Set ¡of ¡configurable ¡APIs: ¡ ¡  Search, ¡Rest, ¡Stream ¡ 02-­‑Nov-­‑12 ¡ 5 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  6. Twi_er: ¡Output ¡Data ¡Format ¡  Twi_er ¡APIs ¡output ¡the ¡semi-­‑structured ¡data ¡ as ¡JSON ¡objects: ¡  User ¡data ¡ <tweet> ¡ ¡ <text> ¡  Status ¡(tweet) ¡data ¡ ¡ ¡ ¡ ¡ ¡ ¡If ¡you ¡havent ¡read ¡about ¡Mario ¡Balotelli ¡yet, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡you ¡MUST ¡before ¡todays ¡#EURO2012 ¡final: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡h_p://t.co/2aFDjnsD ¡ ¡  Timeline ¡data ¡ ¡ </text> ¡ ¡ ¡ ¡ ¡ ¡ ¡<truncated>true</truncated> ¡ ¡ ¡ ¡ ¡ ¡ ¡<date>2012-­‑01-­‑07 ¡18:36:05.000</date> ¡  Over ¡67 ¡metadata ¡fields ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<source>web</source> ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<retweeted>true</retweeted> ¡ ¡<user> ¡  10% ¡of ¡the ¡public ¡stream ¡ ¡ ¡ ¡ ¡<name>Marcel***</name> ¡ ¡ ¡ ¡ ¡<date>2011-­‑08-­‑01 ¡06:06:34:12.000</date> ¡ ¡ ¡ ¡ ¡<utc-­‑offset>-­‑18000</utc-­‑offset> ¡ ¡ ¡ ¡ ¡<language>en</language> ¡ ¡ ¡ ¡ ¡is ¡available ¡ ¡ ¡ ¡ ¡<geo-­‑enabled>False</geo-­‑enabled> ¡ ¡ ¡ ¡ ¡<statuses_count>1521</statuses_count> ¡ ¡ ¡ ¡ ¡<followers_count>121</followers_count> ¡ ¡ ¡ ¡ ¡</user> ¡ </tweet> ¡ 02-­‑Nov-­‑12 ¡ 6 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  7. MulE-­‑Layered ¡Architecture ¡for ¡Twi_er ¡Data ¡Warehouse ¡ 5th layer: PRESENTATION OLAP frontend Data Mining tool DSS frontend spreadsheet web frontend 4th layer: ANALYSIS OLAP Data Mining DSS methods Tweet Mart User Mart Media Mart Microsos ¡ ¡ Archiving system SQL ¡Server Metadata Monitoring Administration 3rd layer: DATA WAREHOUSE BaseX XML storage Extractor ¡ Enrichment ¡ Staging area 2nd layer: ETL 1st layer: DATA SOURCES external sources REST API Search API Streaming API 02-­‑Nov-­‑12 ¡ 7 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  8. Twi_er ¡stream ¡ ¡-­‑ ¡a ¡Structured ¡View ¡  Twi_er ¡data ¡model: ¡  Original ¡model ¡is ¡not ¡available ¡  Streamed ¡data ¡is ¡poorly ¡documented ¡  RelaEonships ¡between ¡fields ¡are ¡not ¡obvious ¡  Reverse ¡engineering ¡of ¡the ¡data ¡model ¡  Related ¡fields ¡are ¡grouped ¡into ¡classes ¡  RelaEonships ¡between ¡classes ¡are ¡specified ¡  Constraints ¡are ¡defined ¡ 8 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡ 02-­‑Nov-­‑12 ¡

  9. Twi_er ¡stream ¡ ¡-­‑ ¡a ¡Structured ¡View ¡ 9 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡ 02-­‑Nov-­‑12 ¡

  10. Acquiring ¡Facts ¡and ¡Dimensions ¡  Cube ¡candidates: ¡  user-­‑related ¡data ¡  tweet-­‑related ¡data ¡  content ¡elements ¡  Granularity ¡levels: ¡  user ¡staEsEcs ¡  messaging ¡staEsEcs ¡  topics ¡& ¡terms ¡ ¡ 02-­‑Nov-­‑12 ¡ 10 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  11. Acquiring ¡Facts ¡and ¡Dimensions ¡  Simple ¡derivaEon ¡/ ¡computaEon ¡  Including ¡external ¡data ¡sources ¡  geo-­‑informaEon, ¡vocabularies ¡  Applying ¡external ¡funcEons ¡(APIs) ¡  language ¡detecEon ¡and ¡translaEon ¡ ¡  senEment ¡analysis ¡  spam ¡detecEon ¡  … ¡  Data ¡mining ¡  hidden ¡relaEonships, ¡clustering, ¡ranking ¡ 02-­‑Nov-­‑12 ¡ 11 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  12. Discovered ¡Facts ¡and ¡Dimensions ¡  Simple ¡DerivaEon ¡ Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡  Fact/Measure ¡ExtracEon ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡  Length ¡of ¡Tweet ¡: ¡64 ¡ Viva ¡Italia ¡  Number ¡of ¡Hashtags: ¡1 ¡  Dimension ¡ ALL ¡  Source ¡  Web, ¡App, ¡Phone ¡ Source ¡  Hierarchy ¡ Brand ¡  Source ¡ User ¡ 02-­‑Nov-­‑12 ¡ 12 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  13. Discovered ¡Facts ¡and ¡Dimensions ¡  External ¡Data ¡Sources ¡& ¡APIs ¡  Language ¡ ¡ Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡  English ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡  EnEty ¡DetecEon ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡  Event ¡ Viva ¡Italia ¡  Euro ¡(Championship) ¡ ¡  Facility ¡  BriEsh ¡pub ¡  Country ¡  Italy ¡  Topic ¡  Sports ¡  Tags: ¡Sports, ¡Fun, ¡Eurocup ¡  SenEment: ¡PosiEve ¡ 02-­‑Nov-­‑12 ¡ 13 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  14. Discovered ¡Facts ¡and ¡Dimensions ¡  Data ¡Mining ¡  Clusters ¡of ¡Users ¡  Trending, ¡Spam, ¡Lifestyle, ¡etc. ¡  Clusters ¡of ¡Tweets ¡  Popularity ¡  Non-­‑Trivial ¡RelaEonships ¡  What ¡contributes ¡to ¡popularity ¡& ¡trending ¡of ¡  users ¡  tweets ¡ 02-­‑Nov-­‑12 ¡ 14 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  15. Discovered ¡Facts ¡and ¡Dimensions ¡  Tweet ¡Popularity ¡ Classifier ¡  User ¡Popularity ¡ Classifier ¡ 02-­‑Nov-­‑12 ¡ 15 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend