Discovering OLAP Dimensions in Semi-Structured Data - - PowerPoint PPT Presentation

discovering olap dimensions in semi structured data
SMART_READER_LITE
LIVE PREVIEW

Discovering OLAP Dimensions in Semi-Structured Data - - PowerPoint PPT Presentation

Discovering OLAP Dimensions in Semi-Structured Data Svetlana Mansmann, Nafees Ur Rehman, Andreas Weiler, Marc H. Scholl Database & InformaEon Systems


slide-1
SLIDE 1

Discovering ¡OLAP ¡Dimensions ¡in ¡ Semi-­‑Structured ¡Data ¡

Svetlana ¡Mansmann, ¡Nafees ¡Ur ¡Rehman, ¡Andreas ¡Weiler, ¡Marc ¡H. ¡Scholl ¡ Database ¡& ¡InformaEon ¡Systems ¡(DBIS) ¡ Dept ¡of ¡Computer ¡Science, ¡University ¡of ¡Konstanz, ¡Germany ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 1 ¡

slide-2
SLIDE 2

Outline ¡

  • IntroducEon ¡& ¡MoEvaEon ¡
  • Social ¡Networks ¡and ¡Big ¡Data ¡
  • OLAP ¡and ¡Data ¡Mining ¡for ¡“Big ¡Data” ¡
  • Acquiring ¡Facts ¡and ¡Dimensions ¡
  • Data ¡TransformaEon ¡
  • Discovering ¡New ¡Elements ¡
  • Modeling ¡Discovered ¡Elements ¡
  • Usage ¡& ¡Maintenance ¡of ¡Dynamic ¡Elements ¡
  • Conclusion ¡ ¡

02-­‑Nov-­‑12 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

2 ¡

slide-3
SLIDE 3

IntroducEon ¡& ¡MoEvaEon ¡

  • Social ¡Networks ¡
  • Growing ¡popularity ¡
  • Huge ¡data ¡volumes ¡
  • High ¡data ¡generaEon ¡rate ¡
  • Heterogeneity ¡ ¡
  • “Big ¡Data” ¡

02-­‑Nov-­‑12 ¡ 3 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-4
SLIDE 4

IntroducEon ¡& ¡MoEvaEon ¡

  • Data ¡Warehouse ¡vs. ¡noSQL ¡
  • Established ¡and ¡mature ¡technology ¡
  • Standardized ¡for ¡interchangeability ¡
  • IntegraEon ¡with ¡Data ¡Mining ¡
  • Abundance ¡of ¡tools ¡for ¡various ¡tasks ¡
  • Challenges ¡
  • Heterogeneous ¡and ¡semi-­‑structured ¡content ¡
  • Dynamic ¡data, ¡changing ¡dimensions ¡
  • High ¡data ¡arrival ¡rate ¡
  • Non-­‑trivial ¡analysis ¡tasks ¡

02-­‑Nov-­‑12 ¡ 4 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-5
SLIDE 5

Twi_er: ¡A ¡moEvaEonal ¡scenario ¡

  • Why ¡Twi_er? ¡
  • News ¡broadcast ¡& ¡InformaEon ¡exchange ¡placorm ¡
  • AcEve ¡Users ¡
  • ¡> ¡140 ¡million ¡
  • Daily ¡Tweets ¡
  • ¡> ¡340 ¡million ¡
  • Set ¡of ¡configurable ¡APIs: ¡ ¡
  • Search, ¡Rest, ¡Stream ¡

02-­‑Nov-­‑12 ¡ 5 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-6
SLIDE 6

Twi_er: ¡Output ¡Data ¡Format ¡

  • Twi_er ¡APIs ¡output ¡the ¡semi-­‑structured ¡data ¡

as ¡JSON ¡objects: ¡

  • User ¡data ¡
  • Status ¡(tweet) ¡data ¡
  • Timeline ¡data ¡
  • Over ¡67 ¡metadata ¡fields ¡
  • 10% ¡of ¡the ¡public ¡stream ¡

¡ ¡ ¡ ¡is ¡available ¡

02-­‑Nov-­‑12 ¡ 6 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

<tweet> ¡ ¡<text> ¡ ¡ ¡ ¡ ¡ ¡ ¡If ¡you ¡havent ¡read ¡about ¡Mario ¡Balotelli ¡yet, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡you ¡MUST ¡before ¡todays ¡#EURO2012 ¡final: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡h_p://t.co/2aFDjnsD ¡ ¡ ¡</text> ¡ ¡ ¡ ¡ ¡ ¡ ¡<truncated>true</truncated> ¡ ¡ ¡ ¡ ¡ ¡ ¡<date>2012-­‑01-­‑07 ¡18:36:05.000</date> ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<source>web</source> ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<retweeted>true</retweeted> ¡ ¡<user> ¡ ¡ ¡ ¡ ¡<name>Marcel***</name> ¡ ¡ ¡ ¡ ¡<date>2011-­‑08-­‑01 ¡06:06:34:12.000</date> ¡ ¡ ¡ ¡ ¡<utc-­‑offset>-­‑18000</utc-­‑offset> ¡ ¡ ¡ ¡ ¡<language>en</language> ¡ ¡ ¡ ¡ ¡<geo-­‑enabled>False</geo-­‑enabled> ¡ ¡ ¡ ¡ ¡<statuses_count>1521</statuses_count> ¡ ¡ ¡ ¡ ¡<followers_count>121</followers_count> ¡ ¡ ¡ ¡ ¡</user> ¡ </tweet> ¡

slide-7
SLIDE 7

MulE-­‑Layered ¡Architecture ¡for ¡Twi_er ¡Data ¡Warehouse ¡

02-­‑Nov-­‑12 ¡ 7 ¡

3rd layer: DATA WAREHOUSE

Microsos ¡ ¡ SQL ¡Server Metadata

Enrichment ¡

REST API Search API

external sources

Streaming API

2nd layer: ETL 1st layer: DATA SOURCES

BaseX XML storage Extractor ¡

Staging area

Tweet Mart User Mart

Monitoring Administration

Archiving system

Media Mart

4th layer: ANALYSIS

OLAP Data Mining DSS methods

5th layer: PRESENTATION

web frontend OLAP frontend spreadsheet DSS frontend Data Mining tool

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-8
SLIDE 8

Twi_er ¡stream ¡ ¡-­‑ ¡a ¡Structured ¡View ¡

8 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡

  • Twi_er ¡data ¡model: ¡
  • Original ¡model ¡is ¡not ¡available ¡
  • Streamed ¡data ¡is ¡poorly ¡documented ¡
  • RelaEonships ¡between ¡fields ¡are ¡not ¡obvious ¡
  • Reverse ¡engineering ¡of ¡the ¡data ¡model ¡
  • Related ¡fields ¡are ¡grouped ¡into ¡classes ¡
  • RelaEonships ¡between ¡classes ¡are ¡specified ¡
  • Constraints ¡are ¡defined ¡
slide-9
SLIDE 9

Twi_er ¡stream ¡ ¡-­‑ ¡a ¡Structured ¡View ¡

9 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡

slide-10
SLIDE 10

Acquiring ¡Facts ¡and ¡Dimensions ¡

  • Cube ¡candidates: ¡
  • user-­‑related ¡data ¡
  • tweet-­‑related ¡data ¡
  • content ¡elements ¡
  • Granularity ¡levels: ¡
  • user ¡staEsEcs ¡
  • messaging ¡staEsEcs ¡
  • topics ¡& ¡terms ¡ ¡

02-­‑Nov-­‑12 ¡ 10 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-11
SLIDE 11

Acquiring ¡Facts ¡and ¡Dimensions ¡

  • Simple ¡derivaEon ¡/ ¡computaEon ¡
  • Including ¡external ¡data ¡sources ¡
  • geo-­‑informaEon, ¡vocabularies ¡
  • Applying ¡external ¡funcEons ¡(APIs) ¡
  • language ¡detecEon ¡and ¡translaEon ¡ ¡
  • senEment ¡analysis ¡
  • spam ¡detecEon ¡
  • … ¡
  • Data ¡mining ¡
  • hidden ¡relaEonships, ¡clustering, ¡ranking ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 11 ¡

slide-12
SLIDE 12

Discovered ¡Facts ¡and ¡Dimensions ¡

  • Simple ¡DerivaEon ¡
  • Fact/Measure ¡ExtracEon ¡
  • Length ¡of ¡Tweet ¡: ¡64 ¡
  • Number ¡of ¡Hashtags: ¡1 ¡
  • Dimension ¡
  • Source ¡
  • Web, ¡App, ¡Phone ¡
  • Hierarchy ¡
  • Source ¡

Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡ Viva ¡Italia ¡

ALL ¡ User ¡ Brand ¡

Source ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 12 ¡

slide-13
SLIDE 13

Discovered ¡Facts ¡and ¡Dimensions ¡

  • External ¡Data ¡Sources ¡& ¡APIs ¡
  • Language

¡ ¡

  • English ¡
  • EnEty ¡DetecEon ¡
  • Event ¡
  • Euro ¡(Championship)

¡ ¡

  • Facility ¡
  • BriEsh ¡pub ¡
  • Country ¡
  • Italy ¡
  • Topic ¡
  • Sports ¡
  • Tags: ¡Sports, ¡Fun, ¡Eurocup ¡
  • SenEment: ¡PosiEve ¡

Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡ Viva ¡Italia ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 13 ¡

slide-14
SLIDE 14

Discovered ¡Facts ¡and ¡Dimensions ¡

  • Data ¡Mining ¡
  • Clusters ¡of ¡Users ¡
  • Trending, ¡Spam, ¡Lifestyle, ¡etc. ¡
  • Clusters ¡of ¡Tweets ¡
  • Popularity ¡
  • Non-­‑Trivial ¡RelaEonships ¡
  • What ¡contributes ¡to ¡popularity ¡& ¡trending ¡of ¡
  • users ¡
  • tweets ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 14 ¡

slide-15
SLIDE 15

Discovered ¡Facts ¡and ¡Dimensions ¡

02-­‑Nov-­‑12 ¡ 15 ¡

  • Tweet ¡Popularity ¡

Classifier ¡

  • User ¡Popularity ¡

Classifier ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-16
SLIDE 16

Modeling ¡Discovered ¡Elements ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 16 ¡

slide-17
SLIDE 17

Modeling ¡Discovered ¡Elements ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 17 ¡ 17 ¡

slide-18
SLIDE 18

Discovered ¡Hierarchy ¡-­‑ ¡Example ¡

  • Conceptual ¡modeling ¡of ¡new ¡elements ¡
  • Consider ¡user ¡dimension ¡in ¡the ¡TweetCount ¡fact ¡type ¡
  • What ¡about ¡a ¡hierarchy ¡of ¡user ¡popularity? ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 18 ¡

slide-19
SLIDE 19

Discovered ¡Hierarchy ¡-­‑ ¡Example ¡

  • Adopt ¡some ¡ranking ¡funcEon ¡(e.g., ¡based ¡on ¡the ¡number ¡
  • f ¡followers) ¡
  • Define ¡higher-­‑level ¡groupings ¡(e.g., ¡based ¡on ¡percentages ¡
  • r ¡thresholds) ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 19 ¡

slide-20
SLIDE 20

Discovered ¡Hierarchy ¡-­‑ ¡Example ¡

  • Add ¡new ¡aggregaEon ¡path ¡to ¡the ¡fact ¡schema ¡
  • Specify ¡the ¡computaEon ¡formula ¡for ¡added ¡elements ¡
  • Problem: ¡the ¡added ¡hierarchy ¡is ¡dynamic ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 20 ¡

slide-21
SLIDE 21

Maintenance ¡of ¡Dynamic ¡Elements ¡

  • Similar ¡to ¡Slowly ¡Changing ¡Dimensions ¡
  • MulE-­‑versioning ¡/ ¡historizaEon ¡
  • current ¡version ¡in ¡the ¡dimension ¡table ¡
  • Previous ¡version ¡in ¡history ¡table(s) ¡
  • Temporal ¡constraints ¡for ¡historical ¡records ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 21 ¡

slide-22
SLIDE 22

Querying ¡along ¡Dynamic ¡Elements ¡

  • OLAP ¡queries ¡with ¡mulE-­‑versioned ¡dimensions ¡
  • correct ¡aggregaEon ¡by ¡joining ¡the ¡fact ¡entries ¡with ¡

the ¡matching ¡versions ¡of ¡the ¡dimension ¡

  • “playing” ¡with ¡different ¡versions ¡for ¡what-­‑if ¡

analysis ¡

  • Examples ¡
  • retrieve ¡the ¡messages ¡tweeted ¡in ¡2009 ¡by ¡those ¡

users ¡who ¡are ¡popular ¡now ¡(and ¡not ¡in ¡2009!) ¡

  • retrieve ¡recent ¡tweets ¡containing ¡the ¡hashtags ¡

which ¡were ¡in ¡TOP ¡20 ¡in ¡2008 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

02-­‑Nov-­‑12 ¡ 22 ¡

slide-23
SLIDE 23

Conclusion ¡

  • Proposed ¡extracEon ¡of ¡mulE-­‑dimensional ¡data ¡

cube ¡from ¡semi-­‑structured ¡data. ¡

  • Extended ¡the ¡underlying ¡dataset ¡and ¡model ¡

using ¡DM ¡and ¡semanEc ¡enrichment ¡methods. ¡

  • Adapted ¡the ¡DWH ¡to ¡deal ¡with ¡the ¡changing/

dynamic ¡data ¡using ¡concept ¡of ¡SCD. ¡

  • Enabled ¡OLAP ¡for ¡recent ¡and ¡historic ¡data ¡
  • analysis. ¡

02-­‑Nov-­‑12 ¡ 23 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

slide-24
SLIDE 24

Thank ¡You ¡

QuesEons ¡

02-­‑Nov-­‑12 ¡ 24 ¡

Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡