CS6220: DATA MINING TECHNIQUES Mining Sequential and Time Series - PowerPoint PPT Presentation

CS6220: DATA MINING TECHNIQUES Mining Sequential and Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu March 30, 2016

Announcement • About course project • You can gain bonus points • Call for code contribution • Sign-up one or several algorithm to implement: wiki link soon • Java • With a “toy” dataset • Clear documentation • Clear readme • 1 point for each algorithm if approved 2

Methods to Learn Matrix Data Text Set Data Sequence Time Series Graph & Images Data Data Network Classification Decision Tree; HMM* Label Neural Naïve Bayes; Propagation* Network Logistic Regression SVM; kNN Clustering K-means; PLSA SCAN*; hierarchical Spectral clustering; DBSCAN; Clustering Mixture Models; kernel k-means* Apriori; GSP ; Frequent FP-growth PrefixSpan* Pattern Mining Linear Regression Autoregression Recommenda Prediction tion Similarity DTW P-PageRank Search PageRank Ranking 3

Sequence Data • What is sequence data? • Sequential pattern mining • Summary 4

Sequence Database • A sequence database consists of sequences of ordered elements or events, recorded with or without a concrete notion of time. SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 5

Example • Music: midi files 6

Sequence Data • What is sequence data? • Sequential pattern mining • Summary 7

Sequence Databases & Sequential Patterns • Transaction databases vs. sequence databases • Frequent patterns vs. (frequent) sequential patterns • Applications of sequential pattern mining • Customer shopping sequences: • First buy computer, then CD-ROM, and then digital camera, within 3 months. • Medical treatments, natural disasters (e.g., earthquakes), science & eng. processes, stocks and markets, etc. • Telephone calling patterns, Weblog click streams • Program execution sequence data sets • DNA sequences and gene structures 8

What Is Sequential Pattern Mining? • Given a set of sequences, find the complete set of frequent subsequences A sequence : < (ef) (ab) (df) c b > A sequence database SID sequence An element may contain a set of items. 10 <a(abc)(ac)d(cf)> Items within an element are unordered 20 <(ad)c(bc)(ae)> and we list them alphabetically. 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> <a(bc)dc> is a subsequence of <a(abc)(ac)d(cf)> Given support threshold min_sup =2, <(ab)c> is a sequential pattern 9

Sequence • Event / element • An non-empty set of items, e.g., e=(ab) • Sequence • An ordered list of events, e.g., 𝑡 =< 𝑓 1 𝑓 2 … 𝑓 𝑚 > • Length of a sequence • The number of instances of items in a sequence • The length of < (ef) (ab) (df) c b > is 8 (Not 5!) 10

Subsequence • Subsequence • For two sequences 𝛽 =< 𝑏 1 𝑏 2 … 𝑏 𝑜 > and 𝛾 =< 𝑐 1 𝑐 2 … 𝑐 𝑛 > , 𝛽 is called a subsequence of 𝛾 if there exists integers 1 ≤ 𝑘 1 < 𝑘 2 < ⋯ < 𝑘 𝑜 ≤ 𝑛 , such that 𝑏 1 ⊆ 𝑐 𝑘 1 , … , 𝑏 𝑜 ⊆ 𝑐 𝑘 𝑜 • Supersequence • If 𝛽 is a subsequence of 𝛾 , 𝛾 is a supersequence of 𝛽 <a(bc)dc> is a subsequence of <a(abc)(ac)d(cf)> 11

Sequential Pattern • Support of a sequence 𝛽 • Number of sequences in the database that are supersequence of 𝛽 • 𝑇𝑣𝑞𝑞𝑝𝑠𝑢 𝑇 𝛽 • 𝛽 is frequent if 𝑇𝑣𝑞𝑞𝑝𝑠𝑢 𝑇 𝛽 ≥ min _𝑡𝑣𝑞𝑞𝑝𝑠𝑢 • A frequent sequence is called sequential pattern • l-pattern if the length of the sequence is l 12

Example A sequence database SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Given support threshold min_sup =2, <(ab)c> is a sequential pattern 13

Challenges on Sequential Pattern Mining • A huge number of possible sequential patterns are hidden in databases • A mining algorithm should • find the complete set of patterns, when possible, satisfying the minimum support (frequency) threshold • be highly efficient, scalable, involving only a small number of database scans • be able to incorporate various kinds of user- specific constraints 14

Sequential Pattern Mining Algorithms • Concept introduction and an initial Apriori-like algorithm • Agrawal & Srikant . Mining sequential patterns, ICDE’95 • Apriori-based method: GSP (Generalized Sequential Patterns: Srikant & Agrawal @ EDBT’96) • Pattern-growth methods: FreeSpan & PrefixSpan (Han et al.@KDD’00; Pei, et al.@ICDE’01) • Vertical format-based mining: SPADE (Zaki@Machine Leanining’00) • Constraint-based sequential pattern mining (SPIRIT: Garofalakis, Rastogi, Shim@VLDB’99; Pei, Han, Wang @ CIKM’02) • Mining closed sequential patterns: CloSpan (Yan, Han & Afshar @SDM’03) 15

The Apriori Property of Sequential Patterns • A basic property: Apriori (Agrawal & Sirkant’94) • If a sequence S is not frequent • Then none of the super-sequences of S is frequent • E.g, <hb> is infrequent  so do <hab> and <(ah)b> Seq. ID Sequence Given support threshold 10 <(bd)cb(ac)> min_sup =2 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(be)(ce)d> 50 <a(bd)bcb(ade)> March 30, 2016 Data Mining: Concepts and Techniques 16

GSP — Generalized Sequential Pattern Mining • GSP (Generalized Sequential Pattern) mining algorithm • proposed by Agrawal and Srikant, EDBT’96 • Outline of the method • Initially, every item in DB is a candidate of length-1 • for each level (i.e., sequences of length-k) do • scan database to collect support count for each candidate sequence • generate candidate length-(k+1) sequences from length-k frequent sequences using Apriori • repeat until no frequent sequence or no candidate can be found • Major strength: Candidate pruning by Apriori March 30, 2016 Data Mining: Concepts and Techniques 17

Finding Length-1 Sequential Patterns • Examine GSP using an example • Initial candidates: all singleton sequences Cand Sup • <a>, , <c>, <d>, <e>, <f>, <g>, <a> 3 5 <h> <c> 4 • Scan database once, count support for <d> 3 candidates <e> 3 min_sup =2 <f> 2 Seq. ID Sequence <g> 1 10 <(bd)cb(ac)> <h> 1 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(be)(ce)d> 50 <a(bd)bcb(ade)> March 30, 2016 Data Mining: Concepts and Techniques 18

GSP: Generating Length-2 Candidates <a> <c> <d> <e> <f> <a> <aa> <ab> <ac> <ad> <ae> <af> <ba> <bb> <bc> <bd> <be> <bf> 51 length-2 <c> <ca> <cb> <cc> <cd> <ce> <cf> <d> <da> <db> <dc> <dd> <de> <df> Candidates <e> <ea> <eb> <ec> <ed> <ee> <ef> <f> <fa> <fb> <fc> <fd> <fe> <ff> <a> <c> <d> <e> <f> Without Apriori <a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)> property, <(bc)> <(bd)> <(be)> <(bf)> 8*8+8*7/2=92 <c> <(cd)> <(ce)> <(cf)> candidates <d> <(de)> <(df)> <e> <(ef)> Apriori prunes <f> 44.57% candidates March 30, 2016 Data Mining: Concepts and Techniques 19

How to Generate Candidates in General? • From 𝑀 𝑙−1 to 𝐷 𝑙 • Step 1: join • 𝑡 1 𝑏𝑜𝑒 𝑡 2 can join, if dropping first item in 𝑡 1 is the same as dropping the last item in 𝑡 2 • Examples: • <(12)3> join <(2)34> = <(12)34> • <(12)3> join <(2)(34)> = <(12)(34)> • Step 2: pruning • Check whether all length k-1 subsequences of a candidate is contained in 𝑀 𝑙−1 20

The GSP Mining Process Cand. cannot pass 5 th scan: 1 cand. 1 length-5 seq. <(bd)cba> sup. threshold pat. Cand. not in DB at all 4 th scan: 8 cand. 7 length-4 seq. <abba> <(bd)bc> … pat. 3 rd scan: 46 cand. 20 length-3 seq. <abb> <aab> <aba> <baa> <bab> … pat. 20 cand. not in DB at all 2 nd scan: 51 cand. 19 length-2 seq. <aa> <ab> … <af> <ba> <bb> … <ff> <(ab)> … <(ef)> pat. 10 cand. not in DB at all 1 st scan: 8 cand. 6 length-1 seq. <a> <c> <d> <e> <f> <g> <h> pat. Seq. ID Sequence 10 <(bd)cb(ac)> 20 <(bf)(ce)b(fg)> min_sup =2 30 <(ah)(bf)abf> 40 <(be)(ce)d> 50 <a(bd)bcb(ade)> March 30, 2016 Data Mining: Concepts and Techniques 21

Candidate Generate-and-test: Drawbacks • A huge set of candidate sequences generated. • Especially 2-item candidate sequence. • Multiple Scans of database needed. • The length of each candidate grows by one at each database scan. • Inefficient for mining long sequential patterns. • A long pattern grow up from short patterns • The number of short patterns is exponential to the length of mined patterns. March 30, 2016 Data Mining: Concepts and Techniques 22

CS6220: DATA MINING TECHNIQUES Mining Sequential and Time Series - PowerPoint PPT Presentation

CS6220: DATA MINING TECHNIQUES Mining Sequential and Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu March 30, 2016 Announcement About course project You can gain bonus points Call for code contribution Sign-up one or

Link Analysis Lecture 7 Link Analysis November 29, 2017 1 CS6220 Data Mining Techniques

Web Mining Web Mining Web Mining Web Mining Web mining is the use of data mining techniques

CS6220: DATA MINING TECHNIQUES Chapter 7: Advanced Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu

CS6220: DATA MINING TECHNIQUES Mining Graph/Network Data Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Graph/Network Data Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Set Data: Frequent Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Graph/Network Data: Part I Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Set Data: Frequent Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu

CS6220: DATA MINING TECHNIQUES Set Data: Frequent Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES 2: Data Pre-Processing Instructor: Yizhou Sun yzsun@ccs.neu.edu

CS6220: DATA MINING TECHNIQUES 2: Data Pre-Processing Instructor: Yizhou Sun yzsun@ccs.neu.edu

Web Mining Web Mining Web mining is the use of data mining techniques to automatically

CS6220: DATA MINING TECHNIQUES Image Data: Classification via Neural Networks Instructor: Yizhou

CS6220: DATA MINING TECHNIQUES Chapter 3: Data Preprocessing Instructor: Yizhou Sun

Getting Started James Lamb Instructor DataCamp Time Series with data.table in R Getting data

Course Objectives Database Construction Design Construction and Usage SQL DDL and DML

GlideinWMS Marco Mambelli Stakeholders Meeting May 8, 2019 Overview Completed and Upcoming

Runtime Power Management Framework for I/O Devices in the Linux Kernel Rafael J. Wysocki Faculty

Independent Sets in Free Groups and Fields Rev. Charles McCoy & Russell Miller Univ. of

Universal SSL Nick Sullivan @grittygrease Real Real World Crypto: HTTPS 2 HTTPS Myths

Computational Social Choice: Autumn 2012 Ulle Endriss Institute for Logic, Language and

Practical Verifiable In-network Filtering for DDoS Defense Deli Gong, Muoi Tran , Shweta Shinde,

CS6220: DATA MINING TECHNIQUES Mining Sequential and Time Series - PowerPoint PPT Presentation

CS6220: DATA MINING TECHNIQUES Mining Sequential and Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu March 30, 2016 Announcement About course project You can gain bonus points Call for code contribution Sign-up one or

Link Analysis Lecture 7 Link Analysis November 29, 2017 1 CS6220 Data Mining Techniques

Web Mining Web Mining Web Mining Web Mining Web mining is the use of data mining techniques

CS6220: DATA MINING TECHNIQUES Chapter 7: Advanced Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu

CS6220: DATA MINING TECHNIQUES Mining Graph/Network Data Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Graph/Network Data Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Set Data: Frequent Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Graph/Network Data: Part I Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Set Data: Frequent Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES Mining Time Series Data Instructor: Yizhou Sun yzsun@ccs.neu.edu

CS6220: DATA MINING TECHNIQUES Set Data: Frequent Pattern Mining Instructor: Yizhou Sun

CS6220: DATA MINING TECHNIQUES 2: Data Pre-Processing Instructor: Yizhou Sun yzsun@ccs.neu.edu

CS6220: DATA MINING TECHNIQUES 2: Data Pre-Processing Instructor: Yizhou Sun yzsun@ccs.neu.edu

Web Mining Web Mining Web mining is the use of data mining techniques to automatically

CS6220: DATA MINING TECHNIQUES Image Data: Classification via Neural Networks Instructor: Yizhou

CS6220: DATA MINING TECHNIQUES Chapter 3: Data Preprocessing Instructor: Yizhou Sun

Getting Started James Lamb Instructor DataCamp Time Series with data.table in R Getting data

Course Objectives Database Construction Design Construction and Usage SQL DDL and DML

GlideinWMS Marco Mambelli Stakeholders Meeting May 8, 2019 Overview Completed and Upcoming

Runtime Power Management Framework for I/O Devices in the Linux Kernel Rafael J. Wysocki Faculty

Independent Sets in Free Groups and Fields Rev. Charles McCoy &amp; Russell Miller Univ. of

Universal SSL Nick Sullivan @grittygrease Real Real World Crypto: HTTPS 2 HTTPS Myths

Computational Social Choice: Autumn 2012 Ulle Endriss Institute for Logic, Language and

Practical Verifiable In-network Filtering for DDoS Defense Deli Gong, Muoi Tran , Shweta Shinde,

Independent Sets in Free Groups and Fields Rev. Charles McCoy & Russell Miller Univ. of