Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. - - PowerPoint PPT Presentation

outlier detection for temporal data a survey
SMART_READER_LITE
LIVE PREVIEW

Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. - - PowerPoint PPT Presentation

Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. presented by Seoul National University ga0408@snu.ac.kr July 06, 2018 1/50 Table of Contents 1. Introduction 2.


slide-1
SLIDE 1

Outlier Detection for Temporal DATA: A Survey

Manish Gupta et al. presented by 이종진

Seoul National University ga0408@snu.ac.kr

July 06, 2018

1/50

slide-2
SLIDE 2

Table of Contents

  • 1. Introduction
  • 2. 시계열 데이터에서의 이상점 탐지
  • 3. 스트림 데이터에서의 이상점 탐지
  • 4. Stream Data in Distributed Scenarios에서의 이상점 탐지
  • 5. Spatio-Temporal Data에서의 이상점 탐지
  • 6. Temporal Networks에서의 이상점 탐지
  • 7. 시간 관련 데이터의 이상점 탐지 기법의 적용사례

2/50

slide-3
SLIDE 3

Overview

◮ 통계학에서 지난 수십 년간 시계열의 이상점 탐지에 대한 연구가 꾸준히 이루어져왔다. ◮ 최근 하드웨어와 소프트웨어의 발달로 컴퓨터공학에서도 시간에 따른 이상점 탐지에 대해 많은 연구가 진행되고 있다. ◮ 다양한 종류의 시간 관련 데이터에 대해 이상점 탐지 연구가 진행되고 있다.

  • 1. Data streams
  • 2. Spatio-temporal data
  • 3. Distributed streams
  • 4. Temporal networks
  • 5. Time series data

3/50

slide-4
SLIDE 4

Overview

◮ 연구가 활발함에 따라, 시간에 따른 이상점 탐지에 대해 진행된 연구에 대한 체계적이고 자세하게 정리하는 것에 대한 필요성이 생겨났다. ◮ 이 논문에서는 시간 데이터의 이상점 탐지에 대해서 포괄적이면서 체계적으로 정리하고 있다. → 다양한 형태의 시간 관련 데이터에 대해서 이상점의 정의, 탐지 기술, 특정 정의와 기술이 적용되는 시나리오를 제시.

4/50

slide-5
SLIDE 5
  • 1. Introduction

◮ 시간 관련 데이터에서 이상점 분석 문제는 여러 측면에 따라 분류할 수 있다. ◮ 이 분야는 매우 풍부해서 시간 관련 데이터를 어떤 특정 범주로 한정지을 순 없으며 다양한 범주들의 조합으로 나타난다.

  • 1. 시계열 vs 고차원 데이터 : 시계열에서는 시간의 연속성이 가장 중요하고 시간의

작은 창을 잘 선정하여 분석을 한다. 반면에 고차원 데이터는 시간적특성에 크게 의존하지 않고 일반적인 고차원 이상점 분석 기법과 크게 다르지 않은 기법을 이용하여 분석을 한다.

  • 2. 점 vs 창 : 시간 데이터에서 비정상적인 점을 찾는 것을 목표로 하느냐,

비정상정인 변화의 패턴을 찾는 것을 목표로 하느냐에 따라 분류 된다.

  • 3. 데이터 타입에 따른 분류 : 연속형, 이산형, 고차원 스트림 혹은 네트워크

데이터에 따라 다른 분석 기법이 필요하다.

  • 4. 지도 vs 비지도 : 과거의 비정상 예시가 이용가는한지의 여부에 따라 분류된다.

이 분류는 시간 데이터에만 국한되는 것이 아니라 다른 형태의 데이터 이상점 탐지에도 해당되는 내용이다.

◮ 이 논문은 총 162개의 논문에서의 이상점 탐지방법에 대해 정리하고 있으며, 이상점 탐지방법을 데이터의 다양한 측면에 따라 다양한 종류의 시나리오를 따라 정리해놓았다.

5/50

slide-6
SLIDE 6
  • 2. 시계열 데이터에서의 이상점 탐지

◮ 시계열 데이터베이스안에서 이상 시계열 및 이상패턴 탐지 ◮ 단일 시계열안에서 이상패턴 및 이상점 탐지

6/50

slide-7
SLIDE 7

2.1 시계열 데이터베이스안에서 이상 시계열 및 이상패턴 탐지

◮ 각 시계열의 이상 점수(Anomal Score) 계산을 통해 이상 시계열 탐지 ◮ 이상 점수를 계산하는 방법에 따라 두 가지 유형으로 나뉨

– Direct Detection of Outlier Time Series.

  • 1. Unsupervised Discriminative Approaches
  • 2. Unsupervised Parametric Approaches
  • 3. Unsupervised OLAP Approaches
  • 4. Supervised Approaches

– Window-Based Detection of Outlier Time Series

  • 1. Normal Pattern Database Approach
  • 2. Negative and Mixed Pattern Database Approaches

– Outlier Subsequences in Test Time Series

7/50

slide-8
SLIDE 8
  • D1. Unsupervised Discriminative Approaches

◮ 판별함수는 두 시계열 간의 유사도를 측정하는 유사도 함수의 종류와 군집화 방법에 따라 달라진다. ◮ 유사도 함수 : Simple match count based sequence similiarity, Normalized length of the longest common subsequence(LCS) → "ABCDGH" and "AEDFHR", length of LCS = 3("ADH"), Normalized length =

3 √ 6∗6

◮ 군집화 방법 : k-평균, EM, phased k-평균, 동적 군집화, k-대표, 단일 연결법, 주성분분석을 이용한 고차원 시계열의 군집화, one-class SVM, 자기 조직화 지도(self-organizing maps). ◮ 이상 점수는 test 시계열과 가장 가까운 군집의 평균값 혹은 중심값 까지의 거리로 정의 ◮ 어떤 시계열의 이상 점수가 정해진 기준보다 낮으면 이상 시계열로 판별

8/50

slide-9
SLIDE 9
  • D2. Unsupervised Parametric Approaches

◮ 시계열을 생성하는 모형을 모수적 모형으로 추정 ◮ 이상 점수는 각 시계열이 생성될 확률값 ◮ 유명한 모형으로는 유한 상태 기계(FSA), 마르코프 모형, 은닉 마르코프 모형.

– 유한 상태 기계 : 크기가 l인 부분 시계열들을 이용하여, 모형을 적합시키고, test 시계열에서 가능한 모든 크기 l의 부분 시계열을 이용하여 모형에 넣어본다. FSA가 더 이상 밖으로 향하지 않는 상태에 도달하면 이상 시계열로 판단. – 마르코프 모형 – 은닉 마르코프 모형 : 은닉상태와 전이 확률은 시간적 의존성을 혼합 성분으로 모형화, 설명력이 높다는 것과 이론적 기반이 잘 되어 있다는 것이 장점.

9/50

slide-10
SLIDE 10
  • D3. Unsupervised OLAP Based Approach

◮ OLAP : OnLin Analytical Processing(온라인 분석 처리) ◮ 온라인 분석 처리는 의사결정 지원 시스템 중 하나로, 사용자가 데이터들을 여러 기준을 선택적으로 이용하여 다차원 데이터 분석을 할 수 있도록 도와준다. ◮ 데이터베이스에 있는 시계열들이 각각 고차원 특성들과 관련이 있을 때, OLAP cube를 이용하여 재 표현 가능하다. ◮ 시계열의 추세, 추세의 크기 등 이 기대값과 현저히 차이가 날 때, 이상 시계열로 판별

10/50

slide-11
SLIDE 11
  • D4. Supervised Approaches

◮ position system call features with RIPPER Classifer(규칙 기반 분류모형) ◮ subsequences of positive and negative strings of behavior feature with string match classifier ◮ 인공신경망 ◮ Elman network ◮ motion features with SVMs ◮ bag of system calls with decision tree, Naive Bayes, SVMs. ◮ Sliding window subsequence features with SVMs, rule based classifer, HMMs.

11/50

slide-12
SLIDE 12
  • W1. Normal Pattern Database Approach

◮ 정상 시계열은 크기가 w이면서 겹치는 부분 시계열(창)으로 나눈 후, 데이터 베이스로 저장한다. ◮ Test 시계열 또한 크기가 w인 부분 시계열로 나눈 후, 데이터 베이스와 비교했을 때, 데이터 베이스에 없는 부분 시계열이 많이 나온다면 이상 시계열로 판단한다. ◮ soft mismatch score를 도입하여 완전히 동일한 부분 수열이 없을 때도 얼마나 유사한지 여부에 따라 점수를 주는 방법도 있다. ◮ 정상 데이터 베이스를 만들때, 인접한 부분 시계열 사이의 관계를 이용하기도 한다.

12/50

slide-13
SLIDE 13
  • W2. Negative and Mixed Pattern Database Approaches

◮ 이상 시계열의 데이터 베이스 또한 만드는 방법. ◮ 정상 시계열의 크기가 w인 모든 가능한 부분수열을 정상 데이터 베이스로 저장한다. ◮ 정상 데이터 베이스에 있지 않은 크기가 w인 수열을 detectors 혹은 negative subsequences로 간주한다. ◮ Test 시계열에 어떤 detector가 존재한다면 이상 시계열로 판단한다. ◮ Detecter는 랜덤하게 생성할 수 있고, 특정 상황에 대한 지식을 이용하여 정상시계열에 없을 것이라고 판단되는 부분 시계열을 이용할 수 있다.

13/50

slide-14
SLIDE 14
  • S1. Outlier Subsequences in a Test Time Series

◮ 이상 패턴(이상 부분 시계열)을 찾아내는 방법이다. ◮ Test 시계열의 이상 패턴(p)의 이상점수는 test 시계열에서 패턴p의 빈도와 데이터 베이스에서의 패턴p의 평균 빈도의 차이로 정의된다. ◮ 빈도 역시 soft match version을 이용해 구하기도 한다.(부분수열의 빈도, Permutation of p의 빈도) ◮ TARZAN alogorithm, Interolated Markov Models(IMM)

14/50

slide-15
SLIDE 15

2.2 단일 시계열에서의 이상점, 이상패턴 탐지

◮ 단일 시계열에서 이상점을 탐지하는 방법과 이상패턴을 탐지하는 방법을 소개하고 있다.

– 이상점 탐지

  • 1. Prediction Models
  • 2. Profile Similarity based Approaches
  • 3. Deviants

– 이상패턴 탐지

15/50

slide-16
SLIDE 16
  • P1. Prediction Models

◮ 특정 점에 대한 이상점수는 예측모형의 예측값과의 차이로 계산된다. ◮ 예측 값

– 크기가 2k인 window의 평균(t-k에서 t+k까지 평균) – 군집화하여 시점 t에서의 값이 속하는 군집의 평균 – 회귀모형을 이용 – Single-layer linear network predictor(or AR 모형)을 이용(많은 논문들이) – Multilayer perceptron predictor, Support Vector Regression을 이용

◮ 다양한 예측모형 이용

– Non-Gaussian 시계열 데이터에 Mixture transition distribution(MTD)을 제안 – Additive outliers, innovation outliers, level shifts, 다변량 시계열 자료에 temporary changes를 탐지하기 위 vector ARIMA를 제안 – Individual points, multiple outliers를 re-weighted maximum likelihood estimates, Gibbs sampling, block interpolation을 이용한 예측모형으로 탐지

◮ 예측모형의 추정방법과 이상점의 형태에 따라 다양한 예측모형이 존재한다. ◮ 다변량 시계열에서 이상점 탐지는 사영방향을 잘 선택해야만 이루어졌다는 논문도 있다.

16/50

slide-17
SLIDE 17
  • P2. Profile Similarity based Approaches

◮ (정상)기준 자료를 유지하면서 새로운 시점에서의 자료가 들어왔을 때, 비교를 통해 이상여부를 판단. ◮ Tiresias system

– 참고 (정상)기준 자료와 분산벡터를 유지 – 새로운 시점에서의 자료가 들어 왔을 때, (정상)기준 자료료와 분산벡터를 이용하여 이상점수를 계산 – 여기서 (정상)기준 자료는 과거의 자료에서 자료의 형태를 크게 변환시키는 불연속점 등을 제거한 것

◮ 인공신경망을 이용해 (정상)기준 자료를 유지하면서 그 자료를 토대로 다음 예측을 하는 모형도 있다.

17/50

slide-18
SLIDE 18
  • P3. Deviants

◮ Deviants: 어떤 P라는 점을 제거한 결과, 훨씬 더 간결한 시계열이 되었다면, P라는 점을 deviant라고 한다. ◮ "Information-theoretic models exploare the space-deviation tradeoff by fixing the deviation, rather than fixing the space, as in conventional models." ◮ 한 점을 제거하고 시간을 n개의 bucket으로 묶어 히스토그램화 시켰을 때, 가장 작은 오차가 나게 하는 점을 찾는 것이 목표, 이 점이 deviant ◮ Dynamic programming mechanisum을 이용해 devian 찾은 논문이 있다. ◮ 또, 다른 논문은 관찰을 통해 어떤 bucket이든 최적의 k개의 deviants들은 항상 l개의 가장 큰 값과 k-l개의 가장 작은 최적의 값으로 구성되는 것을 확인하였고, 그것을 이용해 dynamic programming based solution을 추정하는 방법을 제시하였다.

18/50

slide-19
SLIDE 19
  • S1. 이상패턴

◮ 주어진 시계열 T의 크기가 n이고 l시점에서 시작하는 부분 수열 D에 대해, D가 가장 인접한 non-self match의 거리가 가장 큰 값을 가진다면 부분수열 D를 T의 discord(이상패턴)이라 정의 (non-self match : 시작점간의 거리가 n이상인 관계) ◮ 모든 크기가 n인 부분수열과 그것과 non-self match인 부분수열간의 거리를 다 구한 후 Top-k pruning을 통해 이상패턴을 탐지할 수 있다. ◮ Pruning 방법

– Heuristic reordering of candidate subsequences – Locality sensitive hashing – Harr wavelet and augmented tries

◮ 거리는 대부분 Euclidean distance를 이용하였고, Compression based Dissimilarity Measure(CDM)을 사용한 논문도 있었다.

19/50

slide-20
SLIDE 20

◮ 시간 간격이 일정하지 않게 측정된 시계열 자료에서 이상패턴을 탐지하고 하는 논문도 있었다.

– 패턴은 두 개의 연속한 점을 가지는 부분 수열로 정의 – 같은 기울기와 길이를 가지는 패턴의 개수가 적을 때, 이상패턴으로 판단 – multi-scale의 이상 패턴을 탐지하기 위해, Haar transformation을 이용

◮ a lead window와 a lag window를 인접하게 정하고, lead window에 의해 생기는 부분수열이 lag window에서 생기는 부분수열과 유사도가 낮으면 이상패턴으로 판단

20/50

slide-21
SLIDE 21

스트림 데이터

◮ 정적인 데이터와 달리 스트림 데이터는 길이가 고정되어 있지 않다. ◮ 스트림은 시계열 데이터일 수도 있고 고차원 데이터일 수도 있다.

– Evolving Prediction Models

  • 1. Online Sequential Discounting
  • 2. Dynamic Cluster Maintenance
  • 3. Dynamic Bayesian Networks

– Distance-Based Outliers for Sliding Windows

– Distance-Based Global Outliers – Distance-Based Loacl Outliers

– Outliers in High-Dimensional Data Streams

21/50

slide-22
SLIDE 22

3.1 Evolving Prediction Models

◮ 고차원 데이터 스트림 s에서 이상점 찾기 위해 evolving prediction models을 이용한다. ◮ Evolving prediction models은 데이터의 정상 추세를 따라가기 위해, 새로운 데이터가 들어오면 모형의 모수를 업데이트하는 방법이다.

22/50

slide-23
SLIDE 23
  • E1. Online Sequential Discounting

◮ SmartSifter

– Online discounting learning algorithm을 이용하여 점진적으로 probabilistic mixture model을 학습시킨다. – Drift를 설명하기 위해 decay factor를 도입하였다. – 점증적인 업데이트와 일시적인 decay가 다면 일반적인 고차원 데이터의 이상점 탐지에도 이용된다. – 범주형 변수에 대해서는 Sequentially Discounting Laplace Estimation(SDLE) 알고리즘을 제안. – 연속형 변수에 대해서는 independent model과 time series model을 이용한다. – independent model은 모수 모형일 경우엔 Gaussian mixure model(Sequentially Discounting EM 알고리즘을 이용해 학습)을 비모수 모형일 경우엔 kernel mixture model(Sequentially Discounting Prototype Updating 알고리즘을 이용해 학습)을 이용한다. – Time series model일때는 AR모형(Sequentially Discounting AR알고리즘을 이용하여 학습)을 이용한다. – Hellinger score나 logarithmic loss를 이상점수로 정의하여 이상여부를 판단한다.

23/50

slide-24
SLIDE 24
  • E2. Dynamic Cluster Maintenance

◮ Oneling discounting 방법을 쓰지 않은 것들 중 많은 경우가 dynamically maintained cluster models을 이용하여 스트림 데이터의 이상점을 탐지했다. ◮ 예를 들어 normalized length of the longest subsequence(LCS)가 dynamic clustering를 위해 유사성을 측정하는 함수로 사용 되었고, 텍스트 관련 자료에서도, 이상점을 찾기위해 온라인 군집화 방법이 제안되었다.

24/50

slide-25
SLIDE 25
  • E3. Dynamic Bayesian Networks

◮ 모형의 모수를 업데이트하는 것이 충분하지 않을 수도 있다. ◮ 한 논문은 dynamic Bayesian networks로 Bayesian networks with network topology를 제안했다.

– 모형이 시간이 지남에 따라 새로운 상태변수를 추가하면서 진화한다. – 이상점을 탐지하기 위해 Bayesian credible interval(BCI)와 maximum a posteriori measurment status(MAP-ms)라는 두가지 방법을 이용 – BCI는 HMM 모형을 이용하고, 데이터의 측정치가 p% BCI밖에 떨어지면 이상점으로 분류 – MAP-ms는 2-layered DBN을 이용하고 은닉상태의 maximum a posteriori estimate을 이용하여 데이터의 이상여부를 판단한다.

25/50

slide-26
SLIDE 26

3.2 Distance-Based Outliers for Sliding Windows

◮ 예측모형을 이용하여 이상점을 찾는 것이 아니라 거리에 기반을 둔 이상점 탐지방법 ◮ o가 DB(k,R) distance outlier라는 것은 o로부터 거리가 R만큼 떨어진 점이 k개 미만이라는 것을 의미한다. ◮ global하게 정의될 수 있고, 현재의 slide window안에서 국소적으로 정의 될 수 있다.

26/50

slide-27
SLIDE 27
  • D1. Distance-Based Global Outliers

◮ stream이 진행되는 동안 outlier의 여부는 바뀐다. ◮ safe-inlier와 succeding neighbors ◮ k=3일 때, o9는 safe-inlier와 o11는 아니다.

27/50

slide-28
SLIDE 28
  • D1. Distance-Based Global Outliers

◮ Indexed Stream Buffer(ISB)이라 불리는 새로운 자료 구조를 이용하여 distance outlier를 계산하는 Exact algorithm을 제시

– Safe inlier에 대한 heuristic한 조건에서 수렴하는 Approximate algorithm을 제시

◮ 모든 neighbor relationships을 저장하는 것은 비효율적이며, abstracted neighbors relationships은 저장하는 것을 제안

28/50

slide-29
SLIDE 29
  • D2. Distance-Base Local Outliers

◮ Local Outlier Factor(LOF)는 주어진 데이터에 대해 주변 neighbor에 대해서 local deviation을 측정하여 이상점을 탐지하는 알고리즘 ◮ 원래 정적인 데이터에 맞는 방법으로 스트림데이터에 맞게 incremental LOF 로 변형 ◮ (a) periodic LOF, (b)supervised LOF, (c)iterated LOF ◮ 더 나은 접근을 제시하는 논문도 있었다.

◮ 데이터셋 안의 내장된 data record에 대해 incremental LOF를 이용해 LOF값을 구하고, 즉시 내재된 data record가 이상점인지 판단하는 방법.

29/50

slide-30
SLIDE 30

3.3 Outliers in High-Dimensional Data Streams

◮ Stream Projected Outlier deTector(SPOT)을 고차원 스트림 데이터에서 이상점 탐지를 위한 방법을 제시.

30/50

slide-31
SLIDE 31

◮ Distributed setting에서는 이상점 탐지의 어려움이 존재한다.

– Resourse constraints: 컴퓨터의 성능, 메모리 – High communication cost – Large-scale deployment : 기존의 이상점 탐지 방법을 바로 적용할 수 없다. – Distributed Temporal Data.

  • 1. Sharing Local Outliers and Other Data Points
  • 2. Sharing Local Outliers Only
  • 3. Sharing Local Outliers and Data Distributions

– Distributed Sensor Data Streams With Spatial Considerations.

31/50

slide-32
SLIDE 32

Distributed Temporal Data

◮ Distributed stream setting에서 데이터들은 다양한 노드(혹은 센서)에 퍼져있다. ◮ 각 센서에서 들어오는 데이터들을 이용하여 distance based outlies(based on global data)를 찾는 것이 목표이다.

32/50

slide-33
SLIDE 33
  • DT1. Sharing Local Outliers and Other Data Points

◮ Global top-K outliers를 계산하고자 한다. ◮ 각 센서에서 가지고 있는 데이터와 다른 센서에서 받은 정보를 이용해 top-K

  • utliers를 계산한다.

◮ 센서들끼리, 각 센서의 이상점과 그 support를 주고 받는다.

33/50

slide-34
SLIDE 34
  • DT2. Sharing Local Outliers Only

◮ 모든 센서에서 많은 데이터를 주고 받는 것은 계산적으로 비효율적이다. ◮ 이상점만 주고 받는 방법이 제안되었다. ◮ 모든 센서에서 이상점이라고 판단된 이상점만 global outlier로 가정한다. ◮ global computaion이 없으므로 approximation algorithm이다.

34/50

slide-35
SLIDE 35
  • DT3. Sharing Local Outliers and Data Distributinos

◮ Local outlier와 함께 데이터의 분포도 같이 공유되는 방법이다. ◮ Sensor network가 계층관계를 가진다. ◮ Kernel density estimator를 이용하여 센서의 데이터 분포를 추정하고 이를 이용해 이상점을 찾는다. ◮ Local model과 outlier를 parent nodes에 보내면서 global outlier를 계산한다. ◮ Density based method로 Multi Granularity Deviation Factor(MDEF) metric을 제안한 논문도 있다.(비모수적 방법) ◮ Hierarchical architerctiure를 제안한 논문도 있다.

35/50

slide-36
SLIDE 36

4.2 Distributed Sensor Data Streams with Spatial Considerations

◮ 센서의 위치가 중요할 때가 있다. ◮ 센서의 위치(x,y)와 스트림 데이터가 주어졌을 때, 이상 센서 혹은 이상 지역을 찾고자 한다. ◮ 군집화, 시간에 따른 이상점 탐지, 공간적 다양성 배제, 공간에 따른 이상점 탐지의 순서로 이루어진다. ◮ 어떤 에너지원 근처에서 더 강한 에너지가 관측되는 것을 이상 센서로 탐지하는 것을 막기 위함이다. ◮ 마지막 단계에서 variogram method를 이용한 논문이 있다.

◮ 센서들간의 공간적 다양성을 보여주고, 이를 이용해 데이터의 다수와 많이 떨어져있는 것을 이상점으로 판단한다. ◮ 이상점이 시간과 공간에 대해, uncorrelated 되어잇다는 가정이 필요하다. ◮ α-stable distribution으로 모형화 가능하다

◮ 센서의 위치를 이용하는 다른 방법으로 특정 거리 r 안의 neighbor를 고려하는 방법도 있다. ◮ 이상센서가 발견되고 나서 polygonal outlier regions을 계산하는 모형을 제안한 논문도 있다.

36/50

slide-37
SLIDE 37
  • 5. Spatio-Temporal Data에서의 이상점 탐지

◮ 몇몇 연구들은 오직 시간적인 근접성만을 이용해 이상점을 찾고, 또 다른 연구들은 공간적 근접성만을 이용해 이상점을 찾는다. ◮ 두 가지 모두 고려하여 이상점을 찾고자 한다.

– Techniques for ST-Outlier Detection – Tracking of ST-Outliers – Trajectory Outliers

  • 1. Distance Between Trajectories
  • 2. Direction and Density of Trajectories
  • 3. Historical Similarity
  • 4. Trajectory Motifs

37/50

slide-38
SLIDE 38

Techniques for ST-Outlier Detection

◮ 대부분의 방법은 공간에 따른 이상점을 먼저 찾고, temporal neighborhood 를 고려한다. ◮ 공간에 따른 이상점을 찾는 방법은 다양하다. ◮ Density-based ST-Outler detection mechanism을 제안

– modifed DBSCAN clustering algorithnm을 이용해 clustering을 한다. – spatial neighbors를 이용해 잠재적 이상점을 탐지한다. – 이제 temporal neighbors를 고려해서 ST-Outlier인지 확인한다.

◮ 다음과 같은 네 가지 단계로 접근을 제안

– (1) clustering – (2) aggregation : 공간적인 scale을 줄인 후 clustering 해본다. – (3) comparison : 두 가지 scale을 비교하여 잠재적 이상점을 추려낸다. (1)에 있지만 (2)에 없는 것은 이상점일 확률이 높다. – (4) verification : 시간적인 특성까지 고려해서 ST-Outlier를 찾아낸다.

◮ Voronoi diagram을 이용해 spatial clusters를 형성하는 방법을 제안한 논문도 있다.

38/50

slide-39
SLIDE 39

Tracking of ST-Outliers

◮ ST-Outliers들이 시간과 공간에 따라 변화가 없을 때 사용하는 방법들 ◮ Outstretch라는 ST-Outliers detection algorithm을 제안한 논문이 있다.

◮ 다양한 시간에 걸쳐 top-K spatial outlier로 판단되는 이상 패턴을 발견하는 알고리즘이다.

◮ a wavelet fuzzy classification approach를 제안한 논문이 있다.

◮ 기상 데이터에서 region outiers를 찾고 추적하기 위한 방법 ◮ wavelet transform을 적용하여 원래의 데이터에는 숨겨져있는 패턴을 찾는다. ◮ edge detection을 이용해 outlier regions의 경계를 찾는다. ◮ outlier regions의 중심을 이용해 region outlier의 움직임을 잡아내고 추적한다.

39/50

slide-40
SLIDE 40

Trajectory Outliers

◮ A set of tracjectories가 주어졌을 때, anomalous tracjectories를 찾는 방법.

40/50

slide-41
SLIDE 41
  • T1. Distance Between Trajectories

◮ TRAjectory Outlier Detection(TRAOD) algorithm은 제안한 논문이 있다.

– (1) Partitioning Phase, (2) Detection Phase – 2-level partitoining이란 방법으로 여러개의 partitions으로 나눈다.(trajectory 간의 거리는 perpendicular distance, parallel distance, angle distance의 가중합으로 정의) – 충분한 개수의 similar neighbors가 없으면 이상 trajectory로 판단한다.

41/50

slide-42
SLIDE 42
  • T2. Direction and Density of Trajectories

◮ 방향과 밀도의 관점에서 두 가지 이상 trajectories를 고려한 논문이 있다. ◮ Summarized direction과 Trajectory의 밀도 분포가 격자별로 충분히 많은 historical trajectory data로부터 얻어진다. ◮ Trajetory의 방향이 기존에 요약된 trajectory의 방향과 다르면 이상 trajectory로 판단한다. ◮ Trajectory가 지나가는 격자에서 기존 밀도 분포와 비교해서 이상점수가 계산되고 이를 이용해 이상여부 판단한다.

42/50

slide-43
SLIDE 43

Historical Similarity

◮ 이전의 방법들은 공간적 연속성을 이용하여 이상점을 탐지 ◮ 시간에 따른 이상점을 찾기 위해서, 데이터들 간의 historical similarity trend 에 초점을 맞춘 논문이 있다.

– 각 시점마다 road segments간의 유사성을 확인한다. – Historical simiilarity values가 temporal neighborhood vector에 저장되고, 이 vector의 급격한 변화가 이상점으로 판단된다.

43/50

slide-44
SLIDE 44

Trajectory Motifs

◮ a motion-classifer for trajectory outlier detecion을 제안한 논문이 있다.

– (a) motif라 불리는 물체의 움직임에 관한 특성들을 trajectory에서 뽑아낸다. – (b) 물체 움직임에서 이상을 탐지하기 위해 motifs를 이용해 trajectory를 군집화를 한다. – (c) 새로운 물체가 들어오면 고차원의 feature space를 이용해 이상여부를 판단한다.

44/50

slide-45
SLIDE 45
  • 6. Temporal Networks에서의 이상점 탐지

◮ 이상 Graph를 탐지하는 방법.

– Graph Similarity-Based Outlier Detection Algorithms – Online Graph Outlier Detection Algorithms – Community-Based Outlier Detection Algorithms

45/50

slide-46
SLIDE 46

6.1 Graph Similarity-Based Outlier Detection Algorithms

◮ A series of graph snapshots이 주어졌을 때, 이상 graph snapshots을 찾는 방법. ◮ 다양한 graph distance metrics을 이용하여 인접한 시점의 graph간의 비교를 통해 network changes에 대한 시계열 자료를 만들 수 있다. ◮ 이렇게 얻은 시계열 데이터를 univariate ARMA을 이용해 모형화하고, 이상점을 찾을 수 있다. ◮ G와 H, 두 그래프 간의 거리르 계산하기 위한 distance/similarity measure 들:

– Weight Distance, MCS Weight Distance, MCS Edge Distance, MCS Vertex Distance – Graph Edit Distance, Median Graph Edit Distance, Modality Distance, Diameter Distance – Entropy Distance, Spectral Distance, Umeyama Graph Distance – Vector Similarity, Spearman’s correlation coefficient, Sequence similiarity, – Signature similiarity, Vertex/edge overlap(VEO), Vertex Ranking(VR)

46/50

slide-47
SLIDE 47

6.2 Online Graph Outlier Detection Algorithms

◮ 이상 graph snapshot 혹은 outlier localized region을 찾는 방법이다. ◮ 이전의 방법은 고정된 길이의 시계열 graph에 적용하는 방법이였다. ◮ Eigenvector-based method를 제안한 논문이 있다.

– 시점 t에서 graph weight matrix의 주성분 벡터를 u(t)라 하자. – U(t) = [u(t),u(t-1), ... u(1)]의 left singular vector가 "typical pattern" – "typical pattern"과의 각도가 유사정도를 의미한다. – 이 논문의 저자는 이 각도의 threshold값을 실시간 알고리즘으로 계산하는 방법을 제시

◮ 또 다른 논문은 구조적 연결성 모형을 이용해 graph의 스트림에서 outlier를 탐지하는 방법을 제시

– unusual bridging edge를 포함하고 있는 graph를 이상 graph 판단

47/50

slide-48
SLIDE 48

6.3 Community-Based Outlier Detection Algorithm

◮ anomalous temporal commnity changes를 찾는 것이 목표 ◮ 네트워크의 두 snapshots이 주어졌을 때, communities에서 차이가 존재한다. ◮ 대부분의 경우 주요한 community distribution change trends를 따라 변화가 발생하지만, 일부의 경우 그렇지 않다. ◮ 그 일부를 Evolutionary Community Outliers라 한다. ◮ Usual transition trends를 파악해야하는데, 이를 위한 핵심이 바로 두 graph 간의 공통 communities를 계산하는 것이다. ◮ 그 계산에 ECOutlies가 섞여있으면 공통 communities 계산에 어려움을 겪는다. ◮ 이상점 탐지와 community matching을 동시에 하는 방법들이 많은 논문에서 제안되었다. ◮ Integrated formulation이 community matching후에 이상 변화를 찾는 것보다 훨씬 효과적이다.

48/50

slide-49
SLIDE 49

6.3 Community-Based Outlier Detection Algorithm

◮ 어떤 논문은 다수의 snapshots이 주어진 일반적인 상황에서 이상을 탐지하는 연구를 했다.

– 그 이상점을 Community Trend Outliers라고 한다. – CEOutlier는 anomalous community transition을 잘 잡아내고, CTOuliers는 anomalous community changes across multiple time snapshots을 잘 잡아낸다.

49/50

slide-50
SLIDE 50
  • 7. 시간 관련 데이터의 이상점 탐지 기법의 적용사례

◮ 다양한 시간 관련 데이터에 대한 이상점 탐지 기법 논문이 있다.

– Enviromental Sensor Data – Industrial Sensor Data – Surveillance and Trajectory Data – Computer Networks Data – Biological Data – Astronomy Data – Web Data – Information Network Data – Economics Time Series Data

50/50