outlier detection for temporal data a survey
play

Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. - PowerPoint PPT Presentation

Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. presented by Seoul National University ga0408@snu.ac.kr July 06, 2018 1/50 Table of Contents 1. Introduction 2.


  1. Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. presented by 이 종 진 Seoul National University ga0408@snu.ac.kr July 06, 2018 1/50

  2. Table of Contents 1. Introduction 2. 시 계 열 데 이 터 에 서 의 이 상 점 탐 지 3. 스 트 림 데 이 터 에 서 의 이 상 점 탐 지 4. Stream Data in Distributed Scenarios 에 서 의 이 상 점 탐 지 5. Spatio-Temporal Data 에 서 의 이 상 점 탐 지 6. Temporal Networks 에 서 의 이 상 점 탐 지 7. 시 간 관 련 데 이 터 의 이 상 점 탐 지 기 법 의 적 용 사 례 2/50

  3. Overview ◮ 통 계 학 에 서 지 난 수십 년 간 시 계 열 의 이 상 점 탐 지 에 대 한 연 구 가 꾸 준 히 이 루 어 져 왔 다 . ◮ 최 근 하 드 웨 어 와 소 프 트 웨 어 의 발 달 로 컴 퓨 터 공 학 에 서 도 시 간 에 따 른 이 상 점 탐 지 에 대 해 많 은 연 구 가 진 행 되 고 있 다 . ◮ 다 양 한 종 류 의 시 간 관 련 데 이 터 에 대 해 이 상 점 탐 지 연 구 가 진 행 되 고 있 다 . 1. Data streams 2. Spatio-temporal data 3. Distributed streams 4. Temporal networks 5. Time series data 3/50

  4. Overview ◮ 연 구 가 활 발 함 에 따 라 , 시 간 에 따 른 이 상 점 탐 지 에 대 해 진 행 된 연 구 에 대 한 체 계 적 이 고 자 세 하 게 정 리 하 는 것 에 대 한 필 요 성 이 생 겨 났 다 . ◮ 이 논 문 에 서 는 시 간 데 이 터 의 이 상 점 탐 지 에 대 해 서 포 괄 적 이 면 서 체 계 적 으 로 정 리 하 고 있 다 . → 다 양 한 형 태 의 시 간 관 련 데 이 터 에 대 해 서 이 상 점 의 정 의 , 탐 지 기 술 , 특 정 정 의 와 기 술 이 적 용 되 는 시 나 리 오 를 제 시 . 4/50

  5. 1. Introduction ◮ 시 간 관 련 데 이 터 에 서 이 상 점 분 석 문 제 는 여 러 측 면 에 따 라 분 류 할 수 있 다 . ◮ 이 분 야 는 매 우 풍 부 해 서 시 간 관 련 데 이 터 를 어 떤 특 정 범 주 로 한 정 지 을 순 없 으 며 다 양 한 범 주 들 의 조 합 으 로 나 타 난 다 . 1. 시 계 열 vs 고 차 원 데 이 터 : 시 계 열에 서 는 시 간 의 연 속성 이 가 장 중 요 하 고 시 간 의 작은 창 을 잘 선 정 하 여 분 석 을 한 다 . 반 면 에 고 차 원 데 이 터 는 시 간 적 특 성 에 크 게 의 존 하 지 않 고 일 반 적 인 고 차 원 이 상 점 분 석 기 법 과 크 게 다 르 지 않 은 기 법 을 이 용 하 여 분 석 을 한 다 . 2. 점 vs 창 : 시 간 데 이 터 에 서 비 정 상 적 인 점 을 찾 는 것 을 목 표 로 하 느 냐 , 비 정 상 정 인 변 화 의 패 턴 을 찾 는 것 을 목 표 로 하 느 냐 에 따 라 분 류 된 다 . 3. 데 이 터 타 입 에 따 른 분 류 : 연 속 형 , 이 산 형 , 고 차 원 스 트 림 혹 은 네 트 워 크 데 이 터 에 따 라 다 른 분 석 기 법 이 필 요 하 다 . 4. 지 도 vs 비 지 도 : 과거 의 비 정 상 예 시 가 이 용 가 는 한 지 의 여 부 에 따 라 분 류 된 다 . 이 분 류 는 시 간 데 이 터 에 만 국 한 되 는 것 이 아 니 라 다 른 형 태 의 데 이 터 이 상 점 탐 지 에 도 해 당 되 는 내 용 이 다 . ◮ 이 논 문 은 총 162 개 의 논 문 에 서 의 이 상 점 탐 지 방법 에 대 해 정 리 하 고 있으 며 , 이 상 점 탐 지 방법 을 데 이 터 의 다 양 한 측 면 에 따 라 다 양 한 종 류 의 시 나 리 오 를 따 라 정 리 해 놓 았 다 . 5/50

  6. 2. 시 계 열 데 이 터 에 서 의 이 상 점 탐 지 ◮ 시 계 열 데 이 터 베 이 스 안에 서 이 상 시 계 열 및 이 상 패 턴 탐 지 ◮ 단 일 시 계 열안에 서 이 상 패 턴 및 이 상 점 탐 지 6/50

  7. 2.1 시 계 열 데 이 터 베 이 스 안에 서 이 상 시 계 열 및 이 상 패 턴 탐 지 ◮ 각 시 계 열 의 이 상 점 수 (Anomal Score) 계 산 을 통 해 이 상 시 계 열 탐 지 ◮ 이 상 점 수 를 계 산 하 는 방법 에 따 라 두 가 지 유 형 으 로 나 뉨 – Direct Detection of Outlier Time Series. 1. Unsupervised Discriminative Approaches 2. Unsupervised Parametric Approaches 3. Unsupervised OLAP Approaches 4. Supervised Approaches – Window-Based Detection of Outlier Time Series 1. Normal Pattern Database Approach 2. Negative and Mixed Pattern Database Approaches – Outlier Subsequences in Test Time Series 7/50

  8. D1. Unsupervised Discriminative Approaches ◮ 판 별 함 수 는 두 시 계 열 간 의 유 사 도 를 측 정 하 는 유 사 도 함 수 의 종 류 와 군 집 화 방법 에 따 라 달 라 진 다 . ◮ 유 사 도 함 수 : Simple match count based sequence similiarity, Normalized length of the longest common subsequence(LCS) → "ABCDGH" and "AEDFHR", length of LCS = 3("ADH"), Normalized 3 length = √ 6 ∗ 6 ◮ 군 집 화 방법 : k- 평 균 , EM, phased k- 평 균 , 동 적 군 집 화 , k- 대 표 , 단 일 연 결 법 , 주 성 분분 석 을 이 용 한 고 차 원 시 계 열 의 군 집 화 , one-class SVM, 자 기 조 직 화 지 도 (self-organizing maps). ◮ 이 상 점 수 는 test 시 계 열 과 가 장 가 까 운 군 집 의 평 균 값 혹 은 중 심 값 까 지 의 거 리 로 정 의 ◮ 어 떤 시 계 열 의 이 상 점 수 가 정 해 진 기 준 보 다 낮 으 면 이 상 시 계 열 로 판 별 8/50

  9. D2. Unsupervised Parametric Approaches ◮ 시 계 열 을 생 성 하 는 모 형 을 모 수 적 모 형 으 로 추 정 ◮ 이 상 점 수 는 각 시 계 열 이 생 성 될 확 률 값 ◮ 유 명 한 모 형 으 로 는 유 한 상 태 기 계 (FSA), 마르 코 프 모 형 , 은 닉 마르 코 프 모 형 . – 유 한 상 태 기 계 : 크 기 가 l 인 부분 시 계 열 들 을 이 용 하 여 , 모 형 을 적 합 시 키 고 , test 시 계 열에 서 가 능 한 모 든 크 기 l 의 부분 시 계 열 을 이 용 하 여 모 형 에 넣 어 본 다 . FSA 가 더 이 상 밖 으 로 향하 지 않 는 상 태 에 도 달 하 면 이 상 시 계 열 로 판 단 . – 마르 코 프 모 형 – 은 닉 마르 코 프 모 형 : 은 닉 상 태 와 전 이 확 률 은 시 간 적 의 존 성 을 혼 합 성 분 으 로 모 형화 , 설 명 력 이 높 다는 것과 이 론 적 기 반 이 잘 되 어 있 다는 것 이 장 점 . 9/50

  10. D3. Unsupervised OLAP Based Approach ◮ OLAP : OnLin Analytical Processing( 온 라 인 분 석 처 리 ) ◮ 온 라 인 분 석 처 리 는 의 사 결 정 지 원 시스 템 중 하 나 로 , 사 용 자 가 데 이 터 들 을 여 러 기 준 을 선 택 적 으 로 이 용 하 여 다 차 원 데 이 터 분 석 을 할 수 있 도 록 도 와 준 다 . ◮ 데 이 터 베 이 스 에 있 는 시 계 열 들 이 각각 고 차 원 특 성 들 과 관 련 이 있을 때 , OLAP cube 를 이 용 하 여 재 표 현 가 능 하 다 . ◮ 시 계 열 의 추 세 , 추 세 의 크 기 등 이 기 대 값과 현 저 히 차 이 가 날 때 , 이 상 시 계 열 로 판 별 10/50

  11. D4. Supervised Approaches ◮ position system call features with RIPPER Classifer( 규 칙 기 반 분 류 모 형 ) ◮ subsequences of positive and negative strings of behavior feature with string match classifier ◮ 인 공 신 경 망 ◮ Elman network ◮ motion features with SVMs ◮ bag of system calls with decision tree, Naive Bayes, SVMs. ◮ Sliding window subsequence features with SVMs, rule based classifer, HMMs. 11/50

  12. W1. Normal Pattern Database Approach ◮ 정 상 시 계 열 은 크 기 가 w 이 면 서 겹 치 는 부분 시 계 열 ( 창 ) 으 로 나 눈 후 , 데 이 터 베 이 스 로 저 장 한 다 . ◮ Test 시 계 열 또 한 크 기 가 w 인 부분 시 계 열 로 나 눈 후 , 데 이 터 베 이 스 와 비 교 했 을 때 , 데 이 터 베 이 스 에 없 는 부분 시 계 열 이 많 이 나 온 다 면 이 상 시 계 열 로 판 단 한 다 . ◮ soft mismatch score 를 도 입 하 여 완 전 히 동 일 한 부분 수 열 이 없 을 때 도 얼 마 나 유 사 한 지 여 부 에 따 라 점 수 를 주 는 방법 도 있 다 . ◮ 정 상 데 이 터 베 이 스 를 만 들 때 , 인 접 한 부분 시 계 열 사 이의 관 계 를 이 용 하 기 도 한 다 . 12/50

  13. W2. Negative and Mixed Pattern Database Approaches ◮ 이 상 시 계 열 의 데 이 터 베 이 스 또 한 만 드 는 방법 . ◮ 정 상 시 계 열 의 크 기 가 w 인 모 든 가 능 한 부분 수 열 을 정 상 데 이 터 베 이 스 로 저 장 한 다 . ◮ 정 상 데 이 터 베 이 스 에 있 지 않 은 크 기 가 w 인 수 열 을 detectors 혹 은 negative subsequences 로 간 주 한 다 . ◮ Test 시 계 열에 어 떤 detector 가 존 재 한 다 면 이 상 시 계 열 로 판 단 한 다 . ◮ Detecter 는 랜 덤 하 게 생 성 할 수 있 고 , 특 정 상 황 에 대 한 지 식 을 이 용 하 여 정 상 시 계 열에 없 을 것 이 라 고 판 단 되 는 부분 시 계 열 을 이 용 할 수 있 다 . 13/50

  14. S1. Outlier Subsequences in a Test Time Series ◮ 이 상 패 턴 ( 이 상 부분 시 계 열 ) 을 찾 아 내 는 방법 이 다 . ◮ Test 시 계 열 의 이 상 패 턴 (p) 의 이 상 점 수 는 test 시 계 열에 서 패 턴 p 의 빈 도 와 데 이 터 베 이 스 에 서 의 패 턴 p 의 평 균 빈 도 의 차 이 로 정 의 된 다 . ◮ 빈 도 역 시 soft match version 을 이 용 해 구 하 기 도 한 다 .( 부분 수 열 의 빈 도 , Permutation of p 의 빈 도 ) ◮ TARZAN alogorithm, Interolated Markov Models(IMM) 14/50

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend