Large-Scale Data Management and Analysis for Astronomical Research - - PowerPoint PPT Presentation

large scale data management and analysis for astronomical
SMART_READER_LITE
LIVE PREVIEW

Large-Scale Data Management and Analysis for Astronomical Research - - PowerPoint PPT Presentation

Large-Scale Data Management and Analysis for Astronomical Research Presenter: Cheng-Hsien Tang Authors: Cheng-Hsien Tang, Min-Feng Wang, Wei-Jen Wang, Meng-Feng Tsai*, Yuji Urata,


slide-1
SLIDE 1

1 ¡

Presenter: Cheng-Hsien Tang

Authors:

Cheng-­‑Hsien ¡Tang, ¡Min-­‑Feng ¡Wang, ¡Wei-­‑Jen ¡Wang, ¡Meng-­‑Feng ¡Tsai*, ¡Yuji ¡Urata, ¡Chow-­‑Choong ¡Ngeow, ¡ Induk ¡Lee, ¡and ¡Kuiyun ¡Huang ¡ ¡

Date: 2011/03/25

Large-Scale Data Management and Analysis for Astronomical Research

slide-2
SLIDE 2

2 ¡

Outline

  • Introduction
  • Architecture
  • Parallel Hierarchical Agglomerative Clustering

System

  • Similarity Classification System
  • Astronomical Information Management System
  • Conclusions
  • Q & A
slide-3
SLIDE 3

3 ¡

Introduction

slide-4
SLIDE 4

4 ¡

Motivation

  • Major source of abundant data

– Business: e-commerce, transaction, stock, … – Science: bioinformatics, simulation – Daily life: news, digital camera, etc

  • Pressing need for data mining

– Statistics, Classification , …

  • Scale of data

– Terabytes or Petabytes of data

We need better analytical tools!

slide-5
SLIDE 5

5 ¡

Distributed Computing

  • The “New” Moore’s Law

– Computers no longer faster, just wider

  • Limits of single CPU computing

– Small memory size – Long execution time

We can use parallel computing to accelerate big data analysis!

slide-6
SLIDE 6

6 ¡

Objectives

  • Applying parallel computing to astronomical research
  • Refining existing algorithms for a better performance
  • Providing an application template
  • Developing management system to maintain large-scale

data

slide-7
SLIDE 7

7 ¡

Architecture

slide-8
SLIDE 8

8 ¡

slide-9
SLIDE 9

9 ¡

Systems ¡

  • PARallel ¡Hierarchical ¡AgglomeraRve ¡Clustering ¡System ¡

(PARHACS) ¡

– A ¡system ¡with ¡distributed ¡message-­‑passing ¡algorithm ¡to ¡calculate ¡a ¡ hierarchical ¡cluster ¡

  • SIMilarity ¡ClassificaRon ¡System ¡(SIMCS) ¡

– A ¡decentralized ¡MulRple ¡Classifier ¡System ¡(MCS) ¡framework ¡to ¡ support ¡a ¡complex ¡classificaRon ¡procedure ¡using ¡mulRple ¡classifiers. ¡

  • ASTROnomical ¡InformaRon ¡Management ¡System ¡(ASTROIMS) ¡

– An ¡integrated ¡interface ¡with ¡mulRdimensional ¡data-­‑warehouse ¡design ¡ for ¡fast ¡data ¡retrieval ¡and ¡management. ¡ ¡

slide-10
SLIDE 10

10 ¡

Parallel Hierarchical Agglomerative Clustering System

slide-11
SLIDE 11

11 ¡

Clustering Algorithms

  • Hierarchical clustering
  • Divisive way
  • Agglomerative way
slide-12
SLIDE 12

12 ¡

Applying Divide-and-Conquer ¡

  • Use ¡a ¡similarity ¡threshold ¡to ¡parallelize ¡the ¡clustering ¡phase ¡

and ¡then ¡merge ¡to ¡a ¡single ¡hierarchical ¡tree ¡

slide-13
SLIDE 13

13 ¡

Example ¡

slide-14
SLIDE 14

14 ¡

Stage 1 ¡

  • Parallelism ¡strategy ¡of ¡CompuRng ¡similarity ¡matrix ¡in ¡parallel ¡

– Row-­‑based ¡

slide-15
SLIDE 15

15 ¡

Stage 1 (cont) ¡

  • Data ¡coverage ¡

– Node ¡coverage ¡

  • the ¡raRo ¡of ¡data ¡items ¡the ¡threshold ¡can ¡cover. ¡

– Edge ¡coverage ¡(Set ¡coverage) ¡

  • the ¡raRo ¡of ¡cells ¡in ¡the ¡similarity ¡matrix ¡the ¡threshold ¡can ¡
  • cover. ¡
slide-16
SLIDE 16

16 ¡

Stage 1 (cont) ¡

  • Reduce ¡space ¡cost ¡

– Assume ¡the ¡threshold ¡is ¡1.25

slide-17
SLIDE 17

17 ¡

Stage 2 ¡

  • Using ¡disjoint ¡set ¡algorithm ¡
slide-18
SLIDE 18

18 ¡

Stage3 ¡

  • Similarity ¡of ¡disjoint ¡sets ¡
  • Parallelism ¡strategy ¡

– Set-­‑based ¡

slide-19
SLIDE 19

19 ¡

Stage4 ¡

  • Clustering of disjoint sets

– Using the result of stage1 and 2 to clustering lower structure – Using the result of stage3 to clustering upper structure

slide-20
SLIDE 20

20 ¡

Similarity Classification System

slide-21
SLIDE 21

21 ¡

Similarity Classification System

  • A ¡decentralized ¡mulRple ¡classifier ¡system ¡(MCS) ¡

base ¡on ¡SVM ¡and ¡machine ¡learning ¡

  • Why ¡SVM ¡

– CompeRRve ¡with ¡exisRng ¡classificaRon ¡methods ¡ and ¡relaRvely ¡easy ¡to ¡use ¡ – “Predict” ¡which ¡group ¡the ¡new ¡coming ¡data ¡belong ¡ to ¡base ¡on ¡the ¡old ¡classified ¡data ¡

8 ¡

– You ¡don’t ¡need ¡to ¡know ¡the ¡condiRons ¡when ¡you ¡ are ¡doing ¡classificaRon

slide-22
SLIDE 22

22 ¡

slide-23
SLIDE 23

23 ¡

Classifier Selection/Combination ¡

C1 C2 C3 C4 C5 C6 Ensemble Selection C2 C5 C6 Classifier Combination Decision C1 C2 C3 C4 C5 C6 Classifier Selection C1 Decision Testing data

slide-24
SLIDE 24

24 ¡

Why ¡MulRple ¡Classifier ¡System ¡

  • MulRple ¡Classifier ¡System ¡

– Divide ¡data ¡into ¡small ¡chunks, ¡and ¡classify ¡the ¡ chunks ¡in ¡parallel ¡with ¡mulRple ¡similar ¡tools – Can ¡deal ¡with ¡large-­‑scale ¡data ¡ – Can ¡enhance ¡the ¡correctness ¡ – Can ¡process ¡in ¡parallel ¡

slide-25
SLIDE 25

25 ¡

Astronomical Information Management System

slide-26
SLIDE 26

26 ¡

Astronomical Information Management System

  • Improving ¡data ¡analysis ¡

– Data ¡Warehouse ¡design ¡ – New ¡schema ¡for ¡analysis ¡of ¡large ¡amount ¡of ¡ astronomical ¡data ¡

  • Managing ¡data ¡in ¡grid ¡environments ¡

– DistribuRve ¡and ¡algebraic ¡funcRons ¡ – Distributed ¡data ¡storage ¡base ¡on ¡data ¡warehouse ¡

slide-27
SLIDE 27

27 ¡

slide-28
SLIDE 28

28 ¡

Interface Example

slide-29
SLIDE 29

29 ¡

Subject Oriented Schema Example

slide-30
SLIDE 30

30 ¡

Analysis Tool Module Example

Setting remains Command remains

slide-31
SLIDE 31

31 ¡

Conclusions

slide-32
SLIDE 32

32 ¡

Conclusions

  • Apply parallel computing to astronomical

research

– Develop a apply program to parallel computing

  • Refine the process of existing algorithms

– Speed-up execution – Save lots of storage space

  • Provide a program template

– Users can rewrite their similarity functions to fit their needs

  • Develop information management system

– We have a concise, integrated, and scalable platform for fast data retrieval and management

slide-33
SLIDE 33

33 ¡

Q & A

slide-34
SLIDE 34

34 ¡

Experimental Results

slide-35
SLIDE 35

35 ¡

Experimental Data Set ¡

  • Asteroid ¡hierarchical ¡clustering ¡
  • The ¡MPC ¡Orbit ¡(MPCORB) ¡database ¡

– Contains ¡6 ¡orbital ¡elements ¡of ¡minor ¡planets ¡ – Release ¡date ¡: ¡2008/12 ¡ – About ¡370k ¡orbital ¡records ¡

  • Similarity ¡Matrix: ¡1583.35G ¡
  • Similarity ¡funcRon ¡d: ¡
slide-36
SLIDE 36

36 ¡

Asteroids ¡in ¡the ¡Solar ¡System ¡ ¡

slide-37
SLIDE 37

37 ¡

Experimental Design ¡

  • ObservaRon ¡of ¡the ¡relaRonship ¡between ¡ ¡

– Threshold ¡ ¡ – Process ¡number ¡ – ExecuRon ¡Rme ¡ – Number ¡of ¡disjoint ¡ ¡ ¡ ¡ ¡set ¡

  • We ¡use ¡ ¡

– 50,75,100,125,…400 ¡as ¡our ¡observaRon ¡target ¡ ¡

slide-38
SLIDE 38

38 ¡

Overall experimental results (cont.)

  • Overall ¡execuRon ¡Rme ¡vs. ¡threshold ¡using ¡different ¡

numbers ¡of ¡processes ¡

slide-39
SLIDE 39

39 ¡

slide-40
SLIDE 40

40 ¡

Computing similarity of clusters

  • Single-­‑link ¡

¡ ¡S(Ci ¡, ¡Cj) ¡= ¡mina, ¡b ¡S(a, ¡b) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

  • Average-­‑link ¡

S(Ci, ¡Cj) ¡= ¡Σa,bS(a, ¡b) ¡/ ¡(|Ci||Cj|)

Complete-­‑link ¡

S(Ci ¡, ¡Cj) ¡= ¡maxa, ¡b ¡S(a, ¡b)

slide-41
SLIDE 41

41 ¡

Support ¡Vector ¡Machines ¡

  • Find ¡a ¡linear ¡hyperplane ¡(decision ¡boundary) ¡that ¡will ¡separate ¡

the ¡data ¡

slide-42
SLIDE 42

42 ¡

Support ¡Vector ¡Machines ¡

  • One ¡Possible ¡SoluRon ¡

B1

slide-43
SLIDE 43

43 ¡

Support ¡Vector ¡Machines ¡

  • Another ¡possible ¡soluRon ¡

B2

slide-44
SLIDE 44

44 ¡

Support ¡Vector ¡Machines ¡

  • Which ¡one ¡is ¡bener? ¡B1 ¡or ¡B2? ¡
  • How ¡do ¡you ¡define ¡bener? ¡

B1 B2

slide-45
SLIDE 45

45 ¡

Support ¡Vector ¡Machines ¡

  • Find ¡hyperplane ¡maximizes ¡the ¡margin ¡=> ¡B1 ¡is ¡bener ¡than ¡B2 ¡

B1 B2 b11 b12 b21 b22

margin

slide-46
SLIDE 46

46 ¡

Method ¡for ¡Top-­‑N ¡Query ¡

  • Compute ¡the ¡pair ¡distance ¡and ¡store ¡the ¡data ¡

base ¡on: ¡

– threshold ¡ – Top ¡“N” ¡

  • Merge ¡the ¡result ¡
slide-47
SLIDE 47

47 ¡

CompuRng ¡of ¡Similarity ¡Matrix ¡

  • Parallelism ¡strategy ¡of ¡CompuRng ¡similarity ¡matrix ¡in ¡parallel ¡

– Row-­‑based ¡

slide-48
SLIDE 48

48 ¡

Top N Of M1 。。。。。。 Top N Of M2 Top N Of M3 Top N Of Mx M2 M1 M3 Mx M0 Top N Of all data

slide-49
SLIDE 49

49 ¡

Compute ¡the ¡Distance ¡of ¡New ¡Data ¡

Old data Old data New data New data Enhanced Similarity Matrix

slide-50
SLIDE 50

50 ¡

Experiments for stage 1 ¡

  • ExecuRon ¡Rme ¡of ¡compuRng ¡the ¡similarity ¡matrix ¡vs. ¡

number ¡of ¡processes ¡

slide-51
SLIDE 51

51 ¡

Experiments for stage 2 ¡

  • Threshold ¡vs. ¡number ¡of ¡disjoint ¡sets ¡using ¡a ¡single ¡

processor

slide-52
SLIDE 52

52 ¡

Experiments for stage 2 (cont) ¡

  • Threshold ¡vs. ¡execuRon ¡Rme ¡while ¡idenRfying ¡the ¡

disjoint ¡sets ¡using ¡a ¡single ¡processor

slide-53
SLIDE 53

53 ¡

Experiments for stage 4 (cont) ¡

  • Threshold ¡vs. ¡execuRon ¡Rme ¡using ¡different ¡numbers ¡
  • f ¡processes ¡while ¡clustering ¡the ¡disjoint ¡sets ¡
slide-54
SLIDE 54

54 ¡

Experiments for stage 3 ¡

  • ExecuRon ¡Rme ¡vs. ¡number ¡of ¡processes ¡while ¡

compuRng ¡the ¡similarity ¡matrix ¡of ¡the ¡disjoint ¡sets ¡

slide-55
SLIDE 55

55 ¡

Clustering Algorithms (cont)

  • Partition based clustering
  • K-Means

Partition-Based Clustering Hierarchical Clustering Need to assign number

  • f cluster

Yes No Easy to parallelize Yes No unique No Yes Structure Output No Yes

slide-56
SLIDE 56

56 ¡

MOPS Project

  • MOPS: ¡

– Moving ¡Objects ¡Processing ¡System ¡ – A ¡sub-­‑system ¡in ¡Pan-­‑STARRS ¡project ¡ – IdenRfy/determine ¡orbits ¡of ¡Near-­‑Earth ¡Objects ¡ – Over ¡800k ¡objects ¡have ¡been ¡marked ¡now ¡

slide-57
SLIDE 57

57 ¡

Orbital Elements

slide-58
SLIDE 58

58 ¡

Disjoint Set Operations

  • Example ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

  • OpRmizaRon ¡

– Union ¡by ¡rank ¡ – Path ¡compress ¡ – Time ¡Complexity ¡

  • θ(m ¡α(n)), ¡α(n)=4 ¡
  • m ¡is ¡the ¡operaRon ¡counts ¡of ¡union, ¡find ¡root ¡and ¡ ¡link
slide-59
SLIDE 59

59 ¡

GRB Websites VB Websites MOPS Websites

Web Crawler

DataBase DataBase DataBase ETL Tool Data Warehouse

User Interface

PDMM AMI Gnuplot

Personalize Data Mangement Models Administrator Mangement Interface

Computing Machine Query Dispatcher Scheduler Computing Machine Computing Machine Metadata Metadata Computing Machine