1 ¡
Presenter: Cheng-Hsien Tang
Authors:
Cheng-‑Hsien ¡Tang, ¡Min-‑Feng ¡Wang, ¡Wei-‑Jen ¡Wang, ¡Meng-‑Feng ¡Tsai*, ¡Yuji ¡Urata, ¡Chow-‑Choong ¡Ngeow, ¡ Induk ¡Lee, ¡and ¡Kuiyun ¡Huang ¡ ¡
Date: 2011/03/25
Large-Scale Data Management and Analysis for Astronomical Research - - PowerPoint PPT Presentation
Large-Scale Data Management and Analysis for Astronomical Research Presenter: Cheng-Hsien Tang Authors: Cheng-Hsien Tang, Min-Feng Wang, Wei-Jen Wang, Meng-Feng Tsai*, Yuji Urata,
1 ¡
Authors:
Cheng-‑Hsien ¡Tang, ¡Min-‑Feng ¡Wang, ¡Wei-‑Jen ¡Wang, ¡Meng-‑Feng ¡Tsai*, ¡Yuji ¡Urata, ¡Chow-‑Choong ¡Ngeow, ¡ Induk ¡Lee, ¡and ¡Kuiyun ¡Huang ¡ ¡
Date: 2011/03/25
2 ¡
3 ¡
4 ¡
– Business: e-commerce, transaction, stock, … – Science: bioinformatics, simulation – Daily life: news, digital camera, etc
– Statistics, Classification , …
– Terabytes or Petabytes of data
5 ¡
– Computers no longer faster, just wider
– Small memory size – Long execution time
6 ¡
7 ¡
8 ¡
9 ¡
– A ¡system ¡with ¡distributed ¡message-‑passing ¡algorithm ¡to ¡calculate ¡a ¡ hierarchical ¡cluster ¡
– A ¡decentralized ¡MulRple ¡Classifier ¡System ¡(MCS) ¡framework ¡to ¡ support ¡a ¡complex ¡classificaRon ¡procedure ¡using ¡mulRple ¡classifiers. ¡
– An ¡integrated ¡interface ¡with ¡mulRdimensional ¡data-‑warehouse ¡design ¡ for ¡fast ¡data ¡retrieval ¡and ¡management. ¡ ¡
10 ¡
11 ¡
12 ¡
13 ¡
14 ¡
15 ¡
16 ¡
17 ¡
18 ¡
19 ¡
20 ¡
21 ¡
8 ¡
22 ¡
23 ¡
C1 C2 C3 C4 C5 C6 Ensemble Selection C2 C5 C6 Classifier Combination Decision C1 C2 C3 C4 C5 C6 Classifier Selection C1 Decision Testing data
24 ¡
25 ¡
26 ¡
27 ¡
28 ¡
29 ¡
30 ¡
Setting remains Command remains
31 ¡
32 ¡
– Develop a apply program to parallel computing
– Speed-up execution – Save lots of storage space
– Users can rewrite their similarity functions to fit their needs
– We have a concise, integrated, and scalable platform for fast data retrieval and management
33 ¡
34 ¡
35 ¡
36 ¡
37 ¡
38 ¡
39 ¡
40 ¡
¡ ¡S(Ci ¡, ¡Cj) ¡= ¡mina, ¡b ¡S(a, ¡b) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
S(Ci, ¡Cj) ¡= ¡Σa,bS(a, ¡b) ¡/ ¡(|Ci||Cj|)
S(Ci ¡, ¡Cj) ¡= ¡maxa, ¡b ¡S(a, ¡b)
41 ¡
42 ¡
B1
43 ¡
B2
44 ¡
B1 B2
45 ¡
B1 B2 b11 b12 b21 b22
margin
46 ¡
47 ¡
48 ¡
Top N Of M1 。。。。。。 Top N Of M2 Top N Of M3 Top N Of Mx M2 M1 M3 Mx M0 Top N Of all data
49 ¡
Old data Old data New data New data Enhanced Similarity Matrix
50 ¡
51 ¡
52 ¡
53 ¡
54 ¡
55 ¡
Partition-Based Clustering Hierarchical Clustering Need to assign number
Yes No Easy to parallelize Yes No unique No Yes Structure Output No Yes
56 ¡
57 ¡
58 ¡
59 ¡
GRB Websites VB Websites MOPS Websites
Web Crawler
DataBase DataBase DataBase ETL Tool Data Warehouse
User Interface
PDMM AMI Gnuplot
Personalize Data Mangement Models Administrator Mangement Interface
Computing Machine Query Dispatcher Scheduler Computing Machine Computing Machine Metadata Metadata Computing Machine