streamer a distributed framework for incremental
play

STREAMER: a Distributed Framework for Incremental Closeness - PowerPoint PPT Presentation

STREAMER: a Distributed Framework for Incremental Closeness Centrality Computa@on A. Erdem Saryce 1,2 , Erik Saule 4 , Kamer Kaya 1 , mit V.


  1. STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡ Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ ¡ A. ¡Erdem ¡Sarıyüce ¡ 1,2 , ¡Erik ¡Saule ¡ 4 , ¡Kamer ¡Kaya ¡ 1 , ¡Ümit ¡V. ¡Çatalyürek ¡ 1,3 ¡ 1 ¡ Department ¡of ¡Biomedical ¡InformaBcs ¡ 2 ¡ Department ¡of ¡Computer ¡Science ¡& ¡Engineering ¡ ¡ 3 ¡ Department ¡of ¡Electrical ¡& ¡Computer ¡Engineering ¡ The ¡Ohio ¡State ¡University ¡ 4 ¡ Department ¡of ¡Computer ¡Science ¡ University ¡of ¡North ¡Carolina ¡CharloMe ¡ ¡ ¡ IEEE ¡Cluster ¡2013, ¡Indianapolis, ¡IN ¡ ¡ ¡

  2. Massive ¡Graphs ¡are ¡everywhere ¡ • Facebook has a billion users and a trillion connections • Twitter has more than 200 million users Topic 2 Topic 5 Topic 4 Topic 1 Topic 6 Topic 3 citation graphs IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 2 Cluster’13

  3. Large(r) ¡Networks ¡and ¡Centrality ¡ • Who ¡is ¡more ¡important ¡in ¡a ¡ network? ¡Who ¡controls ¡the ¡ flow ¡between ¡nodes? ¡ • Centrality ¡metrics ¡answer ¡these ¡ quesBons ¡ • Closeness ¡Centrality ¡(CC) ¡is ¡an ¡ intriguing ¡metric ¡ ¡ • How ¡to ¡handle ¡changes? ¡ • Incremental ¡algorithms ¡are ¡good ¡ but ¡not ¡enough ¡in ¡pracBce ¡ • Parallelism ¡is ¡essenBal ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 3 Cluster’13

  4. Closeness ¡Centrality ¡ • Let ¡ G=(V, ¡E) ¡be ¡a ¡graph ¡with ¡vertex ¡set ¡ V ¡and ¡edge ¡set ¡ E ¡ • Farness ¡(far) ¡of ¡a ¡vertex ¡is ¡the ¡sum ¡of ¡shortest ¡distances ¡to ¡each ¡ vertex ¡ X far [ u ] = d G ( u, v ) . v 2 V d G ( u,v ) 6 = 1 • Closeness ¡centrality ¡(cc) ¡of ¡a ¡vertex ¡: ¡ ¡ 1 cc [ u ] = far [ u ] . • Best ¡algorithm: ¡All-­‑pairs ¡shortest ¡paths ¡ • ¡O(|V|.|E|) ¡complexity ¡for ¡unweighted ¡networks ¡ • For ¡large ¡and ¡dynamic ¡networks ¡ • From ¡scratch ¡computaBon ¡is ¡infeasible ¡ ¡ • Faster ¡soluBons ¡are ¡essenBal ¡ ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 4 Cluster’13 ¡

  5. CC ¡Algorithm ¡ Algorithm 1: CC: Basic centrality computation Data : G = ( V, E ) Single Source Shortest Path Output : cc [ . ] (SSSP) is computed for each 1 for each s ∈ V do vertex . SSSP( G , s ) with centrality computation Q ← empty queue d [ v ] ← ∞ , ∀ v ∈ V \ { s } Q .push( s ), d [ s ] ← 0 far [ s ] ← 0 while Q is not empty do Breadth- v ← Q .pop() First for all w ∈ Γ G ( v ) do Search with if d [ w ] = ∞ then farness Q .push( w ) computation d [ w ] ← d [ v ] + 1 cc value is far [ s ] ← far [ s ] + d [ w ] assigned 1 cc [ s ] = far [ s ] return cc [ . ] IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 5 Cluster’13

  6. Incremental ¡Closeness ¡Centrality ¡ ¡ • CompuBng ¡cc ¡values ¡from ¡scratch ¡a`er ¡each ¡edge ¡change ¡ is ¡very ¡costly ¡ • Incremental ¡algorithms ¡are ¡used ¡to ¡handle ¡changes ¡ • Main ¡idea ¡is ¡to ¡reduce ¡number ¡of ¡SSSPs ¡to ¡be ¡executed ¡ • Three ¡filtering ¡techniques ¡are ¡proposed ¡ • Filtering ¡with ¡level ¡differences ¡ • Filtering ¡with ¡biconnected ¡components ¡ • Filtering ¡with ¡idenBcal ¡verBces ¡ • Details ¡can ¡be ¡found ¡at ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ “A. ¡E. ¡Sarıyuce, ¡K. ¡Kaya, ¡E. ¡Saule, ¡and ¡Umit ¡V. ¡Catalyurek. ¡Incremental ¡algorithms ¡ for ¡Closeness ¡Centrality. ¡IEEE ¡BigData ¡Conference, ¡2013” ¡ ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 6 Cluster’13

  7. Filtering ¡with ¡level ¡differences ¡ • Upon ¡edge ¡inserBon, ¡breadth-­‑first ¡search ¡tree ¡of ¡ each ¡vertex ¡will ¡change. ¡Three ¡possibiliBes: ¡ • Case ¡1 ¡and ¡2 ¡will ¡not ¡change ¡cc ¡of ¡s! ¡ • No ¡need ¡to ¡apply ¡SSSP ¡from ¡them ¡ • Just ¡Case ¡3 ¡ • BFSs ¡are ¡executed ¡from ¡u ¡and ¡v ¡and ¡level ¡diff ¡is ¡checked ¡ ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 7 Cluster’13

  8. Filtering ¡with ¡biconnected ¡components ¡ • What ¡if ¡the ¡graph ¡have ¡arBculaBon ¡points? ¡ v u A B • Change ¡in ¡A ¡can ¡change ¡cc ¡of ¡any ¡vertex ¡in ¡A ¡and ¡B ¡ • CompuBng ¡the ¡change ¡for ¡u ¡is ¡ enough ¡for ¡finding ¡ changes ¡for ¡any ¡vertex ¡v ¡in ¡B ¡(constant ¡factor ¡is ¡added) ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 8 Cluster’13

  9. Filtering ¡with ¡iden@cal ¡ver@ces ¡ • Two ¡types ¡of ¡idenBcal ¡verBces: ¡ • Type ¡I: ¡u ¡and ¡v ¡are ¡idenBcal ¡verBces ¡if ¡ ¡N(u) ¡= ¡N(v), ¡i.e., ¡their ¡ neighbor ¡lists ¡are ¡same ¡ u v • Type ¡II: ¡u ¡and ¡v ¡are ¡idenBcal ¡verBces ¡if ¡{u} ¡U ¡N(u) ¡= ¡{v} ¡U ¡N(v), ¡ i.e., ¡they ¡are ¡also ¡connected ¡ u v • If ¡u ¡and ¡v ¡are ¡idenBcal ¡verBces, ¡their ¡cc ¡are ¡the ¡same ¡ • Same ¡breadth-­‑first ¡search ¡trees! ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 9 Cluster’13

  10. Is ¡it ¡enough? ¡ | V | | E | name Time (in sec.) web-NotreDame 325K 1,090K 53.0 amazon0601 403K 2,443K 298.1 875K 4,322K 824.4 web-Google ¡ • Too ¡slow ¡for ¡real-­‑Bme ¡processing ¡ • The ¡problem ¡is ¡mostly ¡parallel ¡and ¡graphs ¡are ¡relaBvely ¡ small. ¡ • Source-­‑level ¡parallelism ¡can ¡be ¡used ¡to ¡fill ¡up ¡a ¡cluster ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 10 Cluster’13

  11. DataCuNer ¡ • Component-­‑based ¡middleware ¡tool ¡ • Supports ¡filter-­‑stream ¡programming ¡ • Implements ¡the ¡computaBons ¡as ¡a ¡set ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ of ¡components ¡(filters) ¡that ¡exchange ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ data ¡through ¡logical ¡streams ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ (unidirecBonal ¡data ¡flows) ¡ • Layout ¡is ¡a ¡filter ¡ontology ¡ • Describes ¡the ¡set ¡of ¡tasks, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ streams ¡and ¡the ¡connecBons ¡ • All ¡replicable ¡ IEEE STREAMER: ¡a ¡Distributed ¡Framework ¡for ¡Incremental ¡Closeness ¡Centrality ¡Computa@on ¡ 11 Cluster’13

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend