d tection de communaut s dans des r seaux scientifiques
play

Dtection de communauts dans des rseaux scientifiques partir de - PowerPoint PPT Presentation

Dtection de communauts dans des rseaux scientifiques partir de donnes relationnelles et textuelles David C OMBE , Chris=ne L ARGERON , Elod E GYED -Z SIGMOND , Mathias G RY {david.combe,


  1. Détection de communautés dans des réseaux scientifiques à partir de données relationnelles et textuelles David ¡C OMBE , ¡Chris=ne ¡L ARGERON , ¡ ¡ Elod ¡E GYED -­‑Z SIGMOND , ¡Mathias ¡G ÉRY ¡ {david.combe, ¡chris=ne.largeron, ¡mathias.gery}@univ-­‑st-­‑e=enne.fr ¡(Lab. ¡H. ¡Curien, ¡St-­‑E=enne, ¡France) ¡ elod.egyed-­‑zsigmond@insa-­‑lyon.fr ¡(Liris, ¡Lyon, ¡France) ¡ 17 ¡octobre ¡2012 ¡– ¡MARAMI ¡ 1 ¡

  2. Outline Introduc=on ¡ • We ¡ evaluate ¡ the ¡ performance ¡ of ¡ three ¡ community ¡ detec=on ¡methods ¡combining ¡rela=ons ¡and ¡text. ¡ • Combina=on ¡methods ¡are ¡rarely ¡evaluated ¡over ¡real ¡ life ¡ clusters. ¡ We ¡ built ¡ a ¡ dataset ¡ with ¡ ground ¡ truth ¡ par==ons. ¡ ¡ 2 ¡ MARAMI’12 ¡

  3. Context  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 3 ¡ MARAMI’12 ¡

  4. Context Context ¡ • Social ¡ networks ¡ can ¡ be ¡ represented ¡ by ¡ a ¡ graph ¡ where ¡ver=ces ¡are ¡actors ¡and ¡edges ¡are ¡rela=ons ¡ between ¡them. ¡ • Actors ¡o^en ¡have ¡available ¡a\ributes ¡describing ¡ them. ¡ • Example: ¡Bibliographic ¡networks ¡ – Ver=ces ¡are ¡authors ¡ – Edges ¡are ¡par=cipa=ons ¡into ¡a ¡common ¡conference ¡ – A\ributes ¡are ¡publica=ons ¡of ¡authors ¡ 4 ¡ MARAMI’12 ¡

  5. Attributed graph  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 5 ¡ MARAMI’12 ¡

  6. Attributed graph A\ributed ¡graph ¡ • ¡ ¡ 6 ¡ MARAMI’12 ¡

  7. Attributed graph A\ributed ¡graph ¡clustering ¡problem ¡ • ¡ ¡ 7 ¡ MARAMI’12 ¡

  8. Attributed graph Scien=fic ¡locks ¡ • Learning/use ¡ of ¡ the ¡ prevalence ¡ of ¡ text ¡ over ¡ rela=ons ¡ and ¡ vice ¡versa ¡ – What ¡to ¡do ¡if ¡each ¡value ¡of ¡vectors ¡are ¡doubled ¡? ¡ – What ¡to ¡do ¡if ¡each ¡edge ¡see ¡its ¡weight ¡doubled ¡? ¡ ¡ ¡ ¡ ¡  ¡Networks ¡and ¡vectors ¡from ¡an ¡absolute ¡point ¡of ¡view ¡ • Being ¡able ¡to ¡lean ¡on ¡ one ¡aspect ¡of ¡data ¡or ¡the ¡other ¡ in ¡the ¡same ¡graph ¡ depending ¡on ¡the ¡context ¡( in ¡case ¡ of ¡lack ¡of ¡informa=on…) ¡ • Giving ¡a ¡sense ¡to ¡data ¡processes ¡ • Mul=-­‑scale ¡ communi=es: ¡ some ¡ communi=es ¡ can ¡ be ¡ absorbed ¡by ¡bigger ¡ones ¡even ¡if ¡they ¡are ¡well ¡defined. ¡ Big ¡communi=es ¡can ¡be ¡split ¡unexpectedly ¡too. ¡ 8 ¡ MARAMI’12 ¡

  9. Attributed graph Scien=fic ¡locks ¡(2) ¡ • Being ¡sure ¡to ¡provide ¡a ¡result ¡ at ¡least ¡as ¡good ¡ as ¡the ¡best ¡aspect ¡of ¡data ¡is ¡not ¡trivial. ¡ • Defini=on ¡of ¡what ¡a ¡ good ¡par==on ¡is ¡is ¡hard ¡in ¡ unsupervized ¡clustering. ¡ 9 ¡ MARAMI’12 ¡

  10. Attributed graph Prac=cal ¡locks ¡ • Distances ¡over ¡a\ributes ¡can ¡be ¡long ¡to ¡ compute ¡ – Discre=za=on, ¡dimensionality ¡reduc=on ¡can ¡help ¡ • Difficulty ¡to ¡tackle ¡large ¡amounts ¡of ¡a\ributes ¡ (curse ¡of ¡dimensionality). ¡ 10 ¡ MARAMI’12 ¡

  11. State of the art  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 11 ¡ MARAMI’12 ¡

  12. State of the art Type ¡of ¡combina=on ¡ • Precocious ¡combina=on ¡ – Combina=on ¡of ¡distances ¡ – Clustering ¡over ¡an ¡hybrid ¡representa=on ¡and/or ¡ distance ¡ • Mid-­‑level ¡combina=on ¡ – Combinaison ¡is ¡integrated ¡in ¡the ¡algorithm ¡ • Late ¡combina=on ¡ – Different ¡par==ons, ¡some ¡from ¡rela=ons, ¡some ¡from ¡ a\ributes, ¡are ¡merged ¡into ¡a ¡single ¡par==on. ¡ 12 ¡ MARAMI’12 ¡

  13. State of the art Precocious ¡combina=on ¡ • Elabora=on ¡of ¡a ¡new ¡distance ¡based ¡both ¡on ¡ rela=ons ¡and ¡a\ributes ¡ – Crea=on ¡of ¡edges ¡based ¡on ¡a\ributes ¡[Zhou ¡2009] ¡ ¡ – Valua=on ¡of ¡edges ¡based ¡on ¡a\ributes ¡[Combe ¡ 2012] ¡ ¡  ¡Taking ¡the ¡context ¡into ¡account ¡is ¡difficult ¡at ¡this ¡ =me. ¡ 13 ¡ MARAMI’12 ¡

  14. State of the art Summariza=on ¡as ¡a ¡graph ¡ • Crea=on ¡of ¡new ¡ver=ces ¡and ¡edges ¡[Zhou ¡ 2009]. ¡ 14 ¡ MARAMI’12 ¡

  15. State of the art Mid-­‑level ¡combina=on ¡ – NetScan ¡algorithm ¡[Ester ¡2006]: ¡ Extended ¡K-­‑means ¡with ¡an ¡internal ¡connexity ¡ constraint ¡ • Number ¡of ¡classes ¡needs ¡to ¡be ¡known ¡ – JointClust ¡algorithm ¡[Moser ¡2007]: ¡ Extension ¡of ¡Netscan ¡where ¡the ¡ number ¡of ¡ classes ¡is ¡not ¡required ¡ – Extension ¡of ¡the ¡modularity ¡in ¡order ¡to ¡take ¡also ¡ ¡ into ¡account ¡the ¡similarity ¡between ¡the ¡a\ributes ¡ of ¡two ¡ver=ces ¡[Dang ¡2011] ¡ 15 ¡ MARAMI’12 ¡

  16. State of the art Late ¡combinaison: ¡ Clustering ¡combina=on ¡ Generate ¡par>>ons ¡from: ¡ -­‑ Graph ¡clustering ¡algorithms ¡ Consensus ¡over ¡par==ons ¡can ¡ -­‑ Non ¡supervised ¡clustering ¡ be ¡achieved ¡through ¡ algorithm ¡adapted ¡for ¡vectors. ¡ -­‑ Vo=ng ¡ -­‑ Mutual ¡informa=on ¡ Par==ons ¡can ¡be ¡ generated ¡ using: ¡ -­‑ Hypergraph ¡par==onning ¡ -­‑ Different ¡algorithms ¡ -­‑ … ¡ -­‑ Different ¡subsets ¡of ¡objects/ features ¡ -­‑ Projec=ons ¡in ¡subspaces ¡ -­‑ Randomized ¡runs ¡ -­‑ Resampling ¡ 16 ¡ [Ghaemi ¡2009] ¡ MARAMI’12 ¡

  17. Clustering scenarios and underlying hypothesis  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡ hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 17 ¡ MARAMI’12 ¡

  18. Clustering scenarios and underlying hypothesis Clustering ¡methods ¡ Proposi=on ¡ of ¡ 3 ¡ clustering ¡ methods ¡ which ¡exploit ¡text ¡and ¡rela=ons: ¡ • Combina=on ¡ method ¡ TS1: ¡ Structure-­‑based ¡ clustering ¡on ¡a\ribute ¡weighted ¡graph ¡ • Combina=on ¡ method ¡ TS2: ¡ A\ribute-­‑based ¡ clustering ¡on ¡structural ¡distance ¡ • Combina=on ¡method ¡TS3: ¡Linear ¡combina=on ¡ 18 ¡ MARAMI’12 ¡

  19. Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS1: ¡Structure-­‑based ¡ clustering ¡on ¡aDribute ¡weighted ¡graph ¡ Cosine distance matrix computed on the tf idf textual vectors Weighted-­‑graphs ¡ clustering ¡algorithm ¡ ¡ Informa=on ¡ Graph ¡valued ¡ with ¡textual ¡ network ¡ distance ¡ 19 ¡ MARAMI’12 ¡

  20. Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS2: ¡ADribute-­‑based ¡ clustering ¡on ¡structural ¡distance ¡ Textual distance (cosine) matrix Informa=on ¡ network ¡ Shortest path distance matrix Hierarchical Graph ¡valued ¡with ¡ agglomerative textual ¡distance ¡ clustering (average linkage) 20 ¡ MARAMI’12 ¡

  21. Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS3: ¡ ¡ Linear ¡combina>on ¡ Textual distance (cosine) matrix Combined Graph ¡valued ¡with ¡ 1-­‑ α ¡ distances textual ¡distance ¡ matrix α ¡ α ¡ Vertices Shortest ¡path ¡ distance Hierarchical matrix processing ¡ agglomerative clustering (average linkage) 21 ¡ MARAMI’12 ¡

  22. Experiment  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 22 ¡ MARAMI’12 ¡

  23. Experiment Elabora=on ¡of ¡a ¡benchmark ¡dataset ¡with ¡ground ¡truth ¡ suitable ¡for ¡a\ributed ¡graph ¡clustering ¡evalua=on ¡ ¡ • ¡ ¡ A ¡ Bioinforma=cs ¡ B ¡ C ¡ Robo=cs ¡ D ¡ Constraints ¡ 23 ¡ MARAMI’12 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend