submodular functions part i
play

Submodular Functions Part I ML Summer School Cdiz Stefanie Jegelka - PowerPoint PPT Presentation

Submodular Functions Part I ML Summer School Cdiz Stefanie Jegelka MIT Set functions ground set V = F : 2 V R cost of buying items ( ) = together, or F utility, or probability, We will assume: . F ( ) = 0 black


  1. Submodular Functions – Part I ML Summer School Cádiz Stefanie Jegelka MIT

  2. Set functions ground set V = F : 2 V → R cost of buying items ( ) = together, or F utility, or probability, … We will assume: • . F ( ∅ ) = 0 • black box “oracle” to evaluate F 2

  3. Discrete Labeling sky tree house grass F ( S ) = coherence + likelihood 3 ¡

  4. Summarization F ( S ) = relevance + diversity or coverage 4 ¡

  5. Informative Subsets OF F ICE OF F ICE QUIE T PHONE CONF E RENCE STO R AGE LA B ELEC COPY SE R VER KITCHE N • where put sensors? • which experiments? • summarization F ( S ) = “information” 5 ¡

  6. Sparsity A x + noise y = F ( S ) =“penalty on support pattern”

  7. Formalization • Formalization: Optimize a set function F(S) (under constraints) OF F ICE OF F ICE QUIE T PHONE CONF E RENCE STO R AGE LA B ELEC COPY SE R VER KITCHE N • generally very hard L • submodularity helps: efficient optimization & inference with guarantees! J

  8. Roadmap • Submodular set functions – what is this? where does it occur? how recognize? • Maximizing submodular functions: diversity, repulsion, concavity greed is not too bad • Minimizing submodular functions: coherence, regularization, convexity the magic of “discrete analog of convex” • Other questions around submodularity & ML more reading & papers: http://people.csail.mit.edu/stefje/mlss/literature.pdf

  9. Sensing OF F ICE OF F ICE QUIE T PHONE CONF E RENCE STO R AGE LA B ELEC COPY SE R VER KITCHE N = all possible locations V F(S) = information gained from locations in S 9 ¡

  10. Marginal gain • Given set function F : 2 V → R • Marginal gain: F ( s | A ) = F ( A ∪ { s } ) − F ( A ) OF F ICE OF F ICE QUIE T PHONE X 2 X 1 CONF E RENCE STO R AGE LA B ELEC COPY SE R VER KITCHE N X s ¡ ¡ ¡ new ¡sensor ¡s ¡ 10

  11. Diminishing marginal gains placement ¡A ¡= ¡{1,2} ¡ placement ¡B ¡= ¡{1,…,5} ¡ OF F ICE OF F ICE QUIE T PHONE OF F ICE OF F ICE QUIE T PHONE X 2 X 2 ¡ X 1 CONF E RENCE X 1 ¡ CONF E RENCE STO R AGE X 3 ¡ STO R AGE LA B LA B ELEC COPY ELEC COPY SE R VER SE R VER X 5 ¡ KITCHE N X 4 ¡ KITCHE N Big ¡gain ¡ Adding ¡ s ¡helps ¡a ¡lot! ¡ X s ¡ ¡ ¡ small ¡gain ¡ new ¡sensor ¡s ¡ A B + s + s A ⊆ B F ( A ∪ s ) − F ( A ) F ( B ∪ s ) − F ( B ) ≥ 11 ¡

  12. Submodularity A ⊆ B . |{z} | {z } A B F ( A ∪ s ) − F ( A ) F ( B ∪ s ) − F ( B ) ≥ extra cost: extra cost: free refill J one drink diminishing marginal costs 12

  13. Submodular set functions • Diminishing gains: for all A ⊆ B A B + e + e F ( A ∪ e ) − F ( A ) F ( B ∪ e ) − F ( B ) ≥ • Union-Intersection: for all S, T ⊆ V F ( S ∪ T ) + F ( S ∩ T ) ≥ F ( S ) + F ( T )

  14. The big picture graph ¡ electrical ¡ theory ¡ networks ¡ (Frank ¡1993) ¡ (Narayanan ¡ G. Choquet J. Edmonds 1997) ¡ game ¡ theory ¡ combinatorial ¡ (Shapley ¡1970) ¡ submodular ¡ opDmizaDon ¡ funcDons ¡ matroid ¡ theory ¡ (Whitney, ¡1935) ¡ stochasDc ¡ ¡ machine ¡ ¡ learning ¡ processes ¡ (Macchi ¡1975, ¡ ¡ Borodin ¡2003) ¡ L. Lovász L.S. Shapley

  15. Examples • each element e has a weight w ( e ) + + X F ( S ) = w ( e ) e ∈ S A ⊂ B F ( A ∪ e ) − F ( A ) = w ( e ) F ( B ∪ e ) − F ( B ) = w ( e ) = linear / modular function F and – F always submodular!

  16. Examples OF F ICE OF F ICE QUIE T PHONE CONF E RENCE STO R AGE LA B ELEC COPY SE R VER KITCHE N sensing: F(S) = information gained from locations S 16 ¡

  17. Example: cover � � � � [ F ( S ) = area( v ) � � � � � � v ∈ S F ( B ∪ v ) − F ( B ) ≥ F ( A ∪ v ) − F ( A )

  18. More ¡complex ¡model ¡for ¡sensing ¡ OF F ICE OF F ICE QUIE T PHONE Y s : ¡temperature ¡ Y 1 Y 2 Y 3 1 2 3 CONF E RENCE at ¡locaDon ¡s ¡ STO R AGE X 1 ¡ X 3 ¡ LA B X 2 ¡ ELEC COPY X s : ¡sensor ¡value ¡ Y 6 6 at ¡locaDon ¡s ¡ SE R VER Y 4 KITCHE N Y 5 X s = Y s + noise X 6 ¡ 4 5 X 4 ¡ X 5 ¡ Joint ¡probability ¡distribuDon ¡ ¡ P(X 1 ,…,X n ,Y 1 ,…,Y n ) ¡ ¡= ¡P(Y 1 ,…,Y n ) ¡P(X 1 ,…,X n ¡| ¡Y 1 ,…,Y n ) ¡ Prior ¡ Likelihood ¡ 18 ¡

  19. Sensor placement UDlity ¡of ¡having ¡sensors ¡at ¡subset ¡A ¡of ¡all ¡locaDons ¡ ¡ = I ( Y ; X A ) F ( A ) = H ( Y ) − H ( Y | X A ) Uncertainty ¡ Uncertainty ¡ about ¡temperature ¡Y ¡ about ¡temperature ¡Y ¡ a6er ¡ sensing ¡ before ¡ sensing ¡ OF F ICE OF F ICE QUIE T PHONE OF F ICE OF F ICE QUIE T PHONE X 4 CONF E RENCE CONF E RENCE X 1 STO R AGE STO R AGE X 1 X 3 LA B LA B X 5 ELEC COPY ELEC COPY SE R VER SE R VER X 2 KITCHE N KITCHE N A={1,2,3}: High value F(A) A={1,4,5}: Low value F(A) 19 ¡

  20. Information gain discrete random variables X 1 , . . . X n , Y 1 , . . . , Y m F ( A ) = I ( Y ; X A ) = H ( X A ) − H ( X A | Y ) modular! X = H ( X i | Y ) i ∈ A if all conditionally X i , X j independent given Y 1 Y 2 Y 1 X 1 ¡ then F is submodular! X 3 ¡ X 2 ¡ Y 4 Y 4 X A X 4 ¡ X 5 ¡

  21. Entropy discrete random variables: X 1 , . . . , X n X e ∈ { 1 , . . . , m } F ( S ) = H ( X S ) = joint entropy of variables indexed by S X H ( X e ) = P ( X e = x ) log P ( X e = x ) x ∈ { 1 ,...,m } A ⊂ B , e / ∈ B F ( A ∪ e ) − F ( A ) ≥ F ( B ∪ e ) − F ( B )?? H ( X A ∪ e ) − H ( X A ) = H ( X e | X A ) “information never hurts” ≤ H ( X e | X B ) = H ( X B ∪ e ) − H ( X B ) discrete entropy is submodular!

  22. Submodularity and independence discrete random variables X 1 , . . . , X n statistically independent X i , i ∈ S X ó H is modular/linear on S H ( X S ) = H ( X e ) e ∈ S Similarly: linear independence vectors in S linearly independent V = ó F is modular/linear on S : F(S) = |S| ) F(S) = rank(

  23. Maximizing Influence F ( S ) = expected # infected nodes F ( S ∪ s ) − F ( S ) ≥ F ( T ∪ s ) − F ( T ) (Kempe, Kleinberg & Tardos 2003) 23 ¡

  24. Graph cuts • Cut for one edge: u v F ( { u } ) + F ( { v } ) F ( { u, v } ) + F ( ∅ ) ≥ X F ( S ) = w uv u ∈ S,v / ∈ S u u v u v u v v w uv w uv 0 0 • cut of one edge is submodular! • large graph: sum of edges Useful property: sum of submodular functions is submodular

  25. Sets and boolean vectors any set function … is a function on binary vectors! with . | V | = n F : 2 V → R F : { 0 , 1 } n → R A x = 1 A a 1 a ¡ b = ˆ 1 b ¡ c 0 c ¡ d 0 d ¡ subset selection = binary labeling! 25

  26. Attractive potentials label x 1 x 1 x 2 x 2 x 3 x 3 x 4 x 4 pixel z 1 z 2 z 3 z 4 z 1 z 1 z 3 z 3 z 4 z 4 z 2 z 2 x 5 x 5 x 7 x 7 x 8 x 8 x 6 x 6 z 6 z 6 z 5 z 5 z 7 z 7 z 6 z 7 z 8 z 8 z 8 z 5 x 12 x 10 x 11 x 11 x 12 x 9 x 9 x 10 z 10 z 10 z 11 z 11 z 9 z 9 z 10 z 11 z 12 z 12 z 12 z 9 P ( x | z ) ∝ exp( − E ( x ; z )) max x ∈ { 0 , 1 } n labels pixel values x ∈ { 0 , 1 } n E ( x ; z ) min ⇔ 26

  27. Attractive potentials P ( x | z ) x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4 z 1 z 1 z 2 z 3 z 3 z 4 z 4 z 2 ∝ exp( − E ( x ; z )) x 5 x 5 x 6 x 8 x 8 x 7 x 7 x 6 z 5 z 5 z 6 z 6 z 7 z 7 z 8 z 8 x 11 x 12 x 12 x 9 x 9 x 10 x 10 x 11 z 10 z 10 z 11 z 11 z 12 z 9 z 9 z 12 X X E ( x ; z ) = i E i ( x i ) + ij E ij ( x i , x j ) spatial coherence: E ij (1 , 0) + E ij (0 , 1) ≥ E ij (0 , 0) + E ij (1 , 1) i j i j i j i j S ∩ T = ∅ S ∪ T T = { j } S = { i } F ( S ) + F ( T ) F ( S ∪ T ) + F ( S ∩ T ) ≥ 27

  28. Diversity priors P ( S | data) ∝ P ( S ) P (data | S ) “spread out”

  29. Determinantal point processes S • similarity matrix L S L ij = x > i x j L • sample set Y : P ( Y = S ) ∝ det( L S ) = Vol( { x i } i ∈ S ) 2 F ( S ) = log det( K S ) is submodular!

  30. DPP sample uniform DPP similarities: σ 2 = 35 2 σ 2 k x i � x j k 2 ) 1 s ij = exp( �

  31. 6 ¡0 ¡8 ¡9 ¡6 ¡7 ¡7 ¡3 ¡6 ¡1 ¡7 ¡0 ¡2 ¡0 ¡0 ¡8 ¡6 ¡3 ¡9 ¡0 ¡4 ¡3 ¡7 ¡7 ¡1 ¡4 ¡4 ¡6 ¡7 ¡7

  32. Submodularity: many examples • linear/modular functions • graph cut function • coverage • propagation/diffusion in networks • entropy • rank functions |{z} . | {z } A • information gain B F ( A ∪ s ) − F ( A ) • log P(S|data) [repulsion] F ( B ∪ s ) − F ( B ) ≥ or -log P(S|data) [coherence]

  33. Closedness properties submodular on . The following are submodular: F ( S ) V • Restriction: F 0 ( S ) = F ( S ∩ W ) S S V V W 33

  34. Closedness properties submodular on . The following are submodular: F ( S ) V • Restriction: F 0 ( S ) = F ( S ∩ W ) • Conditioning: F 0 ( S ) = F ( S ∪ W ) S S V V W 34

  35. Closedness properties submodular on . The following are submodular: F ( S ) V • Restriction: F 0 ( S ) = F ( S ∩ W ) • Conditioning: F 0 ( S ) = F ( S ∪ W ) • Reflection: F 0 ( S ) = F ( V \ S ) S V 35

  36. Submodularity … discrete convexity …. … or concavity? 36

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend