distributed optimization
play

Distributed optimization Mikael Johansson KTH Stockholm - Sweden - PDF document

6/26/13 Distributed optimization Mikael Johansson KTH Stockholm - Sweden Hycon2 PhD School, July 2013


  1. 6/26/13 ¡ Distributed optimization Mikael Johansson KTH – Stockholm - Sweden Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Aim of these lectures “To present some of the key techniques for distributed optimization in a coherent and comprehensible manner” Focus on understanding, not all the details – each lecture could be a full-semester course – you will have to work with the material yourself! Focus on fundamentals, not fads – many techniques date back to 60’s-80’s, … – but some are very recent, and research frontier is not far away Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 1 ¡

  2. 6/26/13 ¡ Why distributed optimization Optimization on a “Google scale” – information processing on huge data sets Coordination and control of large-scale systems – power and water distribution – vehicle coordination and planning – sensor, social, and data networks Theoretical foundation for communication protocol design – Internet congestion control – scheduling and power control in wireless systems Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Example: water distribution Coordinated control of water distribution in city of Barcelona (WIDE) Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 2 ¡

  3. 6/26/13 ¡ Example: multi-agent coordination Cooperate to find jointly optimal controls and rendez-vous point minimize P i ∈ V f i ( θ ) subject to θ ∈ Θ where t =0 ( x t − θ ) T Q ( x t − θ ) + u T P T f i ( θ ) = min t Ru t s.t. x t +1 = Ax t + Bu t , t = 0 , . . . , T − 1 Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Example: communication protocol design Understand how TCP/IP shares network resources between users maximize P i u i ( x i ) subject to P i ∈ P ( l ) x i ≤ c l , l ∈ L Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 3 ¡

  4. 6/26/13 ¡ Lecture overview Lecture 1: first-order methods for convex optimization Lecture 2: multi-agent optimization Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Part I: Convex optimization using first-order methods Aim: to understand – properties and analysis techniques for basic gradient method – the interplay between problem structure and convergence rate guarantees – how we can deal with non-smoothness, noise and constraints Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 4 ¡

  5. 6/26/13 ¡ Rationale Convex optimization: – minimize convex function subject to convex constraints – local minima global, strong and useful theory First-order methods: – only use function and gradient evaluations (i.e. no Hessians) – easy to analyze, implement and distribute, yet competitive Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Convex functions and convex sets y f ( y ) f ( x ) x α x + (1 − α ) y ∈ X, α ∈ [0 , 1] α f ( x ) + (1 − α ) f ( y ) ≥ f ( α x + (1 − α ) y ) , α ∈ [0 , 1] Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 5 ¡

  6. 6/26/13 ¡ A ffi ne lower bounds from convexity f ( y ) f ( x ) f ( y ) � f ( x ) + hr f ( x ) , y � x i Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Strong convexity – quadratic lower bounds f ( y ) f ( x ) f ( y ) � f ( x ) + hr f ( x ) , y � x i + c 2 k y � x k 2 Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 6 ¡

  7. 6/26/13 ¡ Lipschitz continuous gradient – upper bounds Lipschitz-continuous gradient: kr f ( x ) � r f ( y ) k  L k x � y k f ( y ) f ( x ) Yields upper quadratic bound: f ( y )  f ( x ) + hr f ( x ) , y � x i + L 2 k y � x k 2 Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Strongly convex functions with Lipschitz gradient Bounded from above and below by quadratic functions Condition number impacts performance of first-order methods. κ = L/c Note: limited function class when required to hold globally. Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 7 ¡

  8. 6/26/13 ¡ The basic gradient method Basic gradient method x ( t + 1) = x ( t ) � α ( t ) r f ( x ( t )) A descent method (for small enough step-size ). α ( t ) Convergence proof. k x ( t + 1) � x ? k 2 2 = k x ( t ) � x ? k 2 2 � 2 α ( t ) hr f ( x ( t )) , x ( t ) � x ? i + α ( t ) 2 kr f ( x ( t )) k 2 2  k x ( t ) � x ? k 2 2 � 2 α ( t ) ( f ( x ( t )) � f ? ) + α ( t ) 2 kr f ( x ( t )) k 2 2 Where the inequality follows from convexity of f Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Gradient method convergence proof Applying recursively, we find T − 1 T − 1 X X k x ( T ) � x ? k 2 2  k x (0) � x ? k 2 α 2 ( t ) kr f ( x ( t )) k 2 2 � 2 α ( t )( f ( x ( t )) � f ? ) + 2 t =0 t =0 Since gradient method is descent, and norms are non-negative T − 1 T − 1 X α ( t )  k x (0) � x ? k 2 X α 2 ( t ) kr f ( x ( t )) k 2 2( f ( x ( T )) � f ? ) 2 + 2 t =0 t =0 Hence, with R 0 = k x (0) � x ? k 0 + P T − 1 f ( x ( T )) � f ? )  R 2 t =0 α 2 ( t ) kr f ( x ( t )) k 2 2 2 P T − 1 t =0 α ( t ) Further assumptions needed to guarantee convergence! Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 8 ¡

  9. 6/26/13 ¡ Gradient method discussion If we assume that f is Lipschitz, i.e. kr f ( x ( t )) k  L f P T − 1 R 2 0 + L 2 t =0 α 2 ( t ) f f ( x ( T )) − f ? ) ≤ 2 P T − 1 t =0 α ( t ) Then, – For fixed step-size α ( t ) = α α L 2 T →∞ f ( x ( T )) ≤ f ? + f lim 2 – For diminishing stepsizes P ∞ t =0 α 2 ( t ) < ∞ , P ∞ t =0 α ( t ) = ∞ T →∞ f ( x ( T )) = f ? lim ( R 0 L f ) 2 / ε 2 – Accuracy can be obtained in steps ε Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ Example Smaller residual error for smaller stepsize, convergence for diminishing Hycon2 ¡PhD ¡School, ¡July ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mikael ¡Johansson ¡ ¡ ¡ ¡ ¡mikaelj@ee.kth.se ¡ ¡ ¡ 9 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend