Implicit Reparameterization Gradients Michael Figurnov, Shakir - PowerPoint PPT Presentation

Implicit Reparameterization Gradients Michael Figurnov, Shakir Mohamed, Andriy Mnih Poster: Room 210 #33

Reparameterization gradients Core part of variational autoencoders, automatic variational inference, etc. Backpropagation in graphs with continuous random variables Implicit Reparameterization Gradients — Michael Figurnov

Reparameterization gradients Core part of variational autoencoders, automatic variational inference, etc. Backpropagation in graphs with continuous random variables continuous differentiable backpropagation (Normal, ...) (ELBO, …) Implicit Reparameterization Gradients — Michael Figurnov

Reparameterization gradients Core part of variational autoencoders, automatic variational inference, etc. Backpropagation in graphs with continuous random variables requires a tractable inverse transformation! Normal, Logistic, … continuous differentiable backpropagation (Normal, ...) (ELBO, …) Implicit Reparameterization Gradients — Michael Figurnov

Reparameterization gradients Core part of variational autoencoders, automatic variational inference, etc. Backpropagation in graphs with continuous random variables requires a tractable inverse transformation! Normal, Logistic, … We show how to use implicit differentiation for reparameterization of other continuous random variables, such as Gamma and von Mises Implicit Reparameterization Gradients — Michael Figurnov

Explicit and implicit reparameterization Cumulative density function Sampling (forward pass) Gradients (backward pass) Explicit Implicit Implicit Reparameterization Gradients — Michael Figurnov

Explicit and implicit reparameterization Cumulative density function Sampling (forward pass) Gradients (backward pass) Explicit using any sampler Implicit (e.g., rejection sampling) Implicit Reparameterization Gradients — Michael Figurnov

Explicit and implicit reparameterization Cumulative density function Sampling (forward pass) Gradients (backward pass) Explicit using any sampler Implicit (e.g., rejection sampling) Derivation: implicit differentiation Implicit Reparameterization Gradients — Michael Figurnov

Explicit and implicit reparameterization Cumulative density function Sampling (forward pass) Gradients (backward pass) Explicit using any sampler often not implemented in numerical libraries Implicit (e.g., rejection sampling) Derivation: implicit differentiation Implicit Reparameterization Gradients — Michael Figurnov

How to compute ? Relative metrics (lower is better) Gamma Von Mises Method Error Time Error Time Automatic differentiation of the CDF code 1x 1x 1x 1x Finite difference 832x 2x 514x 1.2x Jankowiak & Obermeyer (2018) 18x 5x - - concurrent work; closed-form approximation Jankowiak, Obermeyer “Pathwise Derivatives Beyond the Reparameterization Trick.” ICML, 2018 Implicit Reparameterization Gradients — Michael Figurnov

How to compute ? Relative metrics (lower is better) Gamma Von Mises Method Error Time Error Time Automatic differentiation of the CDF code 1x 1x 1x 1x Finite difference 832x 2x 514x 1.2x Jankowiak & Obermeyer (2018) 18x 5x - - concurrent work; closed-form approximation Knowles (2015) 2840x 63x - - approximate explicit reparameterization Knowles, “Stochastic gradient variational Bayes for Gamma approximating distributions.” arXiv, 2015 Jankowiak, Obermeyer “Pathwise Derivatives Beyond the Reparameterization Trick.” ICML, 2018 Implicit Reparameterization Gradients — Michael Figurnov

Variational Autoencoder 2D latent spaces for MNIST 3 3 -3 3 Normal prior and posterior Implicit Reparameterization Gradients — Michael Figurnov

Variational Autoencoder 2D latent spaces for MNIST 3 3 𝜌 𝜌 -3 3 - 𝜌 𝜌 Normal prior and posterior Uniform prior, von Mises posterior Torus adapted from https://en.wikipedia.org/wiki/Torus#/media/File:Sphere-like_degenerate_torus.gif Implicit Reparameterization Gradients — Michael Figurnov

Variational Autoencoder 2D latent spaces for MNIST 3 3 𝜌 𝜌 Also in the paper: Latent Dirichlet Allocation -3 3 - 𝜌 𝜌 Normal prior and posterior Uniform prior, von Mises posterior Torus adapted from https://en.wikipedia.org/wiki/Torus#/media/File:Sphere-like_degenerate_torus.gif Implicit Reparameterization Gradients — Michael Figurnov

Implicit Reparameterization Gradients Michael Figurnov, Shakir Mohamed, Andriy Mnih A more general view of the reparameterization gradients ● ○ Decouple sampling from gradient estimation ● Reparameterization gradients for Gamma, von Mises, Beta, Dirichlet, ... ○ Faster and more accurate than the alternatives Implemented in TensorFlow Probability: ○ tfp.distributions.{Gamma,VonMises,Beta,Dirichlet,...} ● Move away from making modelling choices for computational convenience Poster: Room 210 #33 Implicit Reparameterization Gradients — Michael Figurnov

Implicit Reparameterization Gradients Michael Figurnov, Shakir - PowerPoint PPT Presentation

Implicit Reparameterization Gradients Michael Figurnov, Shakir Mohamed, Andriy Mnih Poster: Room 210 #33 Reparameterization gradients Core part of variational autoencoders, automatic variational inference, etc. Backpropagation in graphs with

Implicit Guarantees and Risk Taking: Implicit Guarantees and Risk Taking: Implicit Guarantees and

Learning Automatic Schedulers through Projective Reparameterization Ajay Jain Saman Amarasinghe

Reparameterization Gradient for Non-differentiable Models Wonyeol Lee Hangyeol Yu Hongseok

Blended Conditional Gradients: The unconditioning of conditional gradients Joint work with Gabor

Outline Last time Image gradients Seam carving gradients as energy Edges

Implicit Bias Implicit bias Implicit bias refers to attitudes or stereotypes that affect our

Implicit Surfaces Implicit Surfaces An implicit surface is simply an iso-contour CIS 781 of a

The oxygen abundance gradients of galaxies in the Eagle simulations Patricia B. Tissera

Natural Policy Gradients (cont.) Katerina Fragkiadaki Revision Policy Gradients 1.

Implicit Bias: Transcript Inclusive Teaching Series: Implicit Bias Welcome to the third module of

Implicit Extremes and Implicit MaxStable Laws Stilian Stoev ( sstoev@umich.edu ) University of

Multi-core Programming: Implicit Parallelism Tuukka Haapasalo April 16, 2009 Tuukka Haapasalo

Implicit Surfaces CPSC 599.86 / 601.86 Sonny Chan University of Calgary (some board work happened

ImUp ImUp: A Maple Package for Uniformity-Improved Reparameterization of Plane Curves Jing Yang

Soft Threshold Weight Reparameterization for Learnable Sparsity Aditya Kusupati Vivek Ramanujan *

Reparameterization: a Universal Tool for Optimization and Counting George Katsirelos 10/05/2017

I ask then: Did God reject His people? By no means! I am an Israelite myself, a descendant of

Simulation for estimation and testing Christopher F Baum EC 823: Applied Econometrics Boston

STATUS OF LEVEL 2 RETRIEVALS JOEL SUSSKIND AIRS TEAM MEETING JUNE 2001 LATEST TEAM EXERCISE

Random Sampling from a Search Engines Index Ziv Bar-Yossef Maxim Gurevich Department of

Bayes net wrapup Exact inference algorithms Use to compute P(X1, ..., Xn) or P(X1, ..., Xn

18.650 Statistics for Applications Chapter 5: Parametric hypothesis testing 1/37 Cherry

Hadron background rejection for Very for Very Hadron background rejection High Energy gamma ray

Smallest Explanations and Diagnoses of Rejection in Abstract Argumentation Andreas Niskanen