Deep Gaussian Processes with Importance-Weighted Variational Inference
Hugh Salimbeni Vincent Dutordoir, James Hensman, Marc P Deisenroth
Deep Gaussian Processes with Importance-Weighted Variational - - PowerPoint PPT Presentation
Deep Gaussian Processes with Importance-Weighted Variational Inference Hugh Salimbeni Vincent Dutordoir, James Hensman, Marc P Deisenroth Problem setting Problem setting Bimodal density Problem setting Changes with input Problem setting
Hugh Salimbeni Vincent Dutordoir, James Hensman, Marc P Deisenroth
Bimodal density
Changes with input
Skewness
Skewness
Skewness
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
training data test samples
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Neural network training data test samples
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Neural network Latent variable (per point) training data test samples
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Neural network Latent variable (per point) Concatenation with inputs training data test samples
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Unreliable extrapolation
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Unreliable extrapolation Overfitting
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Deterministic function Unreliable extrapolation Overfitting
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
Deterministic function Unreliable extrapolation Overfitting Small number of examples per input xn
xn yn fφ wn N yn = N(fφ([xn, wn]), σ2) wn ∼ N(0, 1)
xn yn f wn N yn = N(f([xn, wn]), σ2)
∞
wn ∼ N(0, 1) f ∼ GP(µ, k)
xn yn f wn N yn = N(f([xn, wn]), σ2)
∞
wn ∼ N(0, 1) f ∼ GP(µ, k)
Non-parametric prior
xn yn f wn N yn = N(f([xn, wn]), σ2)
∞
wn ∼ N(0, 1) f ∼ GP(µ, k)
Non-parametric prior Better extrapolation
xn yn f wn N yn = N(f([xn, wn]), σ2)
∞
wn ∼ N(0, 1) f ∼ GP(µ, k)
Non-parametric prior Better extrapolation Underfitting
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
Extrapolating gracefully
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
Extrapolating gracefully Better data fit
variables by concatenation, not addition
variables by concatenation, not addition
variational inference, exploiting analytic results
variables by concatenation, not addition
variational inference, exploiting analytic results
comparison with all 41 UCI regression datasets
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
Importance weighting (Gaussian proposal)
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
Importance weighting (Gaussian proposal) Variational inference (sparse GP posterior)
xn yn f g wn N
∞ ∞
yn = N(f(g([xn, wn])), σ2) wn ∼ N(0, 1) f ∼ GP(µ1, k1) g ∼ GP(µ2, k2)
Importance weighting (Gaussian proposal) Variational inference (sparse GP posterior) Our approach exploits analytic results, leading to a tighter bound
are highly beneficial
are highly beneficial
Sometimes latent variables are enough. Some datasets need both.
are highly beneficial
Sometimes latent variables are enough. Some datasets need both.
are highly beneficial
Sometimes latent variables are enough. Some datasets need both.
Poster #218