1
Kenji Fukumizu
The Institute of Statistical Mathematics
Joint work with Bharath Sriperumbudur (Penn State U), Arthur Gretton (UCL), Aapo Hyvarinen (U Helsinki), Revant Kumar (Georgia Tech)
IGAIA IV. June 12-17, 2016. Liblice, Czech Republic
Estimation with Infinite Dimensional Kernel Exponential Families - - PowerPoint PPT Presentation
Estimation with Infinite Dimensional Kernel Exponential Families Kenji Fukumizu The Institute of Statistical Mathematics Joint work with Bharath Sriperumbudur (Penn State U), Arthur Gretton (UCL), Aapo Hyvarinen (U Helsinki), Revant Kumar
1
The Institute of Statistical Mathematics
Joint work with Bharath Sriperumbudur (Penn State U), Arthur Gretton (UCL), Aapo Hyvarinen (U Helsinki), Revant Kumar (Georgia Tech)
IGAIA IV. June 12-17, 2016. Liblice, Czech Republic
2
๐๐ ๐ฆ = exp เท
๐=1 ๐
๐
๐๐ ๐ ๐ฆ โ ๐ต ๐
๐0(๐ฆ)
๐๐ ๐ฆ = exp ๐ ๐ฆ โ ๐ต ๐ ๐0(๐ฆ) where ๐ต ๐ โ log โซ ๐๐(๐ฆ)๐0 ๐ฆ ๐๐ฆ ๐ is a natural parameter in an infinite dimensional function class. โ Maximal exponential model (Pistone & Sempi AoS 1995):
โEmpiricalโ mean parameter cannot be defined.
Reproducing kernel Hilbert space is used.
๐0(๐ฆ)
โ Mean parameter: ๐๐ = ๐น๐๐[๐ โ , ๐ ] โ Maximum likelihood estimator: เท ๐๐ =
1 ๐ ฯ๐=1 ๐
๐(โ , ๐๐)
4
Parameter Infinite dimensional sufficient statistics
โ Even in finite dim. cases ๐ต ๐ โ log โซ ๐ฯ๐=1
๐
๐๐๐๐ ๐ฆ ๐0 ๐ฆ ๐๐ฆ
is not easy to compute. โ MLE: โMean parameter ๏ natural parameterโ needs to solve ๐๐ต ๐ ๐๐ = 1 ๐ เท
๐=1 ๐
๐ ๐๐ . โ Even more difficult for an infinite dimensional exponential family
โ Estimation method without normalization constants. โ Introducing a new method for (unnormalized) density estimation.
5
6
(Hyvรคrinen, JMLR2005)
๐, ๐: two p.d.f.โs on ฮฉ = ฯ๐=1
๐
(๐ก๐, ๐ข๐) โ ๐ โช ยฑโ
๐.
๐พ ๐||๐ โ 1 2 เถฑ เท
๐=1 ๐
๐ log ๐ ๐ฆ ๐๐ฆ๐ โ ๐ log ๐ ๐ฆ ๐๐ฆ๐
2
๐(๐ฆ)๐๐ฆ โ ๐พ(๐| ๐ โฅ 0. Equality holds iff ๐ = ๐ (under mild conditions). โ Derivative w.r.t. ๐ฆ, not parameter.
๐ log ๐ ๐ฆ ๐๐ฆ๐ = โ ๐ log ๐
๐ ๐ฆ
๐๐๐ ๐พ(๐||๐) = squared ๐2-distance of Fisher scores.
7
Set ๐ = ๐0 (true), and ๐ = ๐๐ to be estimated. ๐พ ๐ โ ๐พ ๐0||๐๐
=
1 2 โซฯ๐=1
๐ ๐ log ๐๐ ๐ฆ ๐๐ฆ๐
๐๐ฆ๐ 2
๐0(๐ฆ)๐๐ฆ
= 1 2 เถฑ เท
๐=1 ๐
๐ log ๐๐ ๐ฆ ๐๐ฆ๐
2
๐0(๐ฆ)๐๐ฆ + เถฑ เท
๐=1 ๐ ๐2 log ๐๐ ๐ฆ
๐๐ฆ๐
2
๐0 ๐ฆ ๐๐ฆ + const.
lim
๐ฆ๐โ๐ก๐ or ๐ข๐ ๐0(๐ฆ) ๐ log ๐๐ ๐ฆ ๐๐ฆ๐
= 0, and use partial integral
โซ
๐ log ๐๐ ๐ฆ ๐๐ฆ๐ ๐ log ๐0 ๐ฆ ๐๐ฆ๐
๐0 ๐ฆ ๐๐ฆ = ๐0 ๐ฆ
๐ log ๐๐ ๐ฆ ๐๐ฆ๐ ๐ก๐ ๐ข๐
โ โซ
๐2 log ๐๐ ๐ฆ ๐๐ฆ๐
2
๐0(๐ฆ)๐๐ฆ
8
โก แ ๐พ ๐
๐๐0 ๐ฆ ๐๐ฆ๐
แ ๐พ ๐ = 1 2 เถฑ เท
๐=1 ๐
๐ log ๐๐ ๐ฆ ๐๐ฆ๐
2
๐0(๐ฆ)๐๐ฆ + เถฑ เท
๐=1 ๐ ๐2 log ๐๐ ๐ฆ
๐๐ฆ๐
2
๐0 ๐ฆ ๐๐ฆ ๐1, โฆ , ๐๐: i.i.d. sample ~ ๐0. แ ๐พ๐ ๐ = 1 ๐ เท
๐=1 ๐
เท
๐=1 ๐
1 2 ๐ log ๐๐ ๐๐ ๐๐ฆ๐
2
+ ๐2 log ๐๐ ๐๐ ๐๐ฆ๐
2
แ ๐ = arg min แ ๐พ๐(๐) : Score matching estimator
9
โ For exponential family ๐๐ ๐ฆ = exp ฯ๐ ๐
๐๐ ๐ ๐ฆ โ ๐ต ๐
๐0 ๐ฆ ,
แ ๐พ๐ ๐ = เท
๐=1 ๐
เท
๐=1 ๐ 1
2 เท
๐=1 ๐
๐
๐
๐๐
๐ ๐๐
๐๐ฆ๐ + ๐ log ๐0 ๐๐ ๐๐ฆ๐
2
+ เท
๐=1 ๐
๐
๐
๐2๐
๐ ๐๐
๐๐ฆ๐
2
+ ๐2 log ๐0 ๐๐ ๐๐ฆ๐
2
10
11
โ Def. ฮฉ: set. ๐ผ: Hilbert space consisting of functions on ฮฉ. ๐ผ: reproducing kernel Hilbert space (RKHS), if for any ๐ฆ โ ฮฉ there is ๐๐ฆ โ ๐ผ s.t.
for โ๐ โ ๐ผ [reproducing property] โ ๐ ๐ฆ, ๐ง โ ๐๐ฆ(๐ง). ๐ is a positive definite kernel, i.e., ๐ ๐ฆ, ๐ง = ๐(๐ง, ๐ฆ) and the Gram matrix ๐ ๐ฆ๐, ๐ฆ๐
๐๐ is positive
semidefinite for any ๐ฆ1, โฆ , ๐ฆ๐. โ Moore-Aronszajn theorem: for any positive definite kernel on ฮฉ, there uniquely exists an RKHS s.t. its reproducing kernel is ๐(โ , ๐ฆ). (One-to-one correspondence between p.d. kernel and RKHS) โ Example of pos. def. kernel on ๐๐: ๐ ๐ฆ, ๐ง = exp โ
โ๐ฆโ๐งโ2 2๐2
.
12
๐
(๐ก๐, ๐ข๐) โ ๐ โช ยฑโ
๐.
๐ผ๐: RKHS. ๐0: p.d.f. on ฮฉ with supp ๐0 = ฮฉ. ๐บ๐ โ {๐ โ ๐ผ๐ โฃ โซ ๐๐ ๐ฆ ๐0 ๐ฆ ๐๐ฆ < โ} (functional) parameter space
๐
๐ โ {๐๐: ฮฉ โ 0, โ โฃ
๐๐ ๐ฆ = ๐๐ ๐ฆ โ๐ต ๐ ๐0 ๐ฆ , ๐ โ ๐บ๐}
where ๐ต ๐ โ โซ ๐๐(๐ฆ)๐0 ๐ฆ ๐๐ฆ ๐๐: kernel exponential family (KEF) โ With finite dimensional ๐ผ๐, KEF is reduced to a finite dim. exponential family. e.g. ๐ ๐ฆ, ๐ง = 1 + ๐ฆ๐๐ง 2 ๏ Gaussian distributions.
13
Assume ๐ is of class ๐ท2 (๐๐+๐๐(๐ฆ, ๐ง)/๐๐๐ฆ๐๐๐ง exists and is continuous for ๐ + ๐ โค 2) and lim
๐ฆ๐โ๐ก๐ or ๐ข๐
เธฌ
๐2๐ ๐ฆ,๐ง ๐๐ฆ๐๐๐ง๐ ๐ง=๐ฆ
๐0 ๐ฆ = 0 (for partial integral). โ Score matching objective function แ ๐พ๐ ๐ โ เท
๐=1 ๐
เท
๐=1 ๐ 1
2 ๐๐ ๐๐ ๐๐ฆ๐ + ๐ log ๐0 ๐๐ ๐๐ฆ๐
2
+ ๐2๐ ๐๐ ๐๐ฆ๐
2
+ ๐2 log ๐0 ๐๐ ๐๐ฆ๐
2
Note ๐ ๐๐ = ๐, ๐ โ , ๐๐ ,
๐๐ ๐๐ ๐๐ฆ๐ = ๐, ๐๐ โ ,๐๐ ๐๐ฆ๐
,
๐2๐ ๐๐ ๐๐ฆ๐
2
= ๐,
๐2๐ โ ,๐๐ ๐๐ฆ๐
2
. แ ๐พ๐ ๐ is a quadratic form w.r.t. ๐ โ ๐ผ.
14
โ Estimation แ ๐ท๐๐ = ๐๐ where แ ๐ท๐ โ 1 ๐ เท
๐=1 ๐
เท
๐=1 ๐ ๐๐ โ , ๐๐
๐๐ฆ๐ ๐๐ โ , ๐๐ ๐๐ฆ๐ ,โ โถ ๐ผ๐ โ ๐ผ๐ แ ๐๐ โ 1 ๐ เท
๐=1 ๐
เท
๐=1 ๐
๐๐ โ , ๐๐ ๐๐ฆ๐ ๐ log ๐0 ๐๐ ๐๐ฆ๐ + ๐2๐ โ , ๐๐ ๐๐ฆ๐
2
โ ๐ผ๐ โ Regularized estimator เทก ๐
๐ =
แ ๐ท๐ + ๐๐๐ฝ
โ1 แ
๐๐ i.e., เทก ๐
๐ = argmin๐ แ
๐พ๐ ๐ + ๐๐ ๐ ๐ผ๐
2
15
โ Estimator: แ ๐
๐ = ๐ฝ แ
๐๐ + เท
๐=1 ๐
เท
๐=1 ๐
๐พ๐๐ ๐๐ โ , ๐
๐
๐๐ฆ๐
where
1 ๐ ฯ๐,๐ โ๐ ๐ 2 + ๐
แ ๐๐
2 1 ๐ ฯ๐,๐ โ๐ ๐ ๐ป๐๐ ๐๐ + ๐ โ๐ ๐ 1 ๐ ฯ๐,๐ โ๐ ๐ ๐ป๐๐ ๐๐ + ๐ โ๐ ๐ 1 ๐ ฯ๐,๐ ๐ป๐๐ ๐๐๐ป๐๐ ๐๐ + ๐ ๐ป๐๐ ๐๐
๐ฝ ๐พ๐๐ = โ แ ๐๐
2
โ๐
๐
โ๐
๐ = 1 ๐ ฯ๐,๐ ๐3๐ ๐๐,๐๐ ๐๐ฆ๐
2๐๐ง๐ +
๐2๐ ๐๐,๐๐ ๐๐ฆ๐๐๐ง๐ ๐โ ๐๐ ๐๐ฆ๐ , ๐โ ๐๐ ๐๐ฆ๐ = ๐ log ๐0 ๐๐ ๐๐ฆ๐
๐ป๐๐
๐๐ = ๐2๐ ๐๐,๐๐ ๐๐ฆ๐๐๐ง๐ , แ
๐๐
2 = 1 ๐2 ฯ๐๐,๐๐ ๐4๐ ๐๐,๐๐ ๐๐ฆ๐
2๐๐ง๐ 2 + 2
๐3๐ ๐๐,๐๐ ๐๐ฆ๐
2๐๐ง๐
๐โ(๐๐) ๐๐ฆ๐ + ๐2๐ ๐๐,๐๐ ๐๐ฆ๐๐๐ง๐ ๐โ ๐๐ ๐๐ฆ๐ ๐โ(๐๐) ๐๐ฆ๐
๐
๐ can be taken in Span ๐๐ โ ,๐๐ ๐๐ฆ๐
, แ ๐๐ .
equation.
16
(from representer theorem)
โ Score matching for KEF gives only ๐(๐ฆ) or ๐๐ ๐ฆ , unnormalized p.d.f.
โ There are interesting applications. 1) Nonparametric structure learning for graphical model given data (Sun, Kolar, Xu NIPS2015) ๐ ๐ โ เท
๐๐โ๐น
๐๐๐ ๐๐, ๐
๐ ,
๐ป = (๐, ๐น) ๐๐๐ is estimated nonparametrically with KEF (with sparse edges).
17
b c d e a
2) Hamiltonian Monte Carlo with intractable gradient
(Strathmann et al. NIPS 2015)
Estimate
๐ log ๐ ๐ฆ ๐๐ฆ
with EKF, assuming it does not allow a closed form expression (intractable cases).
Goal: sample from ๐ ๐ ๐ฆ = โ log ๐ ๐ฆ ๐ฟ ๐จ : auxiliary momentum, e.g. โ๐จ2/๐2 Hamiltonian ๐ผ ๐จ, ๐ฆ โ ๐ ๐ฆ + ๐ฟ(๐จ) Hamiltonian flow:
๐๐ฆ ๐๐ข = ๐๐ผ ๐๐จ = ๐๐ฟ ๐๐จ, ๐๐จ ๐๐ข = โ ๐๐ผ ๐๐ฆ = ๐ log ๐ ๐ฆ ๐๐ฆ
This flow is used in proposal of MCMC
18
True parameter ๐
โ is taken from a wider space than ๐ผ๐.
Extended parameter space ๐
2 0 ๐0 โ
เต ๐ โ ๐ท1 ฮฉ โฃ
๐๐ ๐ฆ ๐๐ฆ๐ โ ๐2 ฮฉ; ๐0 , ๐ = 1, โฆ , ๐
โผ where ๐ โผ ๐ โบ ฯ๐=1
๐
๐๐/๐๐ฆ๐ โ ๐๐/๐๐ฆ๐
๐2 ๐0 2
= 0 ๐ , [๐] ๐
2 0(๐0): = ฯ๐=1
๐
โซ
๐๐ ๐ฆ ๐๐ฆ๐ ๐๐ ๐ฆ ๐๐ฆ๐ ๐0 ๐ฆ ๐๐ฆ.
๐
2 ๐0 : completion of the pre-Hilbert space ๐ 2 0 ๐0 .
canonical map ๐ฝ๐: ๐ผ๐ โ ๐
2 ๐0 ,
๐ โฆ ๐ defines a (up to constant) embedding of ๐ผ๐.
19
Theorem (convergence rate) Under some assumptions, (i) If ๐
โ โ log(๐0/๐0) โ ๐ ๐ฝ๐๐ฝ๐ โ , with ๐๐ โ 0, ๐๐๐ โ โ
๐พ(๐0||๐ แ
๐
๐) โ 0
๐ โ โ . (ii) If ๐
โ โ ๐( ๐ฝ๐๐ฝ๐ โ ๐พ) (0 < ๐พ โค 1), then with ๐๐ = ๐ โ max 1
3, 1 2๐พ+1 ,
๐พ(๐0โ๐ แ
๐
๐) = ๐๐ ๐
โ min 2 3, 2๐พ 2๐พ+1
. ๐ฝ๐๐ฝ๐
โ: operator on ๐ 2 ๐0 , given by
๐ฝ๐๐ฝ๐
โ ๐ = เถฑ เท ๐=1 ๐ ๐๐ โ , ๐ฆ
๐๐ฆ๐ ๐๐ ๐ฆ ๐๐ฆ๐ ๐0 ๐ฆ ๐๐ฆ
20
โ Hyperparameters
1 2๐2 ๐ฆ โ ๐ง 2 )
โ Cross-validation is possible with the objective function
แ ๐พ๐ ๐ โ เท
๐=1 ๐
เท
๐=1 ๐ 1
2 ๐๐ ๐๐ ๐๐ฆ๐ + ๐ log ๐0 ๐๐ ๐๐ฆ๐
2
+ ๐2๐ ๐๐ ๐๐ฆ๐
2
+ ๐2 log ๐0 ๐๐ ๐๐ฆ๐
2
.
21
22
โ KDE: standard nonparametric method for estimating p.d.f. Given i.i.d. sample ๐1, โฆ , ๐๐ โผ ๐ ฦธ ๐๐ ๐ฆ = 1 ๐ เท
๐=1 ๐
๐ฟ ๐ฆ โ ๐๐ โ๐ ๐ฟ ๐ฆ : p.d.f. e.g. ๐ฟ ๐ฆ =
1 2๐ ๐/2 exp โ ๐ฆ 2 2
(say, 10) dimensional cases.
are applicable).
23
24
5 10 15 20 1 2 3 4 Dimension Socre objective function Gaussian distribution: n = 500 Score match KDE
kernel: ๐ ๐ฆ, ๐ง = exp โ ๐ฆ โ ๐ง 2/2๐2 + 0.1 ๐ฆ๐๐ง + 0.5 2
5 10 15 20 1 2 3 4 5 Dimension Score objective function Gaussian mixture: n = 300 Score match KDE
5 10 15 20 1 2 3 4 5 Dimension Score objective function Gaussian mixture: n = 300 Score match KDE
ใป Gaussian Mixture
๐0 = 0.5๐๐ ๐ฆ; 4๐๐, ๐ฝ๐ + 0.5๐๐(๐ฆ; โ4๐๐, ๐ฝ๐)
ใป Gaussian ๐0 = ๐๐ ๐ฆ; 0, ๐ฝ๐
25
๐ท๐๐ ๐, ๐0 โ
๐น๐ ๐ ๐ ๐0 ๐ ๐น๐ ๐ ๐ 2 ๐น๐[๐0 ๐ 2], ๐ โผ 1 104 ฯ๐=1 104 ๐๐๐ , ๐๐ โผ ๐0๐๐ฆ
โ Gaussian
๐0 = ๐๐ ๐ฆ; 0, ๐ฝ๐
5 10 15 20 0.65 0.7 0.75 0.8 0.85 0.9 0.95 Dimension Socre objective function Gaussian distribution: n = 500 Score match KDE
๐. ๐. ๐. Correlation
5 10 15 20 0.5 0.6 0.7 0.8 0.9 1 Dimension Correlation Gaussian mixture: n = 300 Score match KDE
โ Gaussian Mixture
๐0 = 0.5๐๐ ๐ฆ; 41๐, ๐ฝ๐ + 0.5๐๐(๐ฆ; โ41๐, ๐ฝ๐)
26
โ A natural extension of finite dimensional exponential family โ Sufficient statistics and parameter are given by feature vector ๐(โ , ๐ฆ) and function ๐, respectively.
โ No need of computing normalization constants. โ The estimator is given as a solution to a linear equation. โ Non-normalized density function is estimated nonparametrically.
27