Greedy Deep Disaggregating Sparse Coding Authors: Shikha Singh - - PowerPoint PPT Presentation
Greedy Deep Disaggregating Sparse Coding Authors: Shikha Singh - - PowerPoint PPT Presentation
Greedy Deep Disaggregating Sparse Coding Authors: Shikha Singh and Angshul Majumdar Presenter: Manoj Gula8 Sparse coding - Training 2 = + X D Z min X D Z Z dishwasher 1 1
Sparse coding - Training
2 2
2 2 2 2 2 2 1
min
washer washer F D Z
X D Z X D Z Z λ = ≡ − +
3 3
2 3 3 3 3 3 1
min
desktop desktop F D Z
X D Z X D Z Z λ = ≡ − +
1 1
2 1 1 1 1 1 1
min
dishwasher dishwasher F D Z
X D Z X D Z Z λ = ≡ − +
Sparse Coding - Disaggregation
+ ¡ + ¡
1 1 2 2 3 3
Z Z Z
dishwasher washer desktop
X X X X D D D X + + = + + =
[ ]
1 2 3
2 1 1 1 2 3 2 2 , , 3 3 1 1 1 2 2 2 2
min | | ˆ ˆ ˆ ; ;
Z Z Z F dishwasher washer desktop
Z Z X D D D Z Z Z Z X D Z X D Z X D Z λ ⎡ ⎤ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ − + ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦ = = =
Dic8onaries ¡are ¡already ¡learnt ¡in ¡the ¡training ¡phase ¡
Dictionary Learning Interpretation
Given ¡a ¡dataset ¡X, ¡can ¡we ¡learn ¡a ¡basis ¡D ¡so ¡that ¡ the ¡data ¡can ¡be ¡represented ¡in ¡terms ¡of ¡sparse ¡ features ¡Z? ¡
… = x ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡z
2 1
min
F DZ
X DZ X DZ Z λ = − +
Neural Network
This ¡can ¡be ¡segregated ¡into ¡two ¡parts ¡
Input ¡to ¡representa8on ¡ Representa8on ¡to ¡target ¡
The ¡second ¡part ¡is ¡trivial! ¡ Learning ¡the ¡first ¡part ¡– ¡Representa8on ¡Learning ¡
Input Target Representation Input Target Representation
RL – Restricted Boltzmann Machine
Maximizes ¡similarity ¡between ¡the ¡projec8on ¡of ¡the ¡ input ¡(DX) ¡and ¡the ¡representa8on ¡(Z). ¡ AQer ¡training ¡RBM, ¡for ¡representa8on, ¡the ¡Targets ¡ are ¡aSached ¡to ¡form ¡the ¡neural ¡net. ¡ ¡
Input ¡(X) Representation ¡(Z) Network ¡D
Boltzmann Function ( , )
T
Z DX
p D Z e− =
RL – Autoencoder
Encodes ¡the ¡input ¡to ¡the ¡representa8on ¡and ¡then ¡ decodes ¡the ¡representa8on ¡to ¡form ¡the ¡input ¡/ ¡
- utput ¡such ¡that ¡the ¡cost ¡func8on ¡is ¡minimized. ¡ ¡
AQer ¡training, ¡decoder ¡is ¡deleted ¡and ¡the ¡Targets ¡ aSached ¡to ¡form ¡the ¡neural ¡net. ¡ ¡
Input Representation Output=Input Encoder Decoder
Euclidean Mismatch min
W ,W ' X −W 'φ(WX ) F 2
Stacked Autoencoders
To ¡learn ¡deeper ¡architectures, ¡autoencoders ¡are ¡ nested ¡inside ¡each ¡other. ¡ ¡
1
W
1 T
W
Input Output Hidden ¡Layer ¡2 Hidden ¡Layer ¡3
2
W
2 T
W
argmin
W1...WL−1,W '1...W 'L
X − g ! f (X )
F 2
where g = W1'φ W2 '...WL ' f (X )
( )
( )
and f = φ WL−1φ WL−2...φ(W1X )
( )
( )
Difficult ¡beast ¡to ¡
- p0mize ¡ ¡
Greedy Learning
First ¡the ¡outermost ¡layer ¡is ¡learnt. ¡ ¡ The ¡features ¡from ¡the ¡outermost ¡layer ¡now ¡act ¡as ¡ inputs ¡for ¡the ¡nested ¡layer. ¡ This ¡con8nues ¡8ll ¡the ¡deepest ¡layer. ¡ ¡ Deep ¡/ ¡boSleneck ¡layer ¡is ¡used. ¡ ¡
1
W
1 T
W
Input Output Hidden ¡Layer ¡2 Hidden ¡Layer ¡3
2
W
2 T
W
1
W
1 T
W
Input Virtual ¡Output Hidden ¡Layer ¡1/3 Input Hidden ¡Layer ¡1 Virtual ¡Input Hidden ¡Layer ¡2 Hidden ¡Layer ¡3 Virtual ¡Output
2
W
2 T
W
Deep Belief Network
A ¡DBN ¡is ¡a ¡cascade ¡of ¡
- RBMs. ¡
Can ¡be ¡used ¡for ¡feature ¡
- extrac8on. ¡
Can ¡be ¡converted ¡to ¡a ¡ deep ¡neural ¡network ¡ with ¡targets ¡at ¡the ¡
- utput. ¡
- G. ¡E. ¡Hinton, ¡S. ¡Osindero ¡and ¡Y. ¡W. ¡Teh, ¡“A ¡fast ¡learning ¡algorithm ¡for ¡deep ¡
belief ¡nets”, ¡Neural ¡Computa8on, ¡Vol. ¡18, ¡pp. ¡1527-‑1554, ¡2006. ¡
Sparse Coding Alternate Look
The ¡basis ¡can ¡be ¡interpreted ¡as ¡connec8ons ¡ between ¡the ¡feature ¡/ ¡represen8on ¡to ¡the ¡input. ¡ It ¡is ¡‘synthesis ¡learning’ ¡since ¡the ¡dic8onary ¡is ¡ synthesizing ¡the ¡input ¡from ¡the ¡features. ¡ ¡ ¡
… = x ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡z
x ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡z
. . .
Deep Sparse Coding
Layers ¡can ¡be ¡appended ¡one ¡aQer ¡the ¡other ¡to ¡ form ¡deeper ¡architecture. ¡ ¡ The ¡features ¡from ¡the ¡deepest ¡layer ¡will ¡be ¡used ¡ for ¡the ¡task. ¡ Features ¡from ¡shallower ¡layer ¡acts ¡as ¡input ¡for ¡ deeper ¡layer. ¡
Formulation
This ¡is ¡the ¡exact ¡formula8on ¡ Solving ¡this ¡is ¡as ¡complex ¡as ¡the ¡stacked ¡
- autoencoder. ¡
One ¡can ¡use ¡Bregman ¡Splikng ¡… ¡ ¡ But ¡needs ¡tuning ¡of ¡too ¡many ¡hyper-‑parameters ¡
1 2
2 1 2 1 , ,..., ,
min ...
N
N F D D D Z X
D D D Z Z λ − +
1 2 1 2
2 2 1 1 1 1 2 2 1 , ,..., , , , ,..., 2 1 1 1 1
min ...
N N
F F D D D Z Y Y Y N N N N F
X DY Y D Y B Y D Z B Z µ µ λ
− − −
− + − − + + − − +
Greedy Learning
¡ ¡
1 2 1 1 2 2
2 1 2 1 2 1 , ,..., , 2 1 1 , 2 3 1 2 2 1 2 2 ,
Substitute ... in min ... Greedily learn:min Then substitute ... in ... Greedily learn:min Continue ... Till penultimate leve
N
N N F D D D Z F D Y N N F D Y
Y D D Z X D D D Z Z X DY Y D D Z Y D D Z Y D Y λ = − + − = = −
1 2 1 1 ,
l In the last level you have Solve:min Doesn't introduce any extra hyper-parameter
N
N N N N F D Z
Y D Z Y D Z Z λ
− −
= − +
Current Work
Greedy ¡learning ¡offers ¡plug ¡and ¡play ¡op8ons. ¡ One ¡can ¡use ¡any ¡type ¡of ¡dic8onary ¡learning ¡in ¡any ¡
- layer. ¡ ¡
This ¡work ¡uses ¡Kolter’s ¡formula8on ¡in ¡first ¡layer. ¡ Following ¡layers ¡use ¡simple ¡sparse ¡coding. ¡ ¡ Tested ¡on ¡Pecan ¡Street ¡
Results
*Disaggrega8ng ¡Discrimina8ve ¡Sparse ¡Coding ¡
- No. ¡of ¡
Houses ¡ Sparse ¡ Coding ¡ (SC) ¡ 1st ¡Layer ¡ (DDSC) ¡ 2nd ¡Layer ¡ (SC) ¡ 3rd ¡Layer ¡ (SC) ¡ ¡ 72 ¡ 63.13 ¡ 67.25 ¡ 69.34 ¡ 69.45 ¡
Conclusion
New ¡framework ¡for ¡representa8on ¡learning. ¡ ¡ NILM ¡– ¡serves ¡as ¡a ¡nice ¡applica8on. ¡ For ¡NILM, ¡deep ¡sparse ¡coding ¡will ¡be ¡coupled ¡with ¡
- ur ¡associated ¡work ¡on ¡robust ¡learning. ¡