Regularization
Jia-Bin Huang Virginia Tech
Spring 2019
ECE-5424G / CS-5824
Regularization Jia-Bin Huang Virginia Tech Spring 2019 ECE-5424G - - PowerPoint PPT Presentation
Regularization Jia-Bin Huang Virginia Tech Spring 2019 ECE-5424G / CS-5824 Administrative Women in Data Science Blacksburg Location: Holtzman Alumni Center Welcome, 3:30 - 3:40, Assembly hall Keynote Speaker: Milinda Lakkam,
Jia-Bin Huang Virginia Tech
Spring 2019
ECE-5424G / CS-5824
"Detecting automation on LinkedIn's platform," 3:40 - 4:05, Assembly hall
Assembly hall
Detection," 7-8:15, 2nd floor board room
๐ฆ 1 , ๐ง 1 , ๐ฆ 2 , ๐ง 2 , โฏ , ๐ฆ ๐ , ๐ง ๐
None
Do nothing
เท ๐ง = โ ๐ฆtest = ๐ง(๐), where ๐ = argmin๐ ๐ธ(๐ฆtest, ๐ฆ(๐))
โ๐ ๐ฆ = ๐0 + ๐1๐ฆ1 + ๐2๐ฆ2 + โฏ + ๐๐๐ฆ๐ = ๐โค๐ฆ
๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2
1) Gradient descent: Repeat {๐
๐ โ ๐ ๐ โ ๐ฝ 1 ๐ ฯ๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐ }
2) Solving normal equation ๐ = (๐โค๐)โ1๐โค๐ง
เท ๐ง = โ๐ ๐ฆtest = ๐โค๐ฆtest
โ๐ ๐ฆ = ๐(๐|๐1, ๐2, โฏ , ๐๐) โ ๐ ๐ ฮ ๐๐ ๐๐ ๐)
Maximum likelihood estimation: ๐พ ๐ = โ log ๐ Data ๐ Maximum a posteriori estimation :๐พ ๐ = โ log ๐ Data ๐ ๐ ๐
๐๐ = ๐(๐ = ๐ง๐) (Discrete ๐๐) ๐๐๐๐ = ๐(๐๐ = ๐ฆ๐๐๐|๐ = ๐ง๐) (Continuous ๐๐) mean ๐๐๐, variance ๐๐๐
2 , ๐ ๐๐ ๐ = ๐ง๐) = ๐ช(๐๐|๐๐๐, ๐๐๐
2 )
เท ๐ โ argmax
๐ง๐
๐ ๐ = ๐ง๐ ฮ ๐๐ ๐๐
test ๐ = ๐ง๐)
โ๐ ๐ฆ = ๐ ๐ = 1 ๐1, ๐2, โฏ , ๐๐ =
1 1+๐โ๐โค๐ฆ
๐พ ๐ = 1 ๐ เท
๐=1 ๐
Cost(โ๐(๐ฆ ๐ ), ๐ง(๐))) Cost(โ๐ ๐ฆ , ๐ง) = เตโlog โ๐ ๐ฆ if ๐ง = 1 โlog 1 โ โ๐ ๐ฆ if ๐ง = 0
Gradient descent: Repeat {๐
๐ โ ๐ ๐ โ ๐ฝ 1 ๐ ฯ๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐ }
เท ๐ = โ๐ ๐ฆtest = 1 1 + ๐โ๐โค๐ฆtest
โ๐ ๐ฆ = 1 1 + ๐โ๐โค๐ฆ Cost(โ๐ ๐ฆ , ๐ง) = เตโlog โ๐ ๐ฆ if ๐ง = 1 โlog 1 โ โ๐ ๐ฆ if ๐ง = 0 ๐
๐ โ ๐ ๐ โ ๐ฝ 1
๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง(๐) ๐ฆ๐
(๐)
๐
๐ ๐๐ ๐ง(๐)|๐ฆ ๐
๐
๐ ๐๐ ๐ง(๐)|๐ฆ ๐
Slide credit: Tom Mitchell
๐
๐ โ ๐ ๐ โ ๐ฝ 1
๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง(๐) ๐ฆ๐
(๐)
๐
๐ โ ๐ ๐ โ ๐ฝ๐๐ ๐ โ ๐ฝ 1
๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง(๐) ๐ฆ๐
(๐)
Slide credit: Andrew Ng
๐ฆ2 ๐ฆ1
๐ฆ2 ๐ฆ1
๐ฆ2 ๐ฆ1
Class 1: Class 2: Class 3:
โ๐
๐ ๐ฆ = ๐ ๐ง = ๐ ๐ฆ; ๐
(๐ = 1, 2, 3) ๐ฆ2 ๐ฆ1 ๐ฆ2 ๐ฆ1 ๐ฆ2 ๐ฆ1
โ๐
1 ๐ฆ
โ๐
2 ๐ฆ
โ๐
3 ๐ฆ
Slide credit: Andrew Ng
๐ ๐ฆ for
i
๐ ๐ฆ
Slide credit: Andrew Ng
Ex: Naรฏve Bayes
Estimate ๐(๐) and ๐(๐|๐) Prediction
เท ๐ง = argmax๐ง ๐ ๐ = ๐ง ๐(๐ = ๐ฆ|๐ = ๐ง)
Ex: Logistic regression
Estimate ๐(๐|๐) directly (Or a discriminant function: e.g., SVM) Prediction
เท ๐ง = ๐(๐ = ๐ง|๐ = ๐ฆ)
Generative and discriminative classifiers: Naรฏve Bayes and Logistic Regression http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf
On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes http://papers.nips.cc/paper/2020-on-discriminative-vs-generative- classifiers-a-comparison-of-logistic-regression-and-naive-bayes.pdf
Price ($) in 1000โs Size in feet^2 Price ($) in 1000โs Size in feet^2 Price ($) in 1000โs Size in feet^2
โ๐ ๐ฆ = ๐0 + ๐1๐ฆ โ๐ ๐ฆ = ๐0 + ๐1๐ฆ + ๐2๐ฆ2 โ๐ ๐ฆ = ๐0 + ๐1๐ฆ + ๐2๐ฆ2 + ๐3๐ฆ3 + ๐4๐ฆ4 + โฏ
Underfitting Overfitting Just right
Slide credit: Andrew Ng
learned hypothesis may fit the training set very well ๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 โ 0
but fail to generalize to new examples (predict prices on new examples).
Slide credit: Andrew Ng
Price ($) in 1000โs Size in feet^2 Price ($) in 1000โs Size in feet^2 Price ($) in 1000โs Size in feet^2
โ๐ ๐ฆ = ๐0 + ๐1๐ฆ โ๐ ๐ฆ = ๐0 + ๐1๐ฆ + ๐2๐ฆ2 โ๐ ๐ฆ = ๐0 + ๐1๐ฆ + ๐2๐ฆ2 + ๐3๐ฆ3 + ๐4๐ฆ4 + โฏ
Underfitting Overfitting Just right
Slide credit: Andrew Ng
what you expect to learn and truth
what you expect to learn and what you learn from a particular dataset
Low variance High variance Low bias High bias
๐ ๐ฆ that minimizes ๐น ๐ง โ แ ๐ ๐ฆ
2
๐น ๐ง โ แ ๐ ๐ฆ
2
= Bias แ ๐ ๐ฆ
2 + Var แ
๐ ๐ฆ + ๐2
Bias แ ๐ ๐ฆ = ๐น แ ๐ ๐ฆ โ ๐(๐ฆ) Var แ ๐ ๐ฆ = ๐น แ ๐ ๐ฆ 2 โ ๐น แ ๐ ๐ฆ
2
https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff
Tumor Size Age Tumor Size Age Tumor Size Age
โ๐ ๐ฆ = ๐(๐0 + ๐1๐ฆ + ๐2๐ฆ2) โ๐ ๐ฆ = ๐(๐0 + ๐1๐ฆ + ๐2๐ฆ2 + ๐3๐ฆ1
2 + ๐4๐ฆ2 2 + ๐5๐ฆ1๐ฆ2)
โ๐ ๐ฆ = ๐(๐0 + ๐1๐ฆ + ๐2๐ฆ2 + ๐3๐ฆ1
2 + ๐4๐ฆ2 2 + ๐5๐ฆ1๐ฆ2 +
๐6๐ฆ1
3๐ฆ2 + ๐7๐ฆ1๐ฆ2 3 + โฏ )
Underfitting Overfitting
Slide credit: Andrew Ng
Price ($) in 1000โs Size in feet^2
Slide credit: Andrew Ng
๐
๐.
contributes a bit to predicting ๐ง.
Slide credit: Andrew Ng
min
๐ ๐พ ๐ = 1
2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 + 1000 ๐3 2 + 1000 ๐4 2
โ๐ ๐ฆ = ๐0 + ๐1๐ฆ + ๐2๐ฆ2 โ๐ ๐ฆ = ๐0 + ๐1๐ฆ + ๐2๐ฆ2 + ๐3๐ฆ3 + ๐4๐ฆ4
Price ($) in 1000โs Size in feet^2 Price ($) in 1000โs Size in feet^2
Slide credit: Andrew Ng
๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 + ๐ เท ๐=1 ๐
๐
๐ 2
Slide credit: Andrew Ng
๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 + ๐ เท ๐=1 ๐
๐
๐ 2
min
๐ ๐พ(๐)
Price ($) in 1000โs Size in feet^2
๐: Regularization parameter
Slide credit: Andrew Ng
๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 + ๐ เท ๐=1 ๐
๐
๐ 2
What if ๐ is set to an extremely large value (say ๐ = 1010)?
Slide credit: Andrew Ng
๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 + ๐ เท ๐=1 ๐
๐
๐ 2
What if ๐ is set to an extremely large value (say ๐ = 1010)?
Price ($) in 1000โs Size in feet^2
โ๐ ๐ฆ = ๐0 + ๐1๐ฆ1 + ๐2๐ฆ2 + โฏ + ๐๐๐ฆ๐ = ๐โค๐ฆ
Slide credit: Andrew Ng
๐=1 ๐
2 + ๐ เท ๐=1 ๐
๐ 2
๐ ๐พ(๐)
Slide credit: Andrew Ng
Repeat { ๐0 โ ๐0 โ ๐ฝ 1 ๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐
๐ โ ๐ ๐ โ ๐ฝ 1
๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐
} (๐ = 1, 2, 3, โฏ , ๐)
Slide credit: Andrew Ng
(๐ = 0)
Repeat { ๐0 โ ๐0 โ ๐ฝ 1 ๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐
๐ โ ๐ ๐ โ ๐ฝ 1
๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐ + ๐๐ ๐
}
๐
๐ โ ๐ ๐(1 โ ๐ฝ ๐
๐) โ ๐ฝ 1 ๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐
Slide credit: Andrew Ng
Regularized linear regression
๐
๐ โ ๐ ๐(1 โ ๐ฝ ๐
๐) โ ๐ฝ 1 ๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐
Un-regularized linear regression
๐
๐ โ ๐ ๐
โ ๐ฝ 1 ๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐
1 โ ๐ฝ
๐ ๐ < 1: Weight decay
๐ฆ 1 โค ๐ฆ 2 โค โฎ ๐ฆ ๐ โค โ ๐๐ร(๐+1) ๐ง = ๐ง(1) ๐ง(2) โฎ ๐ง(๐) โ ๐๐
๐ ๐พ(๐)
๐โค๐ + ๐ โฏ 1 โฎ โฎ โฑ โฎ 1
โ1
๐โค๐ง
(๐ + 1 ) ร (๐ + 1)
Slide credit: Andrew Ng
๐พ ๐ = 1 ๐ เท
๐=1 ๐
๐ง ๐ log โ๐ ๐ฆ ๐ + (1 โ ๐ง ๐ ) log 1 โ โ๐ ๐ฆ ๐ + ๐ 2 เท
๐=1 ๐
๐
๐ 2
Tumor Size Age
โ๐ ๐ฆ = ๐(๐0 + ๐1๐ฆ + ๐2๐ฆ2 + ๐3๐ฆ1
2 + ๐4๐ฆ2 2 + ๐5๐ฆ1๐ฆ2 +
๐6๐ฆ1
3๐ฆ2 + ๐7๐ฆ1๐ฆ2 3 + โฏ )
Slide credit: Andrew Ng
Repeat { ๐0 โ ๐0 โ ๐ฝ 1 ๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐
๐ โ ๐ ๐ โ ๐ฝ 1
๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐ ๐ฆ๐
๐ โ ๐๐ ๐
} โ๐ ๐ฆ = 1 1 + ๐โ๐โค๐ฆ ๐ ๐๐
๐
๐พ(๐)
Slide credit: Andrew Ng
๐พ ๐ = 1 2๐ เท
๐=1 ๐
โ๐ ๐ฆ ๐ โ ๐ง ๐
2 + ๐ เท ๐=1 ๐
|๐
๐|
LASSO: Least Absolute Shrinkage and Selection Operator
1 2๐ ฯ๐=1 ๐
๐ฆ(๐)๐ โ ๐ง ๐
2 + ๐ ๐ 1
เท ๐ = 1 ๐ < ๐, ๐ > โ๐ if 1 ๐ < ๐, ๐ > > ๐ if 1 ๐ | < ๐, ๐ > | โค ๐ 1 ๐ < ๐, ๐ > +๐ if 1 ๐ < ๐, ๐ > < โ๐
เท ๐ = ๐๐(1 ๐ < ๐, ๐ >) Soft Thresholding operator ๐๐ ๐ฆ = sign ๐ฆ ๐ฆ โ ๐ +
1 2๐ ฯ๐=1 ๐
๐ฆ๐
๐ ๐ ๐ + ฯ๐โ ๐ ๐ฆ๐๐ ๐ ๐๐ โ ๐ง ๐ 2
+ ๐ เท
๐โ ๐
|๐๐| + ๐ ๐
๐ 1
For each ๐, update ๐
๐ with
minimize๐ 1 2๐ เท
๐=1 ๐
๐ฆ๐
๐ ๐ ๐ โ ๐ ๐ (๐) 2
+ ๐ ๐
๐ 1
where ๐
๐ (๐) = ๐ง ๐ โ ฯ๐โ ๐ ๐ฆ๐๐ ๐ ๐๐
Image credit: https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
Regularization function Name Solver
๐ 2
2 = เท ๐=1 ๐
๐
๐ 2
Tikhonov regularization Ridge regression Close form ๐
1 = เท ๐=1 ๐
|๐๐| LASSO regression Proximal gradient descent, least angle regression ๐ฝ ๐
1 + (1 โ ๐ฝ)
๐ 2
2
Elastic net regularization Proximal gradient descent