PAC Learning Learning Theory Readings: Matt Gormley Murphy -- - - PowerPoint PPT Presentation

pac learning
SMART_READER_LITE
LIVE PREVIEW

PAC Learning Learning Theory Readings: Matt Gormley Murphy -- - - PowerPoint PPT Presentation

10-601 Introduction to Machine Learning Machine Learning Department School of Computer Science Carnegie Mellon University PAC Learning Learning Theory Readings: Matt Gormley Murphy -- Bishop


slide-1
SLIDE 1

PAC ¡Learning

1

10-­‑601 ¡Introduction ¡to ¡Machine ¡Learning

Matt ¡Gormley Lecture ¡28 May ¡1, ¡2016

Machine ¡Learning ¡Department School ¡of ¡Computer ¡Science Carnegie ¡Mellon ¡University Learning ¡Theory ¡Readings: Murphy ¡-­‑-­‑ Bishop ¡-­‑-­‑ HTF ¡-­‑-­‑ Mitchell ¡7

slide-2
SLIDE 2

Reminders

  • Homework 9: ¡Applications of ¡ML

– Release: ¡Mon, ¡Apr. ¡24 – Due: ¡Wed, ¡May 3 ¡at ¡11:59pm

4

slide-3
SLIDE 3

Outline

  • Statistical ¡Learning ¡Theory

– True ¡Error ¡vs. ¡Train ¡Error – Function ¡Approximation ¡View ¡(aka. ¡PAC/SLT ¡Model) – Three ¡Hypotheses ¡of ¡Interest

  • Probably ¡Approximately ¡Correct ¡(PAC) ¡Learning

– PAC ¡Criterion – PAC ¡Learnable – Consistent ¡Learner – Sample ¡Complexity

  • Generalization ¡and ¡Overfitting

– Realizable ¡vs. ¡Agnostic ¡Cases – Finite ¡vs. ¡Infinite ¡Hypothesis ¡Spaces – VC ¡Dimension – Sample ¡Complexity ¡Bounds – Empirical ¡Risk ¡Minimization – Structural ¡Risk ¡Minimization

  • Excess ¡Risk

5

slide-4
SLIDE 4

LEARNING ¡THEORY

6

slide-5
SLIDE 5

Questions ¡For ¡Today

  • 1. Given ¡a ¡classifier ¡with ¡zero ¡training ¡error, ¡what ¡

can ¡we ¡say ¡about ¡generalization ¡error? (Sample ¡Complexity, ¡Realizable ¡Case)

  • 2. Given ¡a ¡classifier ¡with ¡low ¡training ¡error, ¡what ¡

can ¡we ¡say ¡about ¡generalization ¡error? (Sample ¡Complexity, ¡Agnostic ¡Case)

  • 3. Is ¡there ¡a ¡theoretical ¡justification ¡for ¡

regularization ¡to ¡avoid ¡overfitting? (Structural ¡Risk ¡Minimization)

7

slide-6
SLIDE 6

Statistical ¡Learning ¡Theory

Whiteboard:

– Function ¡Approximation ¡View ¡(aka. ¡PAC/SLT ¡ Model) – True ¡Error ¡vs. ¡Train ¡Error – Three ¡Hypotheses ¡of ¡Interest

8

slide-7
SLIDE 7

PAC ¡/ ¡SLT ¡Model

9

Labeled Examples

PAC/SLT models for Supervised Learning

Learning Algorithm Expert / Oracle Data Source

Alg.outputs

Distribution D on X c* : X ! Y

(x1,c*(x1)),…, (xm,c*(xm))

h : X ! Y

x1 > 5 x6 > 2 +1

  • 1

+1

+

  • +

+ +

  • Slide ¡from ¡Nina ¡Balcan
slide-8
SLIDE 8

PAC ¡/ ¡SLT ¡Model

10

slide-9
SLIDE 9

Two ¡Types ¡of ¡Error

11

Train ¡Error ¡(aka. ¡empirical ¡risk) True ¡Error ¡(aka. ¡expected ¡risk)

slide-10
SLIDE 10

Three ¡Hypotheses ¡of ¡Interest

12

slide-11
SLIDE 11

PAC ¡LEARNING

13

slide-12
SLIDE 12

Probably ¡Approximately ¡Correct ¡ (PAC) ¡Learning

Whiteboard:

– PAC ¡Criterion – Meaning ¡of ¡“Probably ¡Approximately ¡Correct” – PAC ¡Learnable – Consistent ¡Learner – Sample ¡Complexity

14

slide-13
SLIDE 13

PAC ¡Learning

15

slide-14
SLIDE 14

SAMPLE ¡COMPLEXITY ¡RESULTS

16

slide-15
SLIDE 15

Sample ¡Complexity ¡Results

17

Realizable Agnostic Four ¡Cases ¡we ¡care ¡about…

We’ll ¡start ¡with ¡the ¡ finite ¡case…

slide-16
SLIDE 16

Generalization ¡and ¡Overfitting

Whiteboard:

– Realizable ¡vs. ¡Agnostic ¡Cases – Finite ¡vs. ¡Infinite ¡Hypothesis ¡Spaces – Sample ¡Complexity ¡Bounds ¡(Finite ¡Case)

18

slide-17
SLIDE 17

Sample ¡Complexity ¡Results

19

Realizable Agnostic Four ¡Cases ¡we ¡care ¡about…

slide-18
SLIDE 18

Example: ¡Conjunctions

In-­‑Class ¡Quiz: Suppose ¡H ¡= ¡class ¡of ¡conjunctions ¡over ¡x ¡in ¡{0,1}M If ¡M ¡= ¡10, ¡𝜁 = ¡0.1, ¡δ = ¡0.01, ¡how ¡many ¡examples ¡suffice?

20

Realizable Agnostic

slide-19
SLIDE 19

Sample ¡Complexity ¡Results

21

Realizable Agnostic Four ¡Cases ¡we ¡care ¡about…

slide-20
SLIDE 20

Sample ¡Complexity ¡Results

22

Realizable Agnostic Four ¡Cases ¡we ¡care ¡about…

We ¡need ¡a ¡new ¡definition ¡of ¡ “complexity” ¡for ¡a ¡Hypothesis ¡space ¡ for ¡these ¡results ¡(see ¡VC ¡Dimension)

slide-21
SLIDE 21

VC ¡DIMENSION

23

slide-22
SLIDE 22

24

What if H is infinite?

E.g., linear separators in Rd

+

  • +

+ +

  • E.g., intervals on the real line

a b

+

  • E.g., thresholds on the real line

w

+

slide-23
SLIDE 23

25

Shattering, VC-dimension

A set of points S is shattered by H is there are hypotheses in H that split S in all of the 2|𝑇| possible ways; i.e., all possible ways of classifying points in S are achievable using concepts in H. Definition: The VC-dimension of a hypothesis space H is the cardinality of the largest set S that can be shattered by H.

Definition:

If arbitrarily large finite sets can be shattered by H, then VCdim(H) = ∞ VC-dimension (Vapnik-Chervonenkis dimension) H shatters S if |H S | = 2|𝑇|. H[S] – the set of splittings of dataset S using concepts from H.

slide-24
SLIDE 24

26

Shattering, VC-dimension

The VC-dimension of a hypothesis space H is the cardinality of the largest set S that can be shattered by H.

Definition:

If arbitrarily large finite sets can be shattered by H, then VCdim(H) = ∞ VC-dimension (Vapnik-Chervonenkis dimension)

To show that VC-dimension is d: – there is no set of d+1 points that can be shattered. – there exists a set of d points that can be shattered

Fact: If H is finite, then VCdim (H) ≤ log (|H|).

slide-25
SLIDE 25

27

Shattering, VC-dimension

E.g., H= Thresholds on the real line

VCdim H = 1

w

+

  • If the VC-dimension is d, that means there exists a set of

d points that can be shattered, but there is no set of d+1 points that can be shattered.

E.g., H= Intervals on the real line

+

  • +
  • VCdim H = 2

+

  • +
slide-26
SLIDE 26

28

Shattering, VC-dimension

If the VC-dimension is d, that means there exists a set of d points that can be shattered, but there is no set of d+1 points that can be shattered.

E.g., H= Union of k intervals on the real line

+

  • VCdim H = 2k

+

  • +

+

  • +

VCdim H < 2k + 1 VCdim H ≥ 2k

A sample of size 2k shatters (treat each pair of points as a separate case of intervals)

+

slide-27
SLIDE 27

29

E.g., H= linear separators in R2

Shattering, VC-dimension

VCdim H ≥ 3

slide-28
SLIDE 28

30

Shattering, VC-dimension

VCdim H < 4

Case 1: one point inside the triangle formed by the others. Cannot label inside point as positive and outside points as negative. Case 2: all points on the boundary (convex hull). Cannot label two diagonally as positive and other two as negative.

Fact: VCdim of linear separators in Rd is d+1 E.g., H= linear separators in R2

slide-29
SLIDE 29

SAMPLE ¡COMPLEXITY ¡RESULTS

32

slide-30
SLIDE 30

Sample ¡Complexity ¡Results

33

Realizable Agnostic Four ¡Cases ¡we ¡care ¡about…

We ¡need ¡a ¡new ¡definition ¡of ¡ “complexity” ¡for ¡a ¡Hypothesis ¡space ¡ for ¡these ¡results ¡(see ¡VC ¡Dimension)

slide-31
SLIDE 31

Sample ¡Complexity ¡Results

34

Realizable Agnostic Four ¡Cases ¡we ¡care ¡about…

slide-32
SLIDE 32

Generalization ¡and ¡Overfitting

Whiteboard:

– Sample ¡Complexity ¡Bounds ¡(Infinite ¡Case) – Empirical ¡Risk ¡Minimization – Structural ¡Risk ¡Minimization

35

slide-33
SLIDE 33

EXCESS ¡RISK

36

slide-34
SLIDE 34

Excess ¡Risk

37

slide-35
SLIDE 35

Excess ¡Risk ¡Results

38

slide-36
SLIDE 36

Questions ¡For ¡Today

  • 1. Given ¡a ¡classifier ¡with ¡zero ¡training ¡error, ¡what ¡

can ¡we ¡say ¡about ¡generalization ¡error? (Sample ¡Complexity, ¡Realizable ¡Case)

  • 2. Given ¡a ¡classifier ¡with ¡low ¡training ¡error, ¡what ¡

can ¡we ¡say ¡about ¡generalization ¡error? (Sample ¡Complexity, ¡Agnostic ¡Case)

  • 3. Is ¡there ¡a ¡theoretical ¡justification ¡for ¡

regularization ¡to ¡avoid ¡overfitting? (Structural ¡Risk ¡Minimization)

39