Ac%ve learning x 2 o o Spam + o o o + o o o + - - PowerPoint PPT Presentation

ac ve learning
SMART_READER_LITE
LIVE PREVIEW

Ac%ve learning x 2 o o Spam + o o o + o o o + - - PowerPoint PPT Presentation

Ac%ve learning x 2 o o Spam + o o o + o o o + o o o o o o Ham x 1 Labels are expensive (need to ask expert) Want to minimize the number


slide-1
SLIDE 1

1 ¡

Ac%ve ¡learning ¡

Labels ¡are ¡expensive ¡(need ¡to ¡ask ¡expert) ¡ Want ¡to ¡minimize ¡the ¡number ¡of ¡labels ¡

+ –

  • o
  • +

Spam ¡ Ham ¡

+ –

x1 ¡ x2 ¡

slide-2
SLIDE 2

Why ¡should ¡ac%ve ¡learning ¡help? ¡

Example: ¡Learning ¡linear ¡separators ¡in ¡1D ¡ For ¡now, ¡assume ¡data ¡is ¡noise ¡free ¡

2 ¡

slide-3
SLIDE 3

Does ¡ac%ve ¡learning ¡always ¡help? ¡

3 ¡

slide-4
SLIDE 4

Pool-­‑based ¡ac%ve ¡learning ¡

Pool-­‑based ¡ac%ve ¡learning ¡

Obtain ¡large ¡pool ¡of ¡unlabeled ¡data ¡ Selec%vely ¡request ¡a ¡few ¡labels, ¡un%l ¡we ¡can ¡infer ¡all ¡

remaining ¡labels ¡

Resul%ng ¡classifier ¡“as ¡good” ¡as ¡that ¡obtained ¡from ¡

complete ¡labeled ¡set ¡

Reduc%on ¡in ¡labels ¡

In ¡some ¡cases, ¡exponen%al ¡reduc%on ¡possible! ¡ In ¡other ¡cases, ¡may ¡need ¡to ¡request ¡almost ¡all ¡labels ¡

How ¡should ¡we ¡request ¡labels?? ¡

4 ¡

slide-5
SLIDE 5

5 ¡

Uncertainty ¡sampling ¡

Given ¡pool ¡of ¡n ¡unlabeled ¡examples ¡ Repeat ¡un%l ¡we ¡can ¡infer ¡all ¡remaining ¡labels: ¡

Assign ¡each ¡unlabeled ¡data ¡an ¡“uncertainty ¡score” ¡ Greedily ¡pick ¡the ¡most ¡uncertain ¡example ¡and ¡request ¡label ¡

One ¡of ¡the ¡most ¡popular ¡heuris%cs! ¡

slide-6
SLIDE 6

Uncertainty ¡sampling ¡in ¡SVMs ¡

6 ¡

Select ¡point ¡nearest ¡to ¡ hyperplane ¡decision ¡boundary ¡ for ¡labeling ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

[Tong ¡& ¡Koller, ¡2000; ¡Schohn ¡& ¡Cohn, ¡ 2000; ¡Campbell ¡et ¡al. ¡2000] ¡

w

? ¡

slide-7
SLIDE 7

Example: ¡linear ¡classifiers ¡in ¡1D ¡

7 ¡

slide-8
SLIDE 8

Real ¡data ¡example ¡

8 ¡

[Grauman ¡et ¡al] ¡

slide-9
SLIDE 9

Ac%ve ¡learning ¡results ¡

9 ¡

[Grauman ¡et ¡al] ¡

slide-10
SLIDE 10

Uncertainty ¡sampling ¡in ¡large ¡data ¡

For ¡i ¡= ¡1:max_labels ¡

For ¡j ¡= ¡1:n ¡

Calculate ¡uncertainty ¡U(j) ¡score ¡of ¡example ¡j ¡

Pick ¡most ¡uncertain ¡example ¡ Retrain ¡SVM ¡

Complexity ¡to ¡pick ¡m ¡labels? ¡

10 ¡

slide-11
SLIDE 11

Sub-­‑linear ¡%me ¡ac%ve ¡learning ¡

11 ¡

) 1 ( + t

w

) 1 (

1

+ t

x

) 1 (

2

+ t

x

) (t

w

) (

1

t

x

) (

2

t

x

) 1 (

3

+ t

x

Goal: Map hyperplane query directly to its nearest points.

} , { ) (

1 k

h x x w … →

[Jain, Vijayanarasimhan & Grauman, NIPS 2010]

slide-12
SLIDE 12

Sub-­‑linear ¡%me ¡ac%ve ¡selec%on ¡

12 ¡

Unlabeled ¡ data ¡ Labeled ¡ data ¡ Current ¡Category ¡ Model ¡ Selected ¡ examples ¡

111.. ¡ 101.. ¡ 110.. ¡

Hashtable ¡

Hash ¡func%on ¡ Hash ¡func%on ¡

[Grauman ¡et ¡al] ¡

slide-13
SLIDE 13

Hashing ¡a ¡hyperplane ¡query ¡

13 ¡

To ¡retrieve ¡those ¡points ¡for ¡which ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡small, ¡want ¡ probable ¡collision ¡for ¡perpendicular ¡vectors: ¡

w

1

x

Assuming ¡normalized ¡data. ¡ Most ¡likely ¡to ¡collide ¡ Unlikely ¡to ¡collide ¡

[Jain, ¡Vijayanarasimhan ¡& ¡Grauman, ¡NIPS ¡2010] ¡

slide-14
SLIDE 14

Hashing ¡a ¡hyperplane ¡query ¡

14 ¡

= ¡More ¡likely ¡to ¡collide ¡ = ¡Unlikely ¡to ¡collide ¡

  • Use ¡two ¡random ¡vectors, ¡two-­‑bit ¡hash ¡key ¡

– one ¡to ¡constrain ¡the ¡angle ¡with ¡w ¡ – one ¡to ¡constrain ¡the ¡angle ¡with ¡-­‑w ¡

Less ¡likely ¡to ¡split ¡ + ¡Highly ¡likely ¡to ¡split ¡ Less ¡likely ¡to ¡split ¡ + ¡Less ¡likely ¡to ¡split ¡

[Grauman ¡et ¡al] ¡

slide-15
SLIDE 15

Hashing ¡a ¡hyperplane ¡query ¡

15 ¡

= ¡More ¡likely ¡to ¡collide ¡ = ¡Unlikely ¡to ¡collide ¡

  • Use ¡two ¡random ¡vectors, ¡two-­‑bit ¡hash ¡key ¡

– one ¡to ¡constrain ¡the ¡angle ¡with ¡w ¡ – one ¡to ¡constrain ¡the ¡angle ¡with ¡-­‑w ¡

Less ¡likely ¡to ¡split ¡ + ¡Highly ¡likely ¡to ¡split ¡ Less ¡likely ¡to ¡split ¡ + ¡Less ¡likely ¡to ¡split ¡

[Grauman ¡et ¡al] ¡

slide-16
SLIDE 16

Hashing a hyperplane query

Let:

, ¡

Resulting asymmetric two-bit hash:

[Grauman ¡et ¡al] ¡

slide-17
SLIDE 17

Hashing a hyperplane query

Resulting asymmetric two-bit hash: Let: Define hash family: Can calculate LSH collision probability

[Jain, Vijayanarasimhan & Grauman, NIPS 2010].

[Grauman ¡et ¡al] ¡

slide-18
SLIDE 18

Data flow: Hashing a hyperplane query

Hash all unlabeled data into table Active selection loop:

Hash current hyperplane as query Retrieve unlabeled data points with which it collides Request labels for them Update hyperplane

[Grauman ¡et ¡al] ¡

slide-19
SLIDE 19

Results: ¡Hashing ¡a ¡ hyperplane ¡query ¡

ts ¡as ¡ led ¡

By ¡minimizing ¡both ¡selec%on ¡and ¡ labeling ¡%me, ¡provide ¡the ¡best ¡ accuracy ¡per ¡unit ¡%me. ¡

¡

Tiny ¡Images ¡Dataset ¡/ ¡CIFAR ¡

[Grauman ¡et ¡al] ¡

slide-20
SLIDE 20

Efficient ¡ac%ve ¡selec%on ¡with ¡pool ¡of ¡1 ¡Million ¡ unlabeled ¡examples ¡and ¡1000s ¡of ¡categories. ¡ ¡

Results: ¡Hashing ¡a ¡hyperplane ¡query ¡

Selected ¡for ¡labeling ¡in ¡ first ¡9 ¡itera%ons ¡ Learning ¡ “airplane” ¡ Learning ¡ “automobile” ¡

[Grauman ¡et ¡al] ¡

slide-21
SLIDE 21

Summary ¡so ¡far: ¡

Uncertainty ¡sampling: ¡Simple ¡heuris%c ¡for ¡ac%ve ¡

learning ¡

For ¡SVMs: ¡ ¡

pick ¡points ¡closest ¡to ¡decision ¡boundary ¡ Can ¡select ¡efficiently ¡using ¡LSH ¡

Can ¡get ¡significant ¡gains ¡in ¡labeling ¡cost, ¡even ¡for ¡

large ¡data ¡sets. ¡

Now: ¡ ¡

Theory ¡of ¡ac%ve ¡learning ¡ Criteria ¡beyond ¡uncertainty ¡sampling ¡

21 ¡

slide-22
SLIDE 22

Issues ¡with ¡uncertainty ¡sampling ¡

22 ¡

uncertain ¡≠ ¡informa%ve! ¡

slide-23
SLIDE 23

Defining ¡“informa%veness” ¡

Need ¡to ¡capture ¡how ¡much ¡“informa%on” ¡we ¡gain ¡about ¡

the ¡true ¡classifier ¡for ¡each ¡label ¡

Version ¡space: ¡ ¡

set ¡of ¡all ¡classifiers ¡consistent ¡with ¡the ¡data ¡

Idea: ¡ ¡

would ¡like ¡to ¡shrink ¡version ¡space ¡as ¡quickly ¡as ¡possible ¡

23 ¡

V(D) = {w : ∀(x, y) ∈ D sign(wT x) = y}

slide-24
SLIDE 24

Version ¡space ¡for ¡SVM ¡

24 ¡

[Tong ¡& ¡Koller] ¡

slide-25
SLIDE 25

Version ¡space ¡for ¡SVM ¡

25 ¡

[Tong ¡& ¡Koller] ¡

slide-26
SLIDE 26

Version ¡space ¡for ¡SVM ¡

26 ¡

[Tong ¡& ¡Koller] ¡

slide-27
SLIDE 27

Version ¡space ¡for ¡SVM ¡

27 ¡

[Tong ¡& ¡Koller] ¡

slide-28
SLIDE 28

Understanding ¡uncertainty ¡sampling ¡

Uncertainty ¡sampling ¡picks ¡data ¡point ¡closest ¡to ¡

current ¡solu%on ¡

28 ¡

. ¡

w ¡ a ¡ b ¡ c ¡ d ¡ e ¡ f ¡ g ¡

slide-29
SLIDE 29

Approxima%on ¡for ¡sample ¡selec%on ¡

Uncertainty ¡sampling ¡picks ¡data ¡point ¡closest ¡to ¡

current ¡solu%on ¡

29 ¡

. ¡

w ¡ e ¡ f ¡ g ¡

slide-30
SLIDE 30

Version ¡space ¡reduc%on ¡

Ideally: ¡Wish ¡to ¡select ¡example ¡that ¡splits ¡the ¡version ¡

space ¡as ¡equally ¡as ¡possible ¡

In ¡general, ¡halving ¡may ¡not ¡be ¡possible ¡ ¡

è ¡find ¡“balanced” ¡split ¡

How ¡do ¡we ¡quan%fy ¡how ¡“balanced” ¡a ¡split ¡is? ¡

30 ¡

. ¡

w ¡ e ¡ f ¡ g ¡

slide-31
SLIDE 31

Relevant ¡version ¡space ¡

Version ¡space ¡for ¡data ¡set ¡ ¡ Suppose ¡we’re ¡also ¡given ¡an ¡unlabeled ¡pool ¡ ¡ Relevant ¡version ¡space: ¡ ¡

Labelings ¡of ¡pool ¡consistent ¡with ¡the ¡data ¡

31 ¡

V(D) = {w : ∀(x, y) ∈ D sign(wT x) = y}

b V(D; U) = {h : U → {+1, −1} : ∃w ∈ V(D)∀x ∈ U sign(wT x) = h(y)}

D = {(x1, y1), . . . , (xk, yk)}

U = {x0

1, . . . , x0 n}

slide-32
SLIDE 32

Generalized ¡binary ¡search ¡

Start ¡with ¡D ¡= ¡{} ¡ While ¡

¡For ¡each ¡unlabeled ¡example ¡x ¡in ¡U ¡compute ¡

¡

Pick ¡example ¡x ¡where ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡largest, ¡ request ¡label ¡and ¡add ¡to ¡D ¡

¡ Can ¡prove ¡that ¡GBS ¡requires ¡only ¡ ¡ more ¡labels ¡than ¡any ¡other ¡ac%ve ¡learning ¡strategy, ¡ both ¡on ¡average ¡and ¡in ¡worst-­‑case ¡

32 ¡

slide-33
SLIDE 33

GBS ¡for ¡linear ¡separators ¡in ¡1D ¡

33 ¡

slide-34
SLIDE 34

Version ¡space ¡reduc%on ¡

Ideally: ¡Wish ¡to ¡select ¡example ¡that ¡splits ¡the ¡version ¡

space ¡as ¡equally ¡as ¡possible ¡

In ¡general, ¡halving ¡may ¡not ¡be ¡possible ¡ ¡

è ¡find ¡“balanced” ¡split ¡

Generalized ¡binary ¡search ¡ Compe%%ve ¡with ¡op%mal ¡ac%ve ¡learning ¡scheme ¡ ¡

(in ¡the ¡case ¡of ¡no ¡noise) ¡[c.f., ¡Dasgupta ¡‘04] ¡

Size ¡of ¡the ¡(relevant) ¡version ¡space ¡ ¡

difficult ¡to ¡calculate ¡

Need ¡approxima%on! ¡

34 ¡

slide-35
SLIDE 35

Approxima%on ¡for ¡sample ¡selec%on ¡

Uncertainty ¡sampling ¡picks ¡data ¡point ¡closest ¡to ¡

current ¡solu%on ¡

35 ¡

. ¡

w ¡ e ¡ f ¡ g ¡

slide-36
SLIDE 36

Approxima%on ¡for ¡sample ¡selec%on ¡

36 ¡

. ¡

w ¡ e ¡ f ¡ g ¡

slide-37
SLIDE 37

Approxima%on ¡for ¡sample ¡selec%on ¡

Suggests ¡looking ¡at ¡the ¡margins ¡of ¡the ¡resul%ng ¡SVMs ¡

37 ¡

. ¡

w ¡ e ¡ f ¡ g ¡

slide-38
SLIDE 38

Achieving ¡“balanced” ¡splits ¡

Key ¡idea: ¡look ¡at ¡how ¡labels ¡affect ¡resul%ng ¡classifier ¡ Suppose ¡we’re ¡considering ¡data ¡point ¡i ¡ For ¡each ¡possible ¡label ¡{+,-­‑} ¡calculate ¡resul%ng ¡SVMs, ¡

with ¡margins ¡m+, ¡m-­‑ ¡ ¡

Define ¡informa%veness ¡score ¡of ¡i ¡depending ¡on ¡how ¡

“balanced” ¡the ¡resul%ng ¡margins ¡are ¡

Max-­‑min ¡margin: ¡ ¡ Ra%o ¡margin: ¡

38 ¡

slide-39
SLIDE 39

Selec%ng ¡“balanced” ¡splits ¡

39 ¡

Max-­‑min ¡margin ¡ Ra%o ¡margin ¡

slide-40
SLIDE 40

Selec%on ¡

40 ¡

[Tong ¡& ¡Koller] ¡

slide-41
SLIDE 41

Computa%onal ¡challenges ¡

Max-­‑min ¡margin ¡and ¡ra%o ¡margin ¡more ¡expensive ¡

Need ¡to ¡train ¡an ¡SVM ¡for ¡each ¡data ¡point, ¡for ¡each ¡label!! ¡

Prac%cal ¡tricks: ¡

Only ¡score ¡and ¡pick ¡from ¡small ¡random ¡subsample ¡of ¡data ¡ Only ¡use ¡“fancy” ¡criterion ¡for ¡the ¡first ¡10 ¡examples, ¡then ¡

switch ¡to ¡uncertainty ¡sampling ¡

Occasionally ¡pick ¡points ¡uniformly ¡at ¡random ¡

41 ¡

slide-42
SLIDE 42

Results ¡(text ¡classifica%on) ¡

42 ¡

slide-43
SLIDE 43

Dealing ¡with ¡noise ¡

So ¡far, ¡we ¡have ¡assumed ¡that ¡labels ¡are ¡exact ¡ In ¡prac%ce, ¡there ¡is ¡always ¡noise. ¡How ¡should ¡we ¡deal ¡

with ¡it? ¡

Prac%ce: ¡

Can ¡use ¡same ¡algorithms ¡(simply ¡use ¡SVM ¡with ¡slack ¡variables) ¡

Theory: ¡

Analysis ¡much ¡harder ¡ Modified ¡version ¡of ¡generalized ¡binary ¡search ¡s%ll ¡works ¡if ¡

noise ¡is ¡i.i.d. ¡[Novak, ¡NIPS ¡’09] ¡

If ¡noise ¡is ¡correlated ¡need ¡new ¡criterion ¡[Golovin, ¡Krause, ¡Ray, ¡

NIPS ¡‘10] ¡

43 ¡

slide-44
SLIDE 44

What ¡you ¡need ¡to ¡know ¡

Pool-­‑based ¡ac%ve ¡learning ¡ Different ¡selec%on ¡strategies ¡

Uncertainty ¡sampling: ¡Efficient, ¡but ¡can ¡fail ¡ Informa%ve ¡sampling: ¡Expensive, ¡but ¡can ¡effec%vely ¡reduce ¡

version ¡space ¡

Computa%onal ¡tricks ¡

Locality ¡sensi%ve ¡hashing ¡to ¡speed ¡up ¡uncertainty ¡sampling ¡ Hybrid ¡selec%on ¡criteria ¡

44 ¡