Ac#ve Learning Aarti Singh Machine Learning 10-601 Dec 6, 2011 - - PowerPoint PPT Presentation

ac ve learning
SMART_READER_LITE
LIVE PREVIEW

Ac#ve Learning Aarti Singh Machine Learning 10-601 Dec 6, 2011 - - PowerPoint PPT Presentation

Ac#ve Learning Aarti Singh Machine Learning 10-601 Dec 6, 2011 Slides Courtesy: Burr Settles, Rui Castro, Rob Nowak 1 Learning from unlabeled data Semi-supervised learning: Design a predictor based on iid unlabeled


slide-1
SLIDE 1

Ac#ve ¡Learning ¡

Aarti Singh Machine Learning 10-601 Dec 6, 2011

Slides Courtesy: Burr Settles, Rui Castro, Rob Nowak

1

slide-2
SLIDE 2

Semi-supervised learning: Design a predictor based on iid unlabeled and

few randomly labeled examples.

Learning algorithm

Assumption: Knowledge of marginal density can simplify prediction e.g. similar data points have similar labels

Learning ¡from ¡unlabeled ¡data ¡

slide-3
SLIDE 3

Active learning: Design a predictor based on iid unlabeled and selectively

labeled examples

Learning algorithm

Selective labeling Assumption: Some unlabeled examples are more informative than others for prediction.

Learning ¡from ¡unlabeled ¡data ¡

slide-4
SLIDE 4

3 5 8 7 9 4 2 1

many unlabeled data… plus a few labeled examples knowledge of clusters + a few labels in each is sufficient to design a good predictor – Semi-supervised learning

Example: ¡Hand-­‑wri<en ¡digit ¡recogni#on ¡

slide-5
SLIDE 5

Not all examples are created equal

Labeled examples near “boundaries” of clusters are much more informative – Active learning

Example: ¡Hand-­‑wri<en ¡digit ¡recogni#on ¡

slide-6
SLIDE 6

Passive ¡Learning ¡

slide-7
SLIDE 7

Semi-­‑supervised ¡Learning ¡

slide-8
SLIDE 8

Ac#ve ¡Learning ¡

slide-9
SLIDE 9

The eyes focus on the interesting and relevant features, and do not sample all the regions in the scene in the same way.

Feedback ¡driven ¡learning ¡

slide-10
SLIDE 10

Feedback ¡driven ¡learning ¡

slide-11
SLIDE 11

“Is the person wearing a hat ?” “Does the person have blue eyes ?” “Active Learning” works very well in simple conditions

The ¡Twenty ¡ques#ons ¡game ¡

Focus on most informative questions

slide-12
SLIDE 12

Thought ¡Experiment ¡

  • suppose ¡you’re ¡the ¡leader ¡of ¡an ¡Earth ¡

convoy ¡sent ¡to ¡colonize ¡planet ¡Mars ¡

people who ate the round Martian fruits found them tasty! people who ate the spiked Martian fruits died!

slide-13
SLIDE 13

Poison ¡vs. ¡Yummy ¡Fruits ¡

  • problem: ¡there’s ¡a ¡range ¡of ¡spiky-­‑to-­‑round ¡

fruit ¡shapes ¡on ¡Mars: ¡

you ¡need ¡to ¡learn ¡the ¡“threshold” ¡of ¡ roundness ¡ ¡where ¡the ¡fruits ¡go ¡from ¡ poisonous ¡to ¡safe. ¡ ¡ and… ¡you ¡need ¡to ¡determine ¡this ¡risking ¡ as ¡few ¡colonists’ ¡lives ¡as ¡possible! ¡

slide-14
SLIDE 14

Tes#ng ¡Fruit ¡Safety… ¡

this ¡is ¡just ¡a ¡binary ¡bisec#on ¡search ¡ ¡ Your ¡first ¡acFve ¡learning ¡algorithm! ¡

slide-15
SLIDE 15

Ac#ve ¡Learning ¡

  • key ¡idea: ¡the ¡learner ¡can ¡choose ¡training ¡data ¡
  • n ¡the ¡fly ¡

– on ¡Mars: ¡whether ¡a ¡fruit ¡was ¡poisonous/safe ¡ – in ¡general: ¡the ¡true ¡label ¡of ¡some ¡instance ¡

  • goal: ¡reduce ¡the ¡training ¡costs ¡

– on ¡Mars: ¡the ¡number ¡of ¡“lives ¡at ¡risk” ¡ – in ¡general: ¡the ¡number ¡of ¡“queries” ¡

slide-16
SLIDE 16

Goal: Given a budget of n samples, learn threshold as accurately as possible

step function

Learning ¡a ¡change-­‑point ¡

Locate a change-point or threshold (poisonous/yummy fruit, contamination boundary)

slide-17
SLIDE 17

Sample locations must be chosen before any observations are made

Passive ¡Learning ¡

slide-18
SLIDE 18

Sample locations must be chosen before any observations are made Too many wasted samples. Learning is limited by sampling resolution

Passive ¡Learning ¡

slide-19
SLIDE 19

Sample locations are chosen based on previous observations

Active ¡Learning ¡

slide-20
SLIDE 20

Sample locations are chosen based on previous observations The error decays much faster than in the passive

  • scenario. No wasted samples… Exponential improvement!

Works even when labels are noisy … though improvement depends on amount of noise

Active ¡Learning ¡

slide-21
SLIDE 21

Prac#cal ¡Learning ¡Curves ¡

text classification: baseball vs. hockey active learning passive learning better

slide-22
SLIDE 22

Probabilis#c ¡Binary ¡Bisec#on ¡

  • let’s ¡try ¡generalizing ¡our ¡binary ¡search ¡method ¡

using ¡a ¡probabilis.c ¡classifier: ¡

0.5 0.0 1.0 0.5 0.5

slide-23
SLIDE 23

Uncertainty ¡Sampling ¡

  • query ¡instances ¡the ¡learner ¡is ¡most ¡uncertain ¡about ¡

400 instances sampled from 2 class Gaussians random sampling 30 labeled instances (accuracy=0.7) active learning 30 labeled instances (accuracy=0.9) [Lewis & Gale, SIGIR’94] Using logistic regression

slide-24
SLIDE 24

Generalizing ¡to ¡Mul#-­‑Class ¡Problems ¡

least confident [Culotta & McCallum, AAAI’05] smallest-margin [Scheffer et al., CAIDA’01] entropy [Dagan & Engelson, ICML’95]

note: ¡for ¡binary ¡tasks, ¡these ¡are ¡equivalent ¡

slide-25
SLIDE 25

Query-­‑By-­‑Commi<ee ¡(QBC) ¡

  • train ¡a ¡commiKee ¡C = {θ1, θ2, ..., θC} ¡of ¡classifiers ¡on ¡the ¡

labeled ¡data ¡in ¡L

  • query ¡instances ¡in ¡U ¡for ¡which ¡the ¡commiKee ¡is ¡in ¡most ¡

disagreement ¡

  • key ¡idea: ¡reduce ¡the ¡model ¡version ¡space ¡(set ¡of ¡hypotheses ¡

which ¡are ¡consistent ¡with ¡training ¡examples) ¡ – expedites ¡search ¡for ¡a ¡model ¡during ¡training ¡

[Seung et al., COLT’92]

slide-26
SLIDE 26

Version ¡Space ¡Examples ¡

slide-27
SLIDE 27

QBC ¡Example ¡

slide-28
SLIDE 28

QBC ¡Example ¡

slide-29
SLIDE 29

QBC ¡Example ¡

slide-30
SLIDE 30

QBC ¡Example ¡

slide-31
SLIDE 31

QBC ¡Guarantees ¡

[Freund et al.,’97]

  • theoreFcal ¡guarantees… ¡

d – VC ¡dimension ¡of ¡commiKee ¡classifiers ¡ ¡ ¡ Under ¡some ¡mild ¡condiFons, ¡the ¡QBC ¡algorithm ¡achieves ¡a ¡ predicFon ¡accuracy ¡of ¡ε and ¡w.h.p. ¡ ¡ ¡# ¡unlabeled ¡examples ¡generated ¡ ¡ ¡ ¡O(d/ε) ¡ ¡ ¡# ¡labels ¡queried ¡ ¡ ¡ ¡ ¡ O(log2 d/ε) ¡ ¡ ¡ Exponen#al ¡improvement!

slide-32
SLIDE 32

QBC: ¡Design ¡Decisions ¡

  • how ¡to ¡build ¡a ¡commiKee: ¡

– “sample” ¡models ¡from ¡P(θ|L) ¡

  • [Dagan ¡& ¡Engelson, ¡ICML’95; ¡McCallum ¡& ¡Nigam, ¡ICML’98] ¡

– standard ¡ensembles ¡(e.g., ¡bagging, ¡boosFng) ¡

  • [Abe ¡& ¡Mamitsuka, ¡ICML’98] ¡
  • how ¡to ¡measure ¡disagreement: ¡

– “XOR” ¡commiKee ¡classificaFons ¡ – view ¡vote ¡distribuFon ¡as ¡probabiliFes, ¡ ¡ use ¡uncertainty ¡measures ¡(e.g., ¡entropy) ¡

slide-33
SLIDE 33

Batch-­‑based ¡ac#ve ¡learning ¡

wireless sensor networks/mobile sensing Active sensing

slide-34
SLIDE 34

Coarse sampling (Low variance, bias limited) Refine sampling (Low variance, low bias)

Batch-­‑based ¡ac#ve ¡learning ¡

slide-35
SLIDE 35

Ac#ve ¡Learning ¡for ¡Terrain ¡Mapping ¡

slide-36
SLIDE 36

When ¡does ¡ac#ve ¡learning ¡work? ¡

Passive = Active

Active learning is useful if complexity of target function is localized – labels of some data points are more informative than others.

Passive Active [Castro et al.,’05] 1-D 2-D

slide-37
SLIDE 37

Ac#ve ¡vs. ¡Semi-­‑Supervised ¡

uncertainty sampling

query instances the model is least confident about

query-by-committee (QBC)

use ensembles to rapidly reduce the version space

Generative model expectation-maximization (EM)

propagate confident labelings among unlabeled data

co-training multi-view learning

use ensembles with multiple views to constrain the version space

both ¡try ¡to ¡a<ack ¡the ¡same ¡problem: ¡making ¡the ¡most ¡of ¡unlabeled ¡ data ¡U

slide-38
SLIDE 38

Problem: ¡Outliers ¡

  • an ¡instance ¡may ¡be ¡uncertain ¡or ¡controversial ¡

(for ¡QBC) ¡simply ¡because ¡it’s ¡an ¡outlier ¡ ¡

  • querying ¡outliers ¡is ¡not ¡likely ¡to ¡help ¡us ¡reduce ¡

error ¡on ¡more ¡typical ¡data ¡

slide-39
SLIDE 39

Solu#on ¡1: ¡Density ¡Weigh#ng ¡

  • weight ¡the ¡uncertainty ¡(“informaFveness”) ¡of ¡an ¡

instance ¡by ¡its ¡density ¡w.r.t. ¡the ¡pool ¡U ¡ ¡

[Settles & Craven, EMNLP’08] density term

[McCallum & Nigam, ICML’98; Nguyen & Smeulders, ICML’04; Xu et al., ECIR’07]

  • use ¡U ¡to ¡esFmate ¡P(x) ¡and ¡avoid ¡outliers ¡

“base” informativeness

slide-40
SLIDE 40

Solu#on ¡2: ¡Es#mated ¡Error ¡Reduc#on ¡

  • minimize ¡the ¡risk ¡R(x) ¡of ¡a ¡query ¡candidate ¡

– expected ¡uncertainty ¡over ¡U ¡if ¡x ¡is ¡added ¡to ¡L

[Roy & McCallum, ICML’01; Zhu et al., ICML-WS’03] sum over unlabeled instances uncertainty of u after retraining with x expectation over possible labelings of x

slide-41
SLIDE 41

Text ¡Classifica#on ¡Examples ¡

[Roy & McCallum, ICML’01]

slide-42
SLIDE 42

Text ¡Classifica#on ¡Examples ¡

[Roy & McCallum, ICML’01]

slide-43
SLIDE 43

Ac#ve ¡Learning ¡Scenarios ¡

Query synthesis: construct desired query/questions Stream-based selective sampling: unlabeled data presented in a stream, decide whether or not to query its label Pool-based active learning: given a pool of unlabeled data, select one and query its label

slide-44
SLIDE 44

Alternate ¡Se]ngs ¡

So ¡far ¡we ¡focused ¡on ¡querying ¡labels ¡for ¡unlabeled ¡data. ¡ ¡

¡

Other ¡query ¡types: ¡ Ac#ve ¡feature ¡acquisi#on ¡– ¡deciding ¡whether ¡or ¡not ¡to ¡obtain ¡a ¡parFcular ¡ feature, ¡e.g. ¡features ¡such ¡as ¡gene ¡expressions ¡might ¡be ¡correlated. ¡ Mul#ple ¡Instance ¡ac#ve ¡learning ¡ ¡-­‑ ¡one ¡label ¡for ¡a ¡bag ¡of ¡instances, ¡e.g. ¡label ¡

for ¡a ¡document ¡(bag ¡of ¡instances) ¡but ¡can ¡query ¡passages ¡(instance) ¡– ¡coarse-­‑scale ¡labels ¡are ¡ cheaper ¡

¡ Other ¡sefngs: ¡ Cost-­‑sensi#ve ¡ac#ve ¡learning ¡– ¡some ¡labels ¡may ¡be ¡more ¡expensive ¡than ¡

  • thers, ¡e.g. ¡collecFng ¡paFent ¡vitals ¡vs. ¡complex ¡and ¡expensive ¡medical ¡procedures ¡for ¡
  • diagnosis. ¡

Mul#-­‑task ¡ac#ve ¡learning ¡– ¡if ¡each ¡label ¡provides ¡informaFon ¡for ¡mulFple ¡ tasks, ¡which ¡instances ¡should ¡be ¡queried ¡so ¡as ¡to ¡be ¡maximally ¡ informaFve ¡across ¡all ¡tasks, ¡e.g. ¡an ¡image ¡can ¡be ¡labeled ¡as ¡art/photo, ¡nature/

man-­‑made ¡objects, ¡contains ¡a ¡face ¡or ¡not. ¡

slide-45
SLIDE 45

Ac#ve ¡Learning ¡Summary ¡

  • Binary ¡bisecFon ¡
  • Uncertainty ¡sampling ¡
  • Query-­‑by-­‑commiKee ¡
  • Density ¡WeighFng ¡
  • EsFmated ¡Error ¡ReducFon ¡
  • Extensions ¡– ¡AcFve ¡Feature ¡acquisiFon, ¡MulFple-­‑instance ¡acFve ¡

learning, ¡Cost-­‑sensiFve ¡acFve ¡learning, ¡MulF-­‑task ¡acFve ¡learning ¡ Active learning is a powerful tool if complexity of target function is localized – labels of some data points are more informative than others.