Supervised Learning Regression, Classifica6on Linear - - PowerPoint PPT Presentation

supervised learning
SMART_READER_LITE
LIVE PREVIEW

Supervised Learning Regression, Classifica6on Linear - - PowerPoint PPT Presentation

Supervised Learning Regression, Classifica6on Linear regression, k- NN classifica6on Debapriyo Majumdar Data Mining Fall 2014 Indian Statistical Institute Kolkata August 11, 2014 An Example:


slide-1
SLIDE 1

Supervised ¡Learning ¡

¡

Regression, ¡Classifica6on ¡ Linear ¡regression, ¡k-­‑NN ¡classifica6on ¡

Debapriyo Majumdar Data Mining – Fall 2014 Indian Statistical Institute Kolkata

August 11, 2014

slide-2
SLIDE 2

An ¡Example: ¡Size ¡of ¡Engine ¡vs ¡Power ¡

2 ¡

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡ 100 ¡ 120 ¡ 140 ¡ 160 ¡ 180 ¡ 200 ¡ 0 ¡ 500 ¡ 1000 ¡ 1500 ¡ 2000 ¡ 2500 ¡

Engine ¡displacement ¡(cc) ¡ Power ¡(bhp) ¡

§ An unknown car has an engine of size 1800cc. What is likely to be the power of the engine?

slide-3
SLIDE 3

An ¡Example: ¡Size ¡of ¡Engine ¡vs ¡Power ¡

3 ¡

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡ 100 ¡ 120 ¡ 140 ¡ 160 ¡ 180 ¡ 200 ¡ 0 ¡ 500 ¡ 1000 ¡ 1500 ¡ 2000 ¡ 2500 ¡

Engine ¡displacement ¡(cc) ¡ Power ¡(bhp) ¡

§ Intuitively, the two variables have a relation § Learn the relation from the given data § Predict the target variable after learning

Target ¡ Variable ¡

slide-4
SLIDE 4

Exercise: ¡on ¡a ¡simpler ¡set ¡of ¡data ¡points ¡

§ Predict y for x = 2.5

4 ¡

0 ¡ 2 ¡ 4 ¡ 6 ¡ 8 ¡ 10 ¡ 12 ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡

y ¡ x ¡

x ¡ y ¡ 1 ¡ 1 ¡ 2 ¡ 3 ¡ 3 ¡ 7 ¡ 4 ¡ 10 ¡ 2.5 ¡ ? ¡

slide-5
SLIDE 5

Linear ¡Regression ¡

5 ¡

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡ 100 ¡ 120 ¡ 140 ¡ 160 ¡ 180 ¡ 200 ¡ 0 ¡ 500 ¡ 1000 ¡ 1500 ¡ 2000 ¡ 2500 ¡

Engine ¡displacement ¡(cc) ¡ Power ¡(bhp) ¡

§ Assume: the relation is linear § Then for a given x (=1800), predict the value of y Training ¡set ¡

slide-6
SLIDE 6

Linear ¡Regression ¡

6 ¡

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡ 100 ¡ 120 ¡ 140 ¡ 160 ¡ 180 ¡ 200 ¡ 0 ¡ 500 ¡ 1000 ¡ 1500 ¡ 2000 ¡ 2500 ¡

Engine ¡displacement ¡(cc) ¡ Power ¡(bhp) ¡

§ Linear regression § Assume y = a . x + b § Try to find suitable a and b

Op-onal ¡exercise ¡

Engine ¡ (cc) ¡ Power ¡ (bhp) ¡ 800 ¡ 60 ¡ 1000 ¡ 90 ¡ 1200 ¡ 80 ¡ 1200 ¡ 100 ¡ 1200 ¡ 75 ¡ 1400 ¡ 90 ¡ 1500 ¡ 120 ¡ 1800 ¡ 160 ¡ 2000 ¡ 140 ¡ 2000 ¡ 170 ¡ 2400 ¡ 180 ¡

slide-7
SLIDE 7

Exercise: ¡using ¡Linear ¡Regression ¡

§ Define a regression line of your choice § Predict y for x = 2.5

7 ¡

0 ¡ 2 ¡ 4 ¡ 6 ¡ 8 ¡ 10 ¡ 12 ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡

y ¡ x ¡

x ¡ y ¡ 1 ¡ 1 ¡ 2 ¡ 3 ¡ 3 ¡ 7 ¡ 4 ¡ 10 ¡ 2.5 ¡ ? ¡

slide-8
SLIDE 8

Choosing ¡the ¡parameters ¡right ¡

§ The data points: (x1, y1), (x2, y2), … , (xm, ym) § The regression line: f(x) = y = a . x + b § Least-square cost function: J = Σi ( f(xi) – yi )2 § Goal: minimize J over choices of a and b

8 ¡

0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 0 ¡ 500 ¡ 1000 ¡ 1500 ¡ 2000 ¡ 2500 ¡

x ¡ y ¡ ¡

Goal: minimizing the deviation from the actual data points

slide-9
SLIDE 9

How ¡to ¡Minimize ¡the ¡Cost ¡Func6on? ¡

§ Goal: minimize J for all values of a and b § Start from some a = a0 and b = b0 § Compute: J(a0,b0) § Simultaneously change a and b towards the negative gradient and eventually hope to arrive an optimal § Question: Can there be more than one optimal?

9 ¡

a b

Δ ¡

slide-10
SLIDE 10

Another ¡example: ¡ ¡

§ Given that a person’s age is 24, predict if (s)he has high blood sugar § Discrete values of the target variable (Y / N) § Many ways of approaching this problem

10 ¡

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡

High ¡blood ¡sugar ¡ N ¡ Y ¡ Age ¡

Training ¡set ¡

slide-11
SLIDE 11

Classifica6on ¡problem ¡

§ One approach: what other data points are nearest to the new point? § Other approaches?

11 ¡

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡

High ¡blood ¡sugar ¡ N ¡ Y ¡ Age ¡ 24 ¡

slide-12
SLIDE 12

Classifica6on ¡Algorithms ¡

§ The k-nearest neighbor classification § Naïve Bayes classification § Decision Tree § Linear Discriminant Analysis § Logistics Regression § Support Vector Machine

12 ¡

slide-13
SLIDE 13

Classifica6on ¡or ¡Regression? ¡

Given data about some cars: engine size, number of seats, petrol / diesel, has airbag or not, price § Problem 1: Given engine size of a new car, what is likely to be the price? § Problem 2: Given the engine size of a new car, is it likely that the car is run by petrol? § Problem 3: Given the engine size, is it likely that the car has airbags?

13 ¡

slide-14
SLIDE 14

Classifica6on ¡

slide-15
SLIDE 15

Example: ¡Age, ¡Income ¡and ¡Owning ¡a ¡flat ¡

15 ¡

0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡

Monthly ¡income ¡ (thousand ¡rupees) ¡ Age ¡ Training ¡set ¡

  • Owns ¡a ¡

flat ¡

  • Does ¡

not ¡own ¡ a ¡flat ¡

§ Given a new person’s age and income, predict – does (s)he own a flat?

slide-16
SLIDE 16

Example: ¡Age, ¡Income ¡and ¡Owning ¡a ¡flat ¡

16 ¡

0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡

Monthly ¡income ¡ (thousand ¡rupees) ¡ Age ¡

§ Nearest neighbor approach § Find nearest neighbors among the known data points and check their labels

Training ¡set ¡

  • Owns ¡a ¡

flat ¡

  • Does ¡

not ¡own ¡ a ¡flat ¡

slide-17
SLIDE 17

Example: ¡Age, ¡Income ¡and ¡Owning ¡a ¡flat ¡

17 ¡

0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡

Monthly ¡income ¡ (thousand ¡rupees) ¡ Age ¡

§ The 1-Nearest Neighbor (1-NN) Algorithm:

– Find the closest point in the training set – Output the label of the nearest neighbor

Training ¡set ¡

  • Owns ¡a ¡

flat ¡

  • Does ¡

not ¡own ¡ a ¡flat ¡

slide-18
SLIDE 18

The ¡k-­‑Nearest ¡Neighbor ¡Algorithm ¡

18 ¡

0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡

Monthly ¡income ¡ (thousand ¡rupees) ¡ Age ¡

§ The k-Nearest Neighbor (k-NN) Algorithm:

– Find the closest k point in the training set – Majority vote among the labels of the k points

Training ¡set ¡

  • Owns ¡a ¡

flat ¡

  • Does ¡

not ¡own ¡ a ¡flat ¡

slide-19
SLIDE 19

Distance ¡measures ¡

§ How to measure distance to find closest points? § Euclidean: Distance between vectors x = (x1, … , xk) and y = (y1, … , yk)

19 ¡

§ Manhattan distance: § Generalized squared interpoint distance: S is the covariance matrix The ¡Maholanobis ¡distance ¡(1936) ¡

slide-20
SLIDE 20

Classifica6on ¡setup ¡

20 ¡

§ Training data / set: set of input data points and given answers for the data points § Labels: the list of possible answers § Test data / set: inputs to the classification algorithm for finding labels

– Used for evaluating the algorithm in case the answers are known (but known to the algorithm)

§ Classification task: Determining labels of the data points for which the label is not known or not passed to the algorithm § Features: attributes that represent the data

slide-21
SLIDE 21

Evalua6on ¡

§ Test set accuracy: the correct performance measure § Accuracy = #of correct answer / #of all answers § Need to know the true test labels

– Option: use training set itself – Parameter selection (for k-NN) by accuracy on training set

§ Overfitting: a classifier performs too good on training set compared to new (unlabeled) test data

21 ¡

slide-22
SLIDE 22

Be^er ¡valida6on ¡methods ¡

§ Leave one out:

– For each training data point x of training set D – Construct training set D – x, test set {x} – Train on D – x, test on x – Overall accuracy = average over all such cases – Expensive to compute

§ Hold out set:

– Randomly choose x% (say 25-30%) of the training data, set aside as test set – Train on the rest of training data, test on the test set – Easy to compute, but tends to have higher variance

22 ¡

slide-23
SLIDE 23

The ¡k-­‑fold ¡Cross ¡Valida6on ¡Method ¡

§ Randomly divide the training data into k partitions D1,…, Dk : possibly equal division § For each fold Di

– Train a classifier with training data = D – Di – Test and validate with Di

§ Overall accuracy: average accuracy over all cases

23 ¡

slide-24
SLIDE 24

References ¡

§ Lecture videos by Prof. Andrew Ng, Stanford University Available on Coursera (Course: Machine Learning)

§ Data Mining Map: http://www.saedsayad.com/

24 ¡