Lecture 5: Classification and dimension reduction Felix Held, Mathematical Sciences MSA220/MVE440 Statistical Learning for Big Data 4th April 2019
Random Forests 1. Given a training sample with π features, do for π = 1, β¦ , πΆ on bootstrapped data. Note: Step 1.2.1 leads to less correlation between trees built Majority vote at π² across trees Classification: πΆ 1 π π (π²) = π Λ Regression: 2. For a new π² predict 1.2.3 Split the node 1.2.2 Find best splitting variable among these π 1.2.1 Randomly select π variables from the π available π min replacement) 1.1 Draw a bootstrap sample of size π from training data (with 1/21 1.2 Grow a tree π π until each node reaches minimal node size πΆ β π=1 π π (π²)
Comparison of RF, Bagging and CART π² βΌ π(π, π»), π² β β 5 , Toy example Training and test data were sampled from the true model. Results 2/21 π βΌ π(0, 1) π§ = π¦ 2 where 1 + π π» ππ = 1, π» ππ = 0.98, π β π for RF, bagged CART and a single CART, using π¦ 1 , β¦ , π¦ 5 as predictor variables. ( π π’π = 50 , π π’π = 100 ) β Test error 2.1 β β 1.8 β β β β β β β β β 1.5 β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β 0 100 200 300 Number of trees
Variable importance set for that particular tree, since they were not used serves as an importance measure for variable π 1 πΉ (π) 1 calculate test error again πΉ (π) 1. Impurity index: Splitting on a feature leads to a reduction during training. Resulting in test error πΉ 0 a chance of about 63% to be selected trees per feature gives a measure for variable importance of node impurity. Summing all improvements over all 3/21 2. Out-of-bag error βΆ During bootstrapping for large enough π , each sample has βΆ For bagging the remaining samples are out-of-bag . βΆ These out-of-bag samples for tree π π can be used as a test βΆ Permute variable π in the out-of-bag samples and βΆ The increase in error β πΉ 0 β₯ 0
RF applied to cardiovascular dataset Monica dataset ( http://thl.fi/monica , π = 6367 , π = 11 ) 4/21 number of cardiovascular risk factors (class ratio 1.25 alive : 1 dead) Predicting whether or not patients survive a 10 year period given a Error estimate Variable importance 0.25 β β β β β β β β β β β β β β β β β β β β β β β β β β yronset β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β stroke Type β β Type Alive Acc. smstat Alive 0.20 β Dead Acc. Dead β Outβofβbag error Mean Acc. sex β OOB Mean Gini β β premi β β β 0.15 β β β β β β β β β β β hosp β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β highbp β 0.10 β hichol β β β β β diabetes β β β β β β β 0.05 β angina β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β age β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β β 0 50 100 150 200 0 1 2 3 Number of Trees Decrease
Recommend
More recommend