Model Combination in Multiclass Classification Sam Reid Advisors: - PowerPoint PPT Presentation

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Model Combination in Multiclass Classification Sam Reid Advisors: Mike Mozer, Greg Grudic Department of Computer Science University of Colorado at Boulder USA April 5, 2010 Sam Reid Model Combination in Multiclass Classification 1/ 76

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Multiclass Classification ◮ From examples, make multiclass predictions on unseen data. ◮ Applications in: ◮ Heartbeat arrythmia monitoring ◮ Protein structure classification ◮ Handwritten digit recognition ◮ Part of speech tagging ◮ Vehicle identification ◮ Many others... ◮ Our approach: model combination Sam Reid Model Combination in Multiclass Classification 2/ 76

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Multiclass Classification: Example Heartbeat Arrhythmia Monitoring Data Set (truncated) age gender height weight BPM QRS 274 other wave class (yrs) (cm) (kg) duration (ms) characteristics 75 m 190 80 91 63 ... Supraventricular Pre. 56 f 165 64 81 53 ... Sinus bradycardy 54 m 172 95 138 75 ... Right bundle block 55 m 175 94 100 71 ... normal 75 m 190 80 88 ? ... Ventricular Pre. 13 m 169 51 100 84 ... Left ventricule hyper. 40 f 160 52 77 70 ... normal 49 f 162 54 78 67 ... normal 44 m 168 56 84 64 ... normal 50 f 167 67 89 63 ... Right bundle block ... ... ... ... ... ... ... ... 62 m 170 72 102 70 ... ? 45 f 165 86 77 72 ... ? Sam Reid Model Combination in Multiclass Classification 3/ 76

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Model Combination ◮ Combine multiclass classifiers (e.g. KNN, Decision Trees, Random Forests) ◮ Voting ◮ Averaging ◮ Linear ◮ Nonlinear ◮ Combine binary classifiers (e.g. SVM, AdaBoost) to solve multiclass ◮ One vs. All ◮ Pairwise Classification ◮ Error Correcting Output Coding Sam Reid Model Combination in Multiclass Classification 4/ 76

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Outline Regularization in Linear Combinations of Multiclass Classifiers Background Model Experiments Model Selection in Binary Subproblems Background Experiments Discussion Probabilistic Pairwise Classification Background Our Method Experiments Sam Reid Model Combination in Multiclass Classification 5/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Outline Regularization in Linear Combinations of Multiclass Classifiers Background Model Experiments Model Selection in Binary Subproblems Background Experiments Discussion Probabilistic Pairwise Classification Background Our Method Experiments Sam Reid Model Combination in Multiclass Classification 6/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Classifier Combination ◮ Goal: optimize predictions on test data ◮ Maintain diversity without sacrificing accuracy ◮ Train many classifiers with different algorithms/hyperparameters ◮ Combine with a linear combination function ◮ Ting & Witten, 1999 ◮ Seewald, 2002 ◮ Caruana et al., 2004 Sam Reid Model Combination in Multiclass Classification 7/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Linear StackingC 1/2 ◮ Stacked Generalization ◮ Predictions on validation data are meta-training data ◮ Linear StackingC, class-conscious stacked generalization � p j ( � ˆ x ) = w ij y ij ( � x ) i =1 .. L ◮ ˆ p j ( � x ) is the predicted probability for class c j ◮ w ij is the weight corresponding to classifier y i and class c j x ) is the i th classifier’s output on class c j ◮ y ij ( � ◮ Training set = classifier predictions on unseen data + labels ◮ Determine weights using linear regression Sam Reid Model Combination in Multiclass Classification 8/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Linear StackingC 2/2 y ˆ y A ( x A ′ ) y B ( x B ′ ) y C ( x C ′ ) x ′ y 1 ( x ) y 2 ( x ) x Sam Reid Model Combination in Multiclass Classification 9/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Problems ◮ Caruana et al., 2004: “Stacking [linear] performs poorly because regression overfits dramatically when there are 2000 highly correlated input models and only 1k points in the validation set.” ◮ How can we scale up stacking to a large number of classifiers? Sam Reid Model Combination in Multiclass Classification 10/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Problems ◮ Caruana et al., 2004: “Stacking [linear] performs poorly because regression overfits dramatically when there are 2000 highly correlated input models and only 1k points in the validation set.” ◮ How can we scale up stacking to a large number of classifiers? ◮ Our hypothesis: regularized linear combiner will ◮ reduce variance & prevent overfitting on indicator subproblems ◮ increase accuracy on multiclass problem ◮ Penalty terms in our studies: ◮ Ridge Regression: L = | y − X β | 2 + λ | β | 2 ◮ Lasso Regression: L = | y − X β | 2 + λ | β | 1 ◮ Elastic Net Regression: L = | y − X β | 2 + (1 − α ) | β | 2 + α | β | 1 Sam Reid Model Combination in Multiclass Classification 10/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Thesis Statement - Part I ◮ In linear combinations of multiclass classifiers, regularization significantly improves performance. Sam Reid Model Combination in Multiclass Classification 11/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Multiclass Classification Data Sets Att . ( numeric ) Dataset Instances Classes balance-scale 4 625 3 glass 9 214 6 letter 16 4000 26 mfeat-morphological 6 2000 10 optdigits 64 5620 10 sat-image 36 6435 6 segment 19 2310 7 vehicle 18 846 4 waveform-5000 40 5000 3 yeast 8 1484 10 Sam Reid Model Combination in Multiclass Classification 12/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Algorithms ◮ About 1000 base classifiers for each problem 1. Neural Network 2. Support Vector Machine (C-SVM from LibSVM) 3. K-Nearest Neighbor 4. Decision Stump 5. Decision Tree 6. AdaBoost.M1 7. Bagging classifier 8. Random Forest (Weka) 9. Random Forest (R) Sam Reid Model Combination in Multiclass Classification 13/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Results: Average Accuracy 85.0 82.5 Accuracy (%) 80.0 77.5 75.0 72.5 70.0 67.5 r o e e t e a s t g g s e o e s a d b n v a r i i e - r l l t - - - v c g g g a e s s s l e s Sam Reid Model Combination in Multiclass Classification 14/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Statistical Analysis ◮ Ridge outperforms unregularized at p ≤ 0 . 002 ◮ Validates hypothesis: regularization improves accuracy ◮ Ridge outperforms lasso at p ≤ 0 . 0019 ◮ Dense better than sparse ◮ Voting and averaging all models not competitive Sam Reid Model Combination in Multiclass Classification 15/ 76

Regularization in Linear Combinations of Multiclass Classifiers Background Model Selection in Binary Subproblems Model Probabilistic Pairwise Classification Experiments Multiclass Accuracy ∝ Binary Accuracy 1/3 0.24 . 0.22 . 0.2 . 0.18 RMSE . 0.16 0.14 .......... 0.12 0.1 0.08 0.06 -9 -8 -7 -6 -5 -4 -3 -2 -1 2 3 10 10 10 10 10 10 10 10 10 1 10 10 10 Ridge Parameter Root mean squared error for the first (class-1) indicator subproblem in sat-image, over 10 folds of Dietterich’s 5x2 CV. Sam Reid Model Combination in Multiclass Classification 16/ 76

Model Combination in Multiclass Classification Sam Reid Advisors: - PowerPoint PPT Presentation

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Model Combination in Multiclass Classification Sam Reid Advisors: Mike Mozer, Greg Grudic Department of

Multiclass Predictions CMSC 422 M ARINE C ARPUAT marine@cs.umd.edu T opics Given an arbitrary

Lecture 7: Multiclass Classification Princeton University COS 495 Instructor: Yingyu Liang

Multiclass Boosting with Repartitioning Ling Li Learning Systems Group, Caltech ICML 2006

Multiclass Multilabel Classification with More Classes than Examples Ohad Shamir Weizmann

CSC 411: Lecture 07: Multiclass Classification Class based on Raquel Urtasun & Rich Zemels

Multiclass Classification CS 6956: Deep Learning for NLP 1 So far: Binary Classification We

Adversarial Surrogate Losses for General Multiclass Classification Rizal Zaini Ahmad Fathony

Multiclass Classification Machine Learning So far: Binary Classification We have seen linear

Perception of Average Value in Multiclass Scatterplots Michael Gleicher, Michael Correll,

Selective sampling algorithms for cost-sensitive multiclass prediction Alekh Agarwal Microsoft

MOTIVATE 1 and 2 Trials Maraviroc in Patients with Multiclass Drug Resistance MOTIVATE 1 and 2:

Multiclass object recognition Sharing parts and transfer learning Sharat Chikkerur Outline

MT System Combination Silja Hildebrand MT System Combination System Combination in MT

From Binary to Multiclass Classification CS 6355: Structured Prediction 1 We have seen binary

Multiclass and Multi-label Classification INFO-4604, Applied Machine Learning University of

Mohammad ali Bagheri Binary vs. Multiclass Classification Real word applications Class

Information Theory on Convex sets In celebration of Prof. Shunichi Amaris 80 years birthday

Performance Measures: Stochastic Optimization & Statistical Consistency Harikrishna Narasimhan

MDL and the complexity of natural language John Goldsmith University of Chicago/CNRS MoDyCo

Structured Predictions: Practical Advancements and Applications Kai-Wei Chang University of

Module 8 Professional Written Communication Module Eight: Professional Written Communication 1

ARTICLES QUANTIFIERS POSSESSIVE DEMONSTRATIVE 1 Semicolons.notebook May 02, 2020 ARTICLES

Users Manual as a Requirements Specification Daniel M. Berry, 1991, 1998, 2002, and 2003

Shuffle-compatibility for the exterior peak set Darij Grinberg (UMN) 12 July 2018 Dartmouth

Model Combination in Multiclass Classification Sam Reid Advisors: - PowerPoint PPT Presentation

Regularization in Linear Combinations of Multiclass Classifiers Model Selection in Binary Subproblems Probabilistic Pairwise Classification Model Combination in Multiclass Classification Sam Reid Advisors: Mike Mozer, Greg Grudic Department of

Multiclass Predictions CMSC 422 M ARINE C ARPUAT marine@cs.umd.edu T opics Given an arbitrary

Lecture 7: Multiclass Classification Princeton University COS 495 Instructor: Yingyu Liang

Multiclass Boosting with Repartitioning Ling Li Learning Systems Group, Caltech ICML 2006

Multiclass Multilabel Classification with More Classes than Examples Ohad Shamir Weizmann

CSC 411: Lecture 07: Multiclass Classification Class based on Raquel Urtasun &amp; Rich Zemels

Multiclass Classification CS 6956: Deep Learning for NLP 1 So far: Binary Classification We

Adversarial Surrogate Losses for General Multiclass Classification Rizal Zaini Ahmad Fathony

Multiclass Classification Machine Learning So far: Binary Classification We have seen linear

Perception of Average Value in Multiclass Scatterplots Michael Gleicher, Michael Correll,

Selective sampling algorithms for cost-sensitive multiclass prediction Alekh Agarwal Microsoft

MOTIVATE 1 and 2 Trials Maraviroc in Patients with Multiclass Drug Resistance MOTIVATE 1 and 2:

Multiclass object recognition Sharing parts and transfer learning Sharat Chikkerur Outline

MT System Combination Silja Hildebrand MT System Combination System Combination in MT

From Binary to Multiclass Classification CS 6355: Structured Prediction 1 We have seen binary

Multiclass and Multi-label Classification INFO-4604, Applied Machine Learning University of

Mohammad ali Bagheri Binary vs. Multiclass Classification Real word applications Class

Information Theory on Convex sets In celebration of Prof. Shunichi Amaris 80 years birthday

Performance Measures: Stochastic Optimization &amp; Statistical Consistency Harikrishna Narasimhan

MDL and the complexity of natural language John Goldsmith University of Chicago/CNRS MoDyCo

Structured Predictions: Practical Advancements and Applications Kai-Wei Chang University of

Module 8 Professional Written Communication Module Eight: Professional Written Communication 1

ARTICLES QUANTIFIERS POSSESSIVE DEMONSTRATIVE 1 Semicolons.notebook May 02, 2020 ARTICLES

Users Manual as a Requirements Specification Daniel M. Berry, 1991, 1998, 2002, and 2003

Shuffle-compatibility for the exterior peak set Darij Grinberg (UMN) 12 July 2018 Dartmouth

CSC 411: Lecture 07: Multiclass Classification Class based on Raquel Urtasun & Rich Zemels

Performance Measures: Stochastic Optimization & Statistical Consistency Harikrishna Narasimhan