Minimal Cost Complexity Pruning of Meta-Classifiers Andreas L. - PowerPoint PPT Presentation

Minimal Cost Complexity Pruning of Meta-Classifiers Andreas L. Prodromidis Salvatore J. Stolfo Department of Computer Science Columbia University

Combining multiple models Learning Algorithm Classifier-1 Learning Training Classifier-2 Meta-learning Meta-Classifier Algorithm data set Classifier-3 Learning Algorithm

Meta-learning Learning Training 1 1 2 Classifier Predictions Algorithm Data C 1 =L 1 (D 1 ) C 1 (D) L 1 D 1 2 3 Validation Data 2 D Training Learning 1 Classifier 1 Predictions Data Algorithm C 2 =L 2 (D 2 ) 2 3 C 2 (D) D 2 L 2 3 Meta Meta-learning 4 4 Meta-level Classificr Algorithm Training MC=ML(C 1 ,C 2 ) ML Data

A meta-learning training set example Validation set CID InputT ype Am t … T rue Class 54341 Swipe 19.72 … Legitimate 54432 KeyIn 88.19 … Fraudulent 54101 Phone 11.99 … Legitimate … … … … … Meta-level training set - Stacking (Wolpert-92) Classifier-1 Classifier-2 Classifier-3 … True Class Legitimate Legitimate Legitimate ... Legitimate Legitimate Fraudulent Legitimate … Fraudulent Fraudulent Fraudulent Legitimate … Legitimate … … … … …

Meta-Classifying Classifier C 1 C 1 (x) x Meta MC(C 1 (x),C 2 (x),C 3 (x)) x C 2 (x) Classifier Testing Classificr Predictions C 2 (unclassified) MC x Data C 3 (x) Classifier C 3

Decision tree meta-classifier CART classifier Fraud? Bayes classifier Legitimate? Fraud? Ripper ID3 classifier Legitimate? classifier CART classifier

Efficiency • Compute base classifiers in parallel • Compute “small” meta-classifiers – to reduce memory requirements – to produce fast classifications • Pre-training pruning – filter before meta-learning (NIT’98, KDD’98-DDM) • Post-training pruning – discard after meta-learning (Prodromidis-et-al-98)

A graphical description Map arbitrary meta-classifier to a decision tree representation Prune the decision tree model Map pruned decision tree to original meta-classifier representation (Mapping via modeling of the meta-classifier’s behavior)

Post-training pruning Classifier-7 Classifier-6 Classifier-3 Classifier-1 Classifier-5 Classifier-3 • Minimal cost complexity pruning (Breiman-et-al-84) – R(T): misclassification cost of a decision tree T – C(T): complexity of tree (= number of terminal nodes) – α : complexity parameter • Seek to minimize R α (T), R α (T) = R(T) + α · C(T)

Decision tree model (unpruned) Complexity=0.5 Complexity=0.92 Complexity=1.7 Complexity=2.8 Complexity=3.52 Complexity=3.61 Complexity=3.99 Complexity=5.0 Complexity=7.84 Complexity=10.5 R α (T) = R(T) + α · C(T)

Decision tree model (pruned) Complexity=3.61 Complexity=3.99 Complexity=5.0 Complexity=7.84 Complexity=10.5 R α (T) = R(T) + α · C(T)

Decision tree modeling of meta-classifiers Meta-Classificr Predictions Meta-level Training Classifiers Data Decision Tree Meta-Classificr Decision Tree Classifiers Learning Algorithm Decision Tree (e.g. CART) Training Data

Final pruned meta-classifier Decision Tree Meta-Classificr Meta-Classificr Classifiers Meta-level Training Classifiers Data Original Meta-Learning Algorithm

Credit Card Fraud detection • Chase Credit Card data – 500,000 transaction records – 30 attributes (numerical, categorical) in 137 bytes per record – 20% fraud, 80% non fraud • First Union Credit Card data – 500,000 transaction records – 28 attributes (numerical categorical) in 137 bytes per record – 15% fraud, 85% non fraud • Attributes – Hashed credit card account number, date, time, type of entry of transaction, type of merchant, amount, validity codes, past payment information, account information, confidential fields, etc. – The fraud label

Experimental setting • Divide data sets in 12 subsets at 6 sites • Five learning algorithms – Naïve Bayes, C4.5, CART, ID3, Ripper • Exchange classifiers – 10 local, 50 remote per site • Meta-learn only the remote classifiers

Meta-learning results Type of Chase data Classification Size Accuracy TP-FP Savings model Maximum savings: Best over a 1 88.5% 0.551 $ 812K single subset $1,470K Best over largest 1 88.8% 0.568 $ 840K possible subset 50 89.6% 0.621 $ 818K Met a-classifier Chase's COTS -- 85.7% 0.523 $ 682K system Type of First Union data Classification Size Accuracy TP-FP Savings model Maximum savings: Best over a 1 95.2% 0.749 $ 806K $1,085K single subset Best over largest 1 95.3% 0.787 $ 828K possible subset 50 96.5% 0.831 $ 944K Meta-classifier

Pruning results

More information • About the paper – http://www.cs.columbia.edu/~andreas • About the JAM project – http://www.cs.columbia.edu/~sal/JAM/PROJECT • E-mail contact – andreas@cs.columbia.edu

Minimal Cost Complexity Pruning of Meta-Classifiers Andreas L. - PowerPoint PPT Presentation

Minimal Cost Complexity Pruning of Meta-Classifiers Andreas L. Prodromidis Salvatore J. Stolfo Department of Computer Science Columbia University Combining multiple models Learning Algorithm Classifier-1 Learning Training Classifier-2

Natural Target Pruning Making Proper Pruning Cuts Natural Target Pruning In this lesson we

BASICS Natural Target Pruning Terminology and Tools Reasons for Pruning Fruit Trees

Nonlinear Classifiers II 2 Nonlinear Classifiers: Introduction Classifiers Supervised

Pruning for Cropload Management and Productivity 2013 Winter Pruning Workshop Dr. Mercy

Meta- Meta -Programming with Programming with Modelica Modelica for Meta- for Meta

EigenDamage: Structured Pruning in the Kronecker-Factored Eigenbasis Chaoqi Wang , Roger Grosse,

Cognitive Modeling Unseen Examples 2 Bayes Classifiers Lecture 14: Naive Bayes Classifiers

Coarse Classification of Binary Minimal Clones Zarathustra Brady Minimal clones A clone C is

What is the State of Neural Network Pruning? Davis Blalock* Jose Javier Gonzalez* Jonathan

Fusion of Continuous Output Classifiers Classifiers Jacob Hays Amit Pillay James DeFelice

Machine Learning Nave Bayes classifiers Types of classifiers We can divide the large

Occasion-level Classifiers or Event-level Classifiers? -Evidence from Child Language Acquisition

CS440/ECE448 Lecture 22: Including Slides by Svetlana Lazebnik, 10/2016 Linear Classifiers

Holdout and Cross- -Validation Validation Holdout and Cross Methods Overfitting Avoidance

Berries, Grapes and Kiwi Pruning Blueberries Prune to an open vase shape, leaving 4 to 6

ENVIRONMENT STANDING COMMITTEE 18 September 2017 Street Trees & Pruning Requests Criteria

Adversarial Search Problem: minimax takes too long. Solution: improve algorithm to ignore

Multilevel Coarse-to-Fine PCFG Parsing Eugene Charniak, Mark Johnson, Micha Elsner, Joseph

Properties of - //the leaf node (terminal state) ) 9 ( The - algorithm //the leaf

"[An article about computational science in a scientific publication is not the

Summary of Search Strategies Strategy Frontier Selection Halts? Space Depth-first Last node

Linking and Building Ontologies of Linked Data Rahul Parundekar, Craig A. Knoblock and Jose-Luis

Data Mining Practical Machine Learning Tools and Techniques Slides for Chapter 6 of Data Mining by

Example: Age, Income and Owning a flat 250 Training set

Minimal Cost Complexity Pruning of Meta-Classifiers Andreas L. - PowerPoint PPT Presentation

Minimal Cost Complexity Pruning of Meta-Classifiers Andreas L. Prodromidis Salvatore J. Stolfo Department of Computer Science Columbia University Combining multiple models Learning Algorithm Classifier-1 Learning Training Classifier-2

Natural Target Pruning Making Proper Pruning Cuts Natural Target Pruning In this lesson we

BASICS Natural Target Pruning Terminology and Tools Reasons for Pruning Fruit Trees

Nonlinear Classifiers II 2 Nonlinear Classifiers: Introduction Classifiers Supervised

Pruning for Cropload Management and Productivity 2013 Winter Pruning Workshop Dr. Mercy

Meta- Meta -Programming with Programming with Modelica Modelica for Meta- for Meta

EigenDamage: Structured Pruning in the Kronecker-Factored Eigenbasis Chaoqi Wang , Roger Grosse,

Cognitive Modeling Unseen Examples 2 Bayes Classifiers Lecture 14: Naive Bayes Classifiers

Coarse Classification of Binary Minimal Clones Zarathustra Brady Minimal clones A clone C is

What is the State of Neural Network Pruning? Davis Blalock* Jose Javier Gonzalez* Jonathan

Fusion of Continuous Output Classifiers Classifiers Jacob Hays Amit Pillay James DeFelice

Machine Learning Nave Bayes classifiers Types of classifiers We can divide the large

Occasion-level Classifiers or Event-level Classifiers? -Evidence from Child Language Acquisition

CS440/ECE448 Lecture 22: Including Slides by Svetlana Lazebnik, 10/2016 Linear Classifiers

Holdout and Cross- -Validation Validation Holdout and Cross Methods Overfitting Avoidance

Berries, Grapes and Kiwi Pruning Blueberries Prune to an open vase shape, leaving 4 to 6

ENVIRONMENT STANDING COMMITTEE 18 September 2017 Street Trees &amp; Pruning Requests Criteria

Adversarial Search Problem: minimax takes too long. Solution: improve algorithm to ignore

Multilevel Coarse-to-Fine PCFG Parsing Eugene Charniak, Mark Johnson, Micha Elsner, Joseph

Properties of - //the leaf node (terminal state) ) 9 ( The - algorithm //the leaf

&quot;[An article about computational science in a scientific publication is not the

Summary of Search Strategies Strategy Frontier Selection Halts? Space Depth-first Last node

Linking and Building Ontologies of Linked Data Rahul Parundekar, Craig A. Knoblock and Jose-Luis

Data Mining Practical Machine Learning Tools and Techniques Slides for Chapter 6 of Data Mining by

Example: Age, Income and Owning a flat 250 Training set

ENVIRONMENT STANDING COMMITTEE 18 September 2017 Street Trees & Pruning Requests Criteria

"[An article about computational science in a scientific publication is not the