Data Mining 2019 Classification Trees (1)
Ad Feelders
Universiteit Utrecht
Ad Feelders ( Universiteit Utrecht ) Data Mining 1 / 45
Data Mining 2019 Classification Trees (1) Ad Feelders Universiteit - - PowerPoint PPT Presentation
Data Mining 2019 Classification Trees (1) Ad Feelders Universiteit Utrecht Ad Feelders ( Universiteit Utrecht ) Data Mining 1 / 45 Modeling: Data Mining Tasks Classification / Regression Dependency Modeling (Graphical Models; Bayesian
Ad Feelders ( Universiteit Utrecht ) Data Mining 1 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 2 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 3 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 4 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 5 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 6 / 45
1…10
7,8,9
1…6,10
2,6,10
1,3,4,5
6,10
2 income > 36,000 income 36,000 age > 37 age 37 married not married
Ad Feelders ( Universiteit Utrecht ) Data Mining 7 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 8 / 45
30 40 50 60 30 40 50 bad bad bad bad bad good good good good good
Ad Feelders ( Universiteit Utrecht ) Data Mining 9 / 45
1…10
2,5,6,9,10 gender = male gender = female
1,3,4,7,8
Ad Feelders ( Universiteit Utrecht ) Data Mining 10 / 45
1…10
2,5,6,9,10 gender = male gender = female
1,3,4,7,8
Ad Feelders ( Universiteit Utrecht ) Data Mining 10 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 11 / 45
1 Should be at a maximum when the observations are distributed evenly
2 Should be at a minimum when all observations belong to a single
3 Should be a symmetric function of p1, . . . , pJ. Ad Feelders ( Universiteit Utrecht ) Data Mining 12 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 13 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 14 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 15 / 45
i = 0
i = 1/3
i = 0
i = 0
i = 0
Ad Feelders ( Universiteit Utrecht ) Data Mining 16 / 45
p(0) 1-max(p(0),1-p(0)) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 Ad Feelders ( Universiteit Utrecht ) Data Mining 17 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 18 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 18 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 19 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 20 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 20 / 45
1 φ(0) = φ(1) = 0 (minimum at p(0) = 0 and p(0) = 1) 2 φ(p(0)) = φ(1 − p(0)) (symmetric) 3 φ′′(p(0)) < 0, 0 < p(0) < 1 (strictly concave) Ad Feelders ( Universiteit Utrecht ) Data Mining 21 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 22 / 45
i = 0
i = 0
i = 0
i = 0
Ad Feelders ( Universiteit Utrecht ) Data Mining 23 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 24 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 25 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 26 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 27 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 28 / 45
p(0) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Ad Feelders ( Universiteit Utrecht ) Data Mining 29 / 45
1 Each split depends on the value of only a single attribute. 2 If attribute x is numeric, we consider all splits of type x ≤ c where c
3 If attribute x is categorical, taking values in {b1, b2, . . . , bL}, we
Ad Feelders ( Universiteit Utrecht ) Data Mining 30 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 31 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 32 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 32 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 33 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 34 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 35 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 36 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 37 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 38 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 39 / 45
L = a1 + ℓp1
Ad Feelders ( Universiteit Utrecht ) Data Mining 40 / 45
N ):
Ad Feelders ( Universiteit Utrecht ) Data Mining 41 / 45
1 By symmetry, the contribution of the right child to the weighted
2 Hence, it attains its minimum for ℓ = 0, or ℓ = b (i.e. at the segment
3 This result is true for arbitrary concave impurity measures (e.g.
Ad Feelders ( Universiteit Utrecht ) Data Mining 42 / 45
10 20 30 40 50 60 0.21 0.22 0.23 0.24 0.25 gini−index
Ad Feelders ( Universiteit Utrecht ) Data Mining 43 / 45
1 In the first practical assignment we use the parameters
2 A split is not allowed to produce a child node with
3 The segment borders algorithm doesn’t combine very well
4 Better use the “brute force” approach in the assignment. Ad Feelders ( Universiteit Utrecht ) Data Mining 44 / 45
Ad Feelders ( Universiteit Utrecht ) Data Mining 45 / 45