�������� ���������������� � ���������������������� ����������������������������� � ���������������������������������� � ����������������������������������� ������������ � ����������������������������������� � �������������������������� � ���������������������� Data Mining Lecture 4: Classification 2 2 ����������������������������������� ������������� � �� ����������������� ���!��"��� 0�$��(� # ��1�2� 3 +�4+�� � 5 &!��� � � 16� �3 +�4+�� �! 7 # ��$������!�������!�� ���������������������������� # �����������!������������ 2� 3 +�� 8 +�4+�� ! 5 # ������� ��1�2� 3 +�4.+�� � 5 � %��!��� ������ �����������������������������!�� ��������� �� ������������������� �� ������������������ �������&��!���&!��!��������� &��!������!��!�� � '�������������������������&��!��������������� # %��!��������������������������&��!����������+�� � �����&��!�$�����������!������������ # %��!����������������&��!� ���������&!��!�������� � ��������������������� ����� � ���� ����!�������������!�&��!��������������� # %��!����������������������&��!��������+�� 9 � �������!��(�)���*�+�'�,+��-./+����� Data Mining Lecture 4: Classification 2 3 Data Mining Lecture 4: Classification 2 4 ���� ��������������������� !����������� ������������������� categorical categorical continuous categorical categorical continuous class class Single, MarSt Splitting Attributes Married Divorced Tid Refund Marital Taxable Tid Refund Marital Taxable Status Income Cheat Status Income Cheat NO Refund 1 Yes Single 125K No 1 Yes Single 125K No No Refund Yes 2 No Married 100K No 2 No Married 100K No Yes No NO 3 No Single 70K No 3 No Single 70K No TaxInc NO MarSt 4 Yes Married 120K No 4 Yes Married 120K No < 80K > 80K Married Single, Divorced 5 No Divorced 95K Yes 5 No Divorced 95K Yes NO YES 6 No Married 60K No 6 No Married 60K No TaxInc NO 7 Yes Divorced 220K No 7 Yes Divorced 220K No < 80K > 80K 8 No Single 85K Yes 8 No Single 85K Yes NO YES There could be more than one tree 9 No Married 75K No 9 No Married 75K No that fits the same data! 10 No Single 90K 10 No Single 90K Yes Yes 1 0 1 0 Training Data Model: Decision Tree Data Mining Lecture 4: Classification 2 5 Data Mining Lecture 4: Classification 2 6 1
��������������������������������" ! �#�$�%��������������� Tree Start from the root of tree. Tid Attrib1 Attrib2 Attrib3 Class Refund Marital Taxable Induction 1 Yes Large 125K No Cheat Status Income algorithm 2 No Medium 100K No 3 No Small 70K No No Married 80K ? 4 Yes Medium 120K No Induction Refund 1 0 Yes 5 No Large 95K Test Data Yes No 6 No Medium 60K No Learn 7 Yes Large 220K No Model 8 No Small 85K Yes NO MarSt 9 No Medium 75K No 10 No Small 90K Yes Married Single, Divorced 0 1 Model Training Set Decision Apply TaxInc NO Tree Model Tid Attrib1 Attrib2 Attrib3 Class < 80K > 80K 11 No Small 55K ? 12 Yes Medium 80K ? Deduction 13 Yes Large 110K ? NO YES 14 No Small 95K ? 15 No Large 67K ? 1 0 Test Set Data Mining Lecture 4: Classification 2 7 Data Mining Lecture 4: Classification 2 8 ! �#�$�%��������������� ! �#�$�%��������������� Refund Marital Taxable Refund Marital Taxable Cheat Cheat Status Income Status Income ? ? No Married 80K No Married 80K Refund Refund 0 1 1 0 Test Data Test Data Yes No Yes No NO MarSt NO MarSt Single, Divorced Married Single, Divorced Married TaxInc NO TaxInc NO < 80K > 80K < 80K > 80K NO YES NO YES Data Mining Lecture 4: Classification 2 9 Data Mining Lecture 4: Classification 2 10 ! �#�$�%��������������� ! �#�$�%��������������� Refund Marital Taxable Refund Marital Taxable Status Income Cheat Status Income Cheat No Married 80K ? No Married 80K ? Refund Refund 1 0 1 0 Test Data Test Data Yes No Yes No NO MarSt NO MarSt Single, Divorced Married Single, Divorced Married TaxInc NO TaxInc NO < 80K > 80K < 80K > 80K NO YES NO YES Data Mining Lecture 4: Classification 2 11 Data Mining Lecture 4: Classification 2 12 2
Recommend
More recommend