������������������ �������������������������� � ����������������������������������������������������� ����������������������� ⇒ � ������ � $�������%�&'��( � ������������������������������������������� � �����������%�&'�)�( � ��������������������� → �������������� → ������ ������������������������������ � ��������%�&'��("&'�(&'�( � �����������$��������%�&'�(&'*�("&'�*�( � ����������������������������!���������������"���#� �������������������� � ������������������������������������������������� ����������������������������������������������� Data Mining: Association Rules 46 Data Mining: Association Rules 47 ��������������������������������� ���������������������� � +������������,� → -������������������������������������� ��������������������!���!����������������������������!�� ������ ������ .�� 14 4 60 Contingency table for X → Y .�� 54 4 30 - -� 20 10 100 f 11 : support of X and Y , � 11 � 10 � 1/ f 10 : support of X and Y ���������������������� → ������ ,� � 01 � 00 � �/ f 01 : support of X and Y � /1 � /0 ).) f 00 : support of X and Y �������������������������������� Used to define various measures ������������������� ⇒ ��������������������������� �!�������"��������� � support, confidence, lift, Gini, J-measure, etc. ⇒ �������������������#�� Data Mining: Association Rules 48 Data Mining: Association Rules 49 ����������������������������������� ����������������������������������������� ! 78������19�'�����:�����-������������&;�$23( 78������69 X 1 1 1 1 0 0 0 0 � ������1000��������� � ,�����-9���������������������� � <00������!��#��!��� � ,�����C9������������������� Y 1 1 0 0 0 0 0 0 � 540����������� � =00�!���������!��#��!������������������ � �������������������������� Z 0 1 1 1 1 1 1 1 � �����!��#��!��� ⇒ ���������� >=0?��<<@5?A ��������������!����������� ,� ⇒ C���������� ������������������������������������������������54?�:��������������� �����<<@5?@ D�������������������� � �����!��#��!��� ⇒ �������������� >60?��BB@B?A ���������������������� ������������������������ ���������:������:������������������������� Rule Support Confidence ∪ P ( A B ) X=>Y 25% 50% = basketball not basketball sum(row) corr B A , X=>Z 37.50% 75% P ( A ) P ( B ) cereal 400 350 750 not cereal 200 50 250 &'�)�("&'�(������������������������ ���������� ⇒ ⇒ � ⇒ ⇒ sum(col.) 600 400 1000 Data Mining: Association Rules 50 Data Mining: Association Rules 51
������������������������ "�#���������������������������$��������� � &�������������1000��������� ∧ � ��������'�����������������( ( ) P A B � <00����������#��:���:�����:���'$( P ( A ) P ( B ) � ��#����!����&'�(�����&'�(����������������� � 500����������#��:���:����!�#��'�( � =60����������#��:���:�����:�������!�#��'$��( � &'� ∧ �(�%�&'�(E&'�(����������������������������������� � ���������������������������������������������������������1F� � &'$ ∧ �(�%�=60"1000�%�0@=6 �����:��������������������������������� � &'$(� × &'�(�%�0@<� × 0@5�%�0@=6 � &'$ ∧ �(�%�&'$(� × &'�(�%G�$����������������������� Itemset Support Interest X 1 1 1 1 0 0 0 0 � &'$ ∧ �(�G�&'$(� × &'�(�%G�&�������������������� X,Y 25% 2 Y 1 1 0 0 0 0 0 0 X,Z 37.50% 0.9 � &'$ ∧ �(�H�&'$(� × &'�(�%G�I�������������������� Z 0 1 1 1 1 1 1 1 Y,Z 12.50% 0.57 Data Mining: Association Rules 52 Data Mining: Association Rules 53 �������������������������� �%�����$�&���'�������� � D���������������#��������������������������� ������ ������ ���������� .�� 14 4 60 P ( Y | X ) .�� 54 4 30 = Lift 20 10 100 P ( Y ) ( , ) P X Y = ���������������������� → ������ Interest P ( X ) P ( Y ) = − PS P ( X , Y ) P ( X ) P ( Y ) �������������������������������� − ������������������� P ( X , Y ) P ( X ) P ( Y ) φ − = coefficien t ⇒ $����� ����%�������&###��'�( ����!���!�����������)��*������������ − − P ( X )[ 1 P ( X )] P ( Y )[ 1 P ( Y )] Data Mining: Association Rules 54 Data Mining: Association Rules 55 ������������&����(��������� ����������������)����������� >&������#�J$������A - - - - B���������������������������D�������������9 , 10 0 10 , 20 0 20 � D'���(�%�0����������������������������������������� , 0 20 20 , 0 10 10 10 20 100 20 10 100 � D'���(�������������������������:����&'���(�:���� &'�(�����&'�(����������������� 0 . 1 0 . 9 = = 10 = = Lift 1 . 11 Lift ( 0 . 1 )( 0 . 1 ) ( 0 . 9 )( 0 . 9 ) � D'���(�������������������������:����&'�(�>���&'�(A� :����&'���(�����&'�(�>���&'�(A����������������� Statistical independence: If P(X,Y)=P(X)P(Y) => Lift = 1 Data Mining: Association Rules 56 Data Mining: Association Rules 57
Recommend
More recommend