1��I�C�4�����3���AE�� MA��4�A��311 Minjoon Seo 1,2* , Sewon Min 3* , Ali Farhadi 2,4,5 , Hannaneh Hajishirzi 2 1,�.3�-C�M� � ��5EAM�I�A�N��������AE���E � ��4���C�1��A�E�C�5EAM�I�A�N � �� ,CC�E��E��A�������I�,� � ��8123�,� * 0�N�������� ����E���������C���E�IA���A�E� UWNLP
����������������� ! ' ! " ! & ! $ ! % RNN RNN RNN RNN # & # $ # % # " “Intelligent” “invigorating” “and” “film”
��������A�������� • �������������������������������������������������� • ������������������� • ������������������ • �������������� • ����������������� • �������������������������� • �
2�����C:���AG� • 2�����C:���AG�A���1�� • 2��������A��7:���C���:���:� • �1����C:���AG��AA FLOP = Floating-point operations i.e. # of • �A������������A�����-01�����:FC����:�GAC�� computations • 2:�:���GAC����A�C:����:�2���( • �AA��:���)��:���A��7��:����������� • ���:7AA��������7��:�����������
1�����C�����G� • 1�����C�����G�����0�� • 1����7�����������C��������� • )0����C�����G���� • 2���������������������0������FC������G�C�� • 1�7����G�C������C����7��1���( • ����������C���:�C��C������� • ��7��������)���������-��������
���.�.��.���..-�������� • �������.����.�����.�-.������.����������������������� ���-������ • ������-.���.�����.�����.����������.����� • ���.������������������������� • �������� ���.����.�����.�������������� How can we make RNNs faster on CPUs?
.������������ • ���������:�8��9��������������������������������1������� 9���������������������������1����������������9��:����������� various levels ������1����������������1�����������)(&�� • ���������������:�9������ :������:�9���9�1����� ����,,� • Skim �������:�99�:������:�9���9�1������ • Fully read ������0���:������:�9���9�1������� Just & Carpenter. “A theory of reading: From eye fixations to comprehension.” Psychological review 87.4 (1980): 329
�����������-����������������� �������� # $ ! " “Intelligent”
�����������-����������������� �������� # $ ! " “Intelligent”
�����������-����������������� �������� # $ % " =1 READ ! " “Intelligent”
�����������-����������������� �������� # $ # " Big RNN % " =1 READ ! " “Intelligent”
�����������-����������������� �������� $ % $ # Big RNN & # =1 READ ! # ! " “Intelligent” “and”
�����������-����������������� �������� $ % $ # Big RNN & # =1 & " =2 READ SKIM ! # ! " “Intelligent” “and”
�����������-����������������� �������� ! % ! " ! $ Small RNN Big RNN & $ =1 & " =2 READ SKIM # $ # " “Intelligent” “and”
�����������-����������������� �������� ! % ! " ! $ Small RNN Big RNN COPY & $ =1 & " =2 READ SKIM # $ # " “Intelligent” “and”
�����������-����������������� �������� ! ' ! " ! & ! $ ! % Small Small RNN RNN Big RNN Big RNN COPY COPY ( & =1 ( " =2 ( % =2 ( $ =1 READ READ SKIM SKIM # & # $ # % # " “Intelligent” “invigorating” “and” “film”
���������������������������������
�CB����� • ��F�B�L�����LN������� • Big RNN ���B==>F��L:L>��BP>�,� = • Small RNN ���B==>F��L:L>��BP>�,� =� • = --� =�� �>���� = ,(���� =� ,�# • 2B==>F��L:L>�B����:�>=��>LN>>F�L�>������ • .B�������H=:L>��L�>�>FLB�>��B==>F��L:L>� • ��:DD������H=:L>���FDO�:���:DD�H��LB�F����L�>��B==>F��L:L>� • ��>F���BF�� ��:DD �����L�>�BF�>�>F�>��>��B�>����:DD>������� 1�5�� • 5� = ) #�--�5� =�= # • 0OF:�B�:DDO��:C>��=>�B�B�F��F�N�B����BP>��������L����>
�)�������� � � ����������(����������) E / : Input Previous hidden state F /G; : 9 / = softmax(D(E / , F /G; )) * / = Multinomial 9 / * = [* ; , * = , … , * ? ] ! " # = % " #; * Pr(*) &∈( But the sample space is exponentially large!
2HO�LH�LJ��G, • .HFI�L�GB�BJ�?��GL�����GLJ��L��E� • �HE����BJ�?��GL��;�EE��F������(� • 9���079.� • �G�����?�BJ�?��GL���L�F�L�HG • 2�BC�N�J��G����C�J?�LH�LJ��G • 1�F��E��H�LF�P ���GB��L��E���(��)� • -����?���L�F�L�HG • �HO�N�J��G����BHH?��FI�J���E�J���EL� • 0�EE��?����J�GL���E��?�J�GB�LJ��G�GB�N���J�I�J�F�L�J�R�L�HG
�(��),��(����11��2�������� ! " # = % " #; * Pr(*) &∈( ∇ log ! " # = ! ∇ log " #; * + log " #; * ∇ log Pr(*) Gradient can be sampled But the sample space is exponentially large!
2IP��I����EH, • .IGJN�EHC�C���E�H��EL�EH���?���F� • �IFE?R�C���E�H����EFFE�GL�����(� • 9���079.� • ;H�E�L����L�EG��EIH • 2EC��O��E�H?���������I����EH • 1NG��F��IB�G�� ���HC�����F���(��)� • -E�L����L�EG��EIH • �IP�O��E�H?���CII���GJE�E?�F���LNF�L • 0NFFR��EBB���H�E��F���N�EHC����EHEHC�OE����J���G����ES��EIH
,��2���0����1� ���1�1�������1���� �-1�7����1�&��)�(�� • 0�1�������� • A��������A�����1���������� p • �1������1��12��� g �����,��2�����A���2����� • 0����G�1���1��������1A�� ! ����1���7�������A���2�������������A����� • .�1����������1�������������1������1��7����1����A���2����� • 01�����7� 7 7���A�A����1A�����G • ���1�1�������1���� 1����A�����������1����������A����1A�����G • 0�1���������1�
Recommend
More recommend