1 i c 4 3 ae ma 4 a 311
play

1IC43AE MA4A311 Minjoon Seo 1,2* , Sewon - PowerPoint PPT Presentation

1IC43AE MA4A311 Minjoon Seo 1,2* , Sewon Min 3* , Ali Farhadi 2,4,5 , Hannaneh Hajishirzi 2 1,.3-CM 5EAMIANAEE


  1. 1��I�C�4�����3���AE�� MA��4�A��311 Minjoon Seo 1,2* , Sewon Min 3* , Ali Farhadi 2,4,5 , Hannaneh Hajishirzi 2 1,�.3�-C�M� � ��5EAM�I�A�N��������AE���E � ��4���C�1��A�E�C�5EAM�I�A�N � �� ,CC�E��E��A�������I�,� � ��8123�,� * 0�N�������� ����E���������C���E�IA���A�E� UWNLP

  2. ����������������� ! ' ! " ! & ! $ ! % RNN RNN RNN RNN # & # $ # % # " “Intelligent” “invigorating” “and” “film”

  3. ��������A�������� • �������������������������������������������������� • ������������������� • ������������������ • �������������� • ����������������� • �������������������������� • �

  4. 2�����C:���AG� • 2�����C:���AG�A���1�� • 2��������A��7:���C���:���:� • �1����C:���AG��AA FLOP = Floating-point operations i.e. # of • �A������������A�����-01�����:FC����:�GAC�� computations • 2:�:���GAC����A�C:����:�2���( • �AA��:���)��:���A��7��:����������� • ���:7AA��������7��:�����������

  5. 1�����C�����G� • 1�����C�����G�����0�� • 1����7�����������C��������� • )0����C�����G���� • 2���������������������0������FC������G�C�� • 1�7����G�C������C����7��1���( • ����������C���:�C��C������� • ��7��������)���������-��������

  6. ���.�.��.���..-�������� • �������.����.�����.�-.������.����������������������� ���-������ • ������-.���.�����.�����.����������.����� • ���.������������������������� • �������� ���.����.�����.�������������� How can we make RNNs faster on CPUs?

  7. .������������ • ���������:�8��9��������������������������������1������� 9���������������������������1����������������9��:����������� various levels ������1����������������1�����������)(&�� • ���������������:�9������ :������:�9���9�1����� ����,,� • Skim �������:�99�:������:�9���9�1������ • Fully read ������0���:������:�9���9�1������� Just & Carpenter. “A theory of reading: From eye fixations to comprehension.” Psychological review 87.4 (1980): 329

  8. �����������-����������������� �������� # $ ! " “Intelligent”

  9. �����������-����������������� �������� # $ ! " “Intelligent”

  10. �����������-����������������� �������� # $ % " =1 READ ! " “Intelligent”

  11. �����������-����������������� �������� # $ # " Big RNN % " =1 READ ! " “Intelligent”

  12. �����������-����������������� �������� $ % $ # Big RNN & # =1 READ ! # ! " “Intelligent” “and”

  13. �����������-����������������� �������� $ % $ # Big RNN & # =1 & " =2 READ SKIM ! # ! " “Intelligent” “and”

  14. �����������-����������������� �������� ! % ! " ! $ Small RNN Big RNN & $ =1 & " =2 READ SKIM # $ # " “Intelligent” “and”

  15. �����������-����������������� �������� ! % ! " ! $ Small RNN Big RNN COPY & $ =1 & " =2 READ SKIM # $ # " “Intelligent” “and”

  16. �����������-����������������� �������� ! ' ! " ! & ! $ ! % Small Small RNN RNN Big RNN Big RNN COPY COPY ( & =1 ( " =2 ( % =2 ( $ =1 READ READ SKIM SKIM # & # $ # % # " “Intelligent” “invigorating” “and” “film”

  17. ���������������������������������

  18. �CB����� • ��F�B�L�����LN������� • Big RNN ���B==>F��L:L>��BP>�,� = • Small RNN ���B==>F��L:L>��BP>�,� =� • = --� =�� �>���� = ,(���� =� ,�# • 2B==>F��L:L>�B����:�>=��>LN>>F�L�>������ • .B�������H=:L>��L�>�>FLB�>��B==>F��L:L>� • ��:DD������H=:L>���FDO�:���:DD�H��LB�F����L�>��B==>F��L:L>� • ��>F���BF�� ��:DD �����L�>�BF�>�>F�>��>��B�>����:DD>������� 1�5�� • 5� = ) #�--�5� =�= # • 0OF:�B�:DDO��:C>��=>�B�B�F��F�N�B����BP>��������L����>

  19. �)�������� � � ����������(����������) E / : Input Previous hidden state F /G; : 9 / = softmax(D(E / , F /G; )) * / = Multinomial 9 / * = [* ; , * = , … , * ? ] ! " # = % " #; * Pr(*) &∈( But the sample space is exponentially large!

  20. 2HO�LH�LJ��G, • .HFI�L�GB�BJ�?��GL�����GLJ��L��E� • �HE����BJ�?��GL��;�EE��F������(� • 9���079.� • �G�����?�BJ�?��GL���L�F�L�HG • 2�BC�N�J��G����C�J?�LH�LJ��G • 1�F��E��H�LF�P ���GB��L��E���(��)� • -����?���L�F�L�HG • �HO�N�J��G����BHH?��FI�J���E�J���EL� • 0�EE��?����J�GL���E��?�J�GB�LJ��G�GB�N���J�I�J�F�L�J�R�L�HG

  21. �(��),��(����11��2�������� ! " # = % " #; * Pr(*) &∈( ∇ log ! " # = ! ∇ log " #; * + log " #; * ∇ log Pr(*) Gradient can be sampled But the sample space is exponentially large!

  22. 2IP��I����EH, • .IGJN�EHC�C���E�H��EL�EH���?���F� • �IFE?R�C���E�H����EFFE�GL�����(� • 9���079.� • ;H�E�L����L�EG��EIH • 2EC��O��E�H?���������I����EH • 1NG��F��IB�G�� ���HC�����F���(��)� • -E�L����L�EG��EIH • �IP�O��E�H?���CII���GJE�E?�F���LNF�L • 0NFFR��EBB���H�E��F���N�EHC����EHEHC�OE����J���G����ES��EIH

  23. ,��2���0����1� ���1�1�������1���� �-1�7����1�&��)�(�� • 0�1�������� • A��������A�����1���������� p • �1������1��12��� g �����,��2�����A���2����� • 0����G�1���1��������1A�� ! ����1���7�������A���2�������������A����� • .�1����������1�������������1������1��7����1����A���2����� • 01�����7� 7 7���A�A����1A�����G • ���1�1�������1���� 1����A�����������1����������A����1A�����G • 0�1���������1�

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend