model distillation and extraction
play

Model distillation and extraction CS 685, Fall 2020 Advanced Natural - PowerPoint PPT Presentation

Model distillation and extraction CS 685, Fall 2020 Advanced Natural Language Processing Mohit Iyyer College of Information and Computer Sciences University of Massachusetts Amherst many slides from Kalpesh Krishna stuff from last time


  1. Model distillation and extraction CS 685, Fall 2020 Advanced Natural Language Processing Mohit Iyyer College of Information and Computer Sciences University of Massachusetts Amherst many slides from Kalpesh Krishna

  2. stuff from last time… • Topics you want to see covered? • HW1 due 10/28 2

  3. Knowledge distillation: A small model (the student ) is trained to mimic the predictions of a much larger pretrained model (the teacher ) Bucila et al., 2006; Hinton et al., 2015

  4. Sanh et al., 2019 (“DistilBERT”)

  5. barbershop: 54% BERT barber: 20% Bob went to the <MASK> ( teacher ): salon: 6% to get a buzz cut 24 layer stylist: 4% Transformer …

  6. barbershop: 54% BERT barber: 20% Bob went to the <MASK> ( teacher ): salon: 6% to get a buzz cut 24 layer stylist: 4% Transformer … soft targets

  7. barbershop: 54% BERT barber: 20% Bob went to the <MASK> ( teacher ): salon: 6% to get a buzz cut 12 layer stylist: 4% Transformer … soft targets t i Cross entropy loss to predict soft targets DistilBERT Bob went to the <MASK> L ce = ∑ ( student ): to get a buzz cut t i log( s i ) 6 layer Transformer i

  8. Instead of “one-hot” ground-truth, we have a full predicted distribution • More information encoded in the target prediction than just the “correct” word • Relative order of even low probability words (e.g., “church” vs “and” in the previous example) tells us some information • e.g., that the <MASK> is likely to be a noun and refer to a location, not a function word

  9. Can also distill other parts of the teacher, not just its final predictions! Jiao et al., 2020 (“TinyBERT”)

  10. Distillation helps significantly over just training the small model from scratch Turc et al., 2019 (“Well-read students learn better”)

  11. Turc et al., 2019 (“Well-read students learn better”)

  12. How to prune? Simply remove the weights with the lowest magnitudes in each layer Frankle & Carbin, 2019 (“The Lottery Ticket Hypothesis”)

  13. Can prune a significant fraction of the network with no downstream performance loss Chen et al., 2020 (“Lottery Ticket for BERT Networks”)

  14. What if you only have access to the model’s argmax prediction, and you also don’t have access to its training data?

  15. ������������������������� ����������������������������������� ������� ���������� �������� ������� ����� ������� � ����� � ������ � �������� � ����� � � � �����������������������������������������������������

  16. ��������������������������������� �

  17. ��������������������������� ����������� �������� ������������� �������������������������������� ����������������������������������������������������������� � ���������������������������������������������������������

  18. ��������������������������� ����������� �������� ������������� ������������������������������������������������������ �

  19. ���������������� ������������ ��� ����������������� �������������������� ������������������ ��������������������������������������� ��������������� ����������������������������������� � �

  20. ��������������������������� ���������������� �������� ������������ ��� ����������������� �������� �������������������� ������������������ ���������������������������������������������������������� ������������������� �

  21. ��������������������������� ���������������� �������� ������������ ��� ����������������� �������� �������������������� ������������������ ��������������� ��������������� ��������������������������������������������������������� �

  22. ��������������������������� ���������������� �������� ������������ ��� ����������������� �������� �������������������� ������������������ ����������� �������� ������������� ��������������� ������������������������������������������������������������ �

  23. ���������������������������������� �������������������� �������������������� ��������������������� ������������� ���������� ������� �� ������������������������������������������������������������

  24. ��������������������������������������� ������������������������������������������������������������������� ������� ���� ���������������� ������������������������� ��������������� ������ �������������������� ��������� ������� ����������� ������������������� �������� ��������������������� ������������������������������������������������������������ �� ��������������������������������������������

  25. ��������������������������������������� ������������������ ���������������� ����������� ��

  26. ������������������������� �� ������������������������������ �� ��������������������������������� �� ��������������������������������� ��

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend