Character-Aware Neural Language Models Yoon Kim Yacine Jernite - PowerPoint PPT Presentation

Character-Aware Neural Language Models Yoon Kim Yacine Jernite David Sontag Alexander Rush Harvard SEAS New York University Code: https://github.com/yoonkim/lstm-char-cnn Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 1 / 68

Recurrent Neural Network Language Model Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 2 / 68

RNN-LM Performance (on Penn Treebank) Difficult/expensive to train, but performs well. Language Model Perplexity 5-gram count-based ( Mikolov and Zweig 2012 ) 141 . 2 RNN ( Mikolov and Zweig 2012) 124 . 7 Deep RNN ( Pascanu et al. 2013) 107 . 5 LSTM ( Zaremba, Sutskever, and Vinyals 2014) 78 . 4 Renewed interest in language modeling. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 6 / 68

Word Embeddings (Collobert et al. 2011; Mikolov et al. 2012) Key ingredient in Neural Language Models. After training, similar words are close in the vector space. (Not unique to NLMs) Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 7 / 68

NLM Issue Issue : The fundamental unit of information is still the word Separate embeddings for “trading”, “leading”, “training”, etc. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 8 / 68

NLM Issue Issue : The fundamental unit of information is still the word Separate embeddings for “trading”, “trade”, “trades”, etc. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 9 / 68

Previous (NLM-based) Work Use morphological segmenter as a preprocessing step unfortunately ⇒ un PRE − fortunate STM − ly SUF Luong, Socher, and Manning 2013: Recursive Neural Network over morpheme embeddings Botha and Blunsom 2014: Sum over word/morpheme embeddings Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 10 / 68

This Work Main Idea : No morphology, use characters directly. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 11 / 68

This Work Main Idea : No morphology, use characters directly. Convolutional Neural Networks (CNN) (LeCun et al. 1989) Central to deep learning systems in vision. Shown to be effective for NLP tasks (Collobert et al. 2011) . CNNs in NLP typically involve temporal (rather than spatial) convolutions over words. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 11 / 68

Network Architecture: Overview Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 12 / 68

Character-level CNN (CharCNN) Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 13 / 68

Character-level CNN (CharCNN) C ∈ R d × l : Matrix representation of word (of length l ) H ∈ R d × w : Convolutional filter matrix d : Dimensionality of character embeddings (e.g. 15) w : Width of convolution filter (e.g. 1–7) 1. Apply a convolution between C and H to obtain a vector f ∈ R l − w +1 f [ i ] = � C [ ∗ , i : i + w − 1] , H � where � A , B � = Tr( AB T ) is the Frobenius inner product. 2. Take the max-over-time (with bias and nonlinearity) y = tanh(max { f [ i ] } + b ) i as the feature corresponding to the filter H (for a particular word). Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 14 / 68

Character-level CNN (CharCNN) Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 15 / 68

Character-level CNN (CharCNN) C ∈ R d × l : Representation of absurdity Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 16 / 68

Character-level CNN (CharCNN) H ∈ R d × w : Convolutional filter matrix of width w = 3 Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 17 / 68

Character-level CNN (CharCNN) f [1] = � C [ ∗ , 1 : 3] , H � Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 18 / 68

Character-level CNN (CharCNN) f [ T − 2] = � C [ ∗ , T − 2 : T ] , H � Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 21 / 68

Character-level CNN (CharCNN) y [1] = max { f [ i ] } i Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 22 / 68

Character-level CNN (CharCNN) Each filter picks out a character n -gram Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 23 / 68

Character-level CNN (CharCNN) f ′ [1] = � C [ ∗ , 1 : 2] , H ′ � Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 24 / 68

Character-level CNN (CharCNN) { f ′ [ i ] } y [2] = max i Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 25 / 68

Character-level CNN (CharCNN) Many filter matrices (25–200) per width (1–7) Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 26 / 68

Character-level CNN (CharCNN) Add bias, apply nonlinearity Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 27 / 68

Character-level CNN (CharCNN) Before Now Word embedding Output from CharCNN PTB Perplexity: 85 . 4 PTB Perplexity: 84 . 6 CharCNN is slower, but convolution operations on GPU have been very optimized. Can we model more complex interactions between character n -grams picked up by the filters? Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 28 / 68

Highway Network Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 29 / 68

Highway Network y : output from CharCNN Multilayer Perceptron z = g ( Wy + b ) Highway Network (Srivastava, Greff, and Schmidhuber 2015) z = t ⊙ g ( W H y + b H ) + ( 1 − t ) ⊙ y W H , b H : Affine transformation t = σ ( W T y + b T ) : transform gate 1 − t : carry gate Hierarchical, adaptive composition of character n -grams. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 30 / 68

Highway Network Input to LSTM Input from CharCNN Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 31 / 68

Highway Network Model Perplexity Word Model 85 . 4 No Highway Layers 84 . 6 One MLP Layer 92 . 6 One Highway Layer 79 . 7 Two Highway Layers 78 . 9 No more gains with 2+ layers. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 32 / 68

Results: English Penn Treebank PPL Size KN-5 ( Mikolov et al. 2012) 141 . 2 2 m RNN ( Mikolov et al. 2012) 124 . 7 6 m Deep RNN ( Pascanu et al. 2013) 107 . 5 6 m Sum-Prod Net ( Cheng et al. 2014) 100 . 0 5 m LSTM-Medium ( Zaremba, Sutskever, and Vinyals 2014) 82 . 7 20 m LSTM-Huge ( Zaremba, Sutskever, and Vinyals 2014) 78 . 4 52 m LSTM-Word-Small 97 . 6 5 m LSTM-Char-Small 92 . 3 5 m LSTM-Word-Large 85 . 4 20 m LSTM-Char-Large 78 . 9 19 m Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 33 / 68

Data Data-s Data-l |V| |C| T |V| |C| T English ( En ) 10 k 51 1 m 60 k 197 20 m Czech ( Cs ) 46 k 101 1 m 206 k 195 17 m German ( De ) 37 k 74 1 m 339 k 260 51 m Spanish ( Es ) 27 k 72 1 m 152 k 222 56 m French ( Fr ) 25 k 76 1 m 137 k 225 57 m Russian ( Ru ) 62 k 62 1 m 497 k 111 25 m |V| = Word vocab Size |C| = Character vocab size T = number of tokens in training set. Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 34 / 68

Data Data-s Data-l |V| |C| T |V| |C| T English ( En ) 10 k 51 1 m 60 k 197 20 m Czech ( Cs ) 46 k 101 1 m 206 k 195 17 m German ( De ) 37 k 74 1 m 339 k 260 51 m Spanish ( Es ) 27 k 72 1 m 152 k 222 56 m French ( Fr ) 25 k 76 1 m 137 k 225 57 m Russian ( Ru ) 62 k 62 1 m 497 k 111 25 m |V| varies quite a bit by language. (effectively use the full vocabulary) Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 35 / 68

Baselines Kneser-Ney LM : Count-based baseline Word LSTM : Word embeddings as input Morpheme LBL (Botha and Blunsom 2014) Input for word k is � x k m j + �� j ∈M k word embedding � �� morpheme embeddings Morpheme LSTM : Same input as above, but with LSTM architecture Morphemes obtained from running an unsupervised morphological tagger Morfessor Cat-MAP (Creutz and Lagus 2007) . Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 36 / 68

Perplexity on Data-S (1 M Tokens) Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 37 / 68

Character-Aware Neural Language Models Yoon Kim Yacine Jernite - PowerPoint PPT Presentation

Character-Aware Neural Language Models Yoon Kim Yacine Jernite David Sontag Alexander Rush Harvard SEAS New York University Code: https://github.com/yoonkim/lstm-char-cnn Kim, Jernite, Sontag, Rush Character-Aware Neural Language Models 1 /

Character-Aware Neural Language Models Yoon Kim Yacine Jernite David Sontag Alexander Rush

Design Elements Issue Task Force March 12, 2014 1 Historic Character 2 Historic Character 3

Curriculum on Character Development L1/A: Character in Leadership Character Development Agenda

Curriculum on Character Development Character in Leadership Character Development Agenda

Character-level Language Models With Word-level Learning Arvid Frydenlund March 16, 2018

Neural Information Retrieval Wassila Lalouani 1 Plan Neural network architectures Neural

Models of Language Evolution models thereof its evolution language Models of Language Evolution

Character Education at Character Education at Northampton Academy An Academy of Character and

CANTERBURY TALES: POWERPOINT CHARACTER PRESENTATION CHARACTER PRESENTER PHYSICAL CHARACTER

- Character set - Character escape conventions - Canonical form - Line editing conventions

Strings II Review Strings are stored character by character. Can access each character

Character Eyes: Seeing Language through Character-Level Taggers Yuval Pinter Marc Marone Jacob

IN4080 2020 FALL NATURAL LANGUAGE PROCESSING Jan Tore Lnning 2 Neural networks, Language

Introduction to Neural Machine Translation Gongbo Tang 16 September 2019 Outline Why Neural

Recurrent Language Models CMSC 470 Marine Carpuat Toward a Neural Language Model Figures by

Recurrent Language Models CMSC 470 Marine Carpuat Toward a Neural Language Model Figures by

Joint work with Marc Brockschmidt, Alex Gaunt, Alex Polozov, Patrick Fernandes, Mahmoud Khademi

Local methods for on-demand OOV word retrieval Stanislas Oger, Georges Linar` es, Fr ed

On the Extreme Eigenvalues of Certain Gram Matrices of Hermite Polynomials q Martin Ple

Modern Information Retrieval Dictionaries and and tolerant retrieval 1 Hamid Beigy Sharif

New results on equiangular lines or How I caught a gold fish? Ferenc Szll osi

Detecting Unknown Network Attacks using Language Models Konrad Rieck and Pavel Laskov DIMVA

Kernel Properties - Convexity Leila Wehbe October 1st 2013 Leila Wehbe Kernel Properties -

Sch onbergs Theorem and Association Schemes Joint work with Brian Kodalen William J. Martin