 
              Disserta(on ¡Talk: ¡ Exploring ¡the ¡Design ¡Space ¡of ¡ ¡ Deep ¡Convolu(onal ¡Neural ¡Networks ¡at ¡Large ¡Scale ¡ Forrest ¡Iandola ¡ forresti@eecs.berkeley.edu 1 ¡
Machine ¡Learning ¡in ¡2012 ¡ Object ¡Detec(on ¡ Sen(ment ¡Analysis ¡ Deformable ¡Parts ¡Model ¡ LDA ¡ Text ¡ Computer ¡ Analysis ¡ Vision ¡ Seman(c ¡Segmenta(on ¡ segDPM ¡ Audio ¡ Word ¡Predic(on ¡ Analysis ¡ Linear ¡InterpolaFon ¡ + ¡N-‑Gram ¡ Audio ¡Concept ¡ ¡ Speech ¡Recogni(on ¡ Image ¡Classifica(on ¡ Recogni(on ¡ Hidden ¡Markov ¡ ¡ Feature ¡Engineering ¡ Model ¡ + ¡SVMs ¡ i-‑Vector ¡+ ¡HMM ¡ We ¡have ¡10 ¡years ¡of ¡experience ¡in ¡a ¡broad ¡variety ¡of ¡ML ¡approaches ¡… ¡ [1] ¡B. ¡Catanzaro, ¡N. ¡Sundaram, ¡ K. ¡Keutzer. ¡Fast ¡support ¡vector ¡machine ¡training ¡and ¡classificaFon ¡on ¡graphics ¡processors. ¡InternaFonal ¡ Conference ¡on ¡Machine ¡Learning ¡(ICML), ¡2008. ¡ [2] ¡Y. ¡Yi, ¡C.Y. ¡Lai, ¡S. ¡Petrov, ¡ K. ¡Keutzer . ¡Efficient ¡parallel ¡CKY ¡parsing ¡on ¡GPUs. ¡InternaFonal ¡Conference ¡on ¡Parsing ¡Technologies, ¡2011. ¡ [3] ¡K. ¡You, ¡J. ¡Chong, ¡Y. ¡Yi, ¡E. ¡Gonina, ¡C.J. ¡Hughes, ¡Y. ¡Chen, ¡K. ¡Keutzer . ¡Parallel ¡scalability ¡in ¡speech ¡recogniFon. ¡ IEEE ¡Signal ¡Processing ¡ Magazine , ¡2009. ¡ [4] ¡ F. ¡Iandola , ¡M. ¡ Moskewicz , ¡K. ¡ Keutzer . ¡libHOG: ¡Energy-‑Efficient ¡Histogram ¡of ¡Oriented ¡Gradient ¡ComputaFon. ¡ITSC, ¡2015. ¡ [5] ¡N. ¡Zhang, ¡R. ¡Farrell, ¡ F. ¡Iandola , ¡and ¡T. ¡Darrell. ¡Deformable ¡Part ¡Descriptors ¡for ¡Fine-‑grained ¡RecogniFon ¡and ¡Acribute ¡PredicFon. ¡ICCV, ¡ 2013. ¡ ¡ [6] ¡M. ¡Kamali, ¡I. ¡Omer, ¡ F. ¡Iandola , ¡E. ¡Ofek, ¡and ¡J.C. ¡Hart. ¡Linear ¡Clucer ¡Removal ¡from ¡Urban ¡Panoramas ¡ ¡InternaFonal ¡Symposium ¡on ¡ Visual ¡CompuFng. ¡ISVC, ¡2011. ¡ 2 ¡ ¡ ¡
By ¡2016, ¡Deep ¡Neural ¡Networks ¡Give ¡ ¡ Superior ¡Solu(ons ¡in ¡Many ¡Areas ¡ Object ¡DetecFon ¡ SenFment ¡Analysis ¡ 3-‑layer ¡RNN ¡ 16-‑layer ¡DCNN ¡ CNN/ Text ¡ Computer ¡ Analysis ¡ DNN ¡ Vision ¡ SemanFc ¡SegmentaFon ¡ Word ¡PredicFon ¡ 19-‑layer ¡FCN ¡ word2vec ¡NN ¡ Audio ¡ Speech ¡RecogniFon ¡ Analysis ¡ Audio ¡Concept ¡ ¡ Image ¡ClassificaFon ¡ RecogniFon ¡ LSTM ¡NN ¡ GoogLeNet-‑v3 ¡DCNN ¡ 4-‑layer ¡DNN ¡ Finding ¡the ¡"right" ¡DNN ¡architecture ¡is ¡replacing ¡broad ¡ ¡ algorithmic ¡exploraFon ¡for ¡many ¡problems. ¡ ¡ [7] ¡K. ¡Ashraf, ¡B. ¡Elizalde, ¡F. ¡ Iandola , ¡M. ¡ Moskewicz , ¡J. ¡Bernd, ¡G. ¡Friedland, ¡K. ¡ Keutzer . ¡Audio-‑Based ¡MulFmedia ¡Event ¡DetecFon ¡with ¡Deep ¡Neural ¡Nets ¡ and ¡Sparse ¡Sampling. ¡ACM ¡ICMR, ¡2015. ¡ [8] ¡F. ¡ Iandola , ¡A. ¡ Shen , ¡P. ¡Gao, ¡K. ¡ Keutzer . ¡DeepLogo: ¡Himng ¡logo ¡recogniFon ¡with ¡the ¡deep ¡neural ¡network ¡hammer. ¡arXiv:1510.02131, ¡2015. ¡ [9] ¡F. ¡ Iandola , ¡M. ¡ Moskewicz , ¡S. ¡Karayev, ¡R. ¡Girshick, ¡T. ¡Darrell, ¡K. ¡ Keutzer . ¡DenseNet: ¡ImplemenFng ¡Efficient ¡ConvNet ¡Descriptor ¡Pyramids. ¡arXiv: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡1404.1869, ¡2014. ¡ [10] ¡R. ¡Girshick, ¡F. ¡ Iandola , ¡T. ¡Darrell, ¡J. ¡Malik. ¡Deformable ¡Part ¡Models ¡are ¡ConvoluFonal ¡Neural ¡Networks. ¡CVPR, ¡2015. ¡ [11] ¡ F. ¡Iandola , ¡K. ¡Ashraf, ¡ M.W. ¡Moskewicz , ¡ K. ¡Keutzer . ¡FireCaffe: ¡near-‑linear ¡acceleraFon ¡of ¡ ¡deep ¡neural ¡network ¡training ¡on ¡compute ¡clusters. ¡arXiv: 3 ¡ 1511.00175, ¡2015. ¡Also, ¡CVPR ¡2016, ¡pp. ¡2592–2600. ¡ ¡ ¡ [12] ¡K. ¡Ashraf, ¡B. ¡Wu, ¡ F.N. ¡Iandola , ¡ M.W. ¡Moskewicz , ¡ K. ¡Keutzer . ¡Shallow ¡Networks ¡for ¡High-‑Accuracy ¡Road ¡Object-‑DetecFon. ¡arXiv:1606.01561, ¡2016. ¡ ¡ ¡
The ¡MESCAL ¡Methodology ¡for ¡exploring ¡ the ¡design ¡space ¡of ¡computer ¡hardware ¡ The ¡methodology ¡includes ¡a ¡ number ¡of ¡themes, ¡such ¡as… ¡ ¡ • Judiciously ¡using ¡ benchmarking ¡ • Efficiently ¡evaluate ¡points ¡in ¡ the ¡design ¡space ¡ • Inclusively ¡idenFfy ¡the ¡ architectural ¡space ¡ • Comprehensively ¡explore ¡ the ¡design ¡space ¡ 4 ¡
Outline ¡of ¡our ¡approach ¡to ¡exploring ¡the ¡ design ¡space ¡of ¡CNN/DNN ¡architectures ¡ • Theme ¡1: ¡Defining ¡benchmarks ¡and ¡metrics ¡to ¡evaluate ¡CNN/ DNNs ¡ • Theme ¡2: ¡Rapidly ¡training ¡CNN/DNNs ¡ • Theme ¡3: ¡Defining ¡and ¡describing ¡the ¡CNN/DNN ¡design ¡space ¡ • Theme ¡4: ¡Exploring ¡the ¡design ¡space ¡of ¡CNN/DNN ¡architectures ¡ 5 ¡
Theme ¡1: ¡Defining ¡benchmarks ¡and ¡ metrics ¡to ¡evaluate ¡CNN/DNNs ¡ What ¡ exactly ¡would ¡we ¡like ¡our ¡neural ¡network ¡to ¡accomplish? ¡ 6 ¡
Key ¡benchmarks ¡used ¡in ¡four ¡ ¡ deep ¡learning ¡problem ¡areas ¡ Size of Type of data Problem CNN/DNN Hardware Training benchmark's area architecture time training set text [1] word prediction 100 billion words 2-layer skip 1 NVIDIA 6.2 hours (word2vec) (Wikipedia) gram Titan X GPU audio [2] speech 2000 hours (Fisher 11-layer RNN 1 NVIDIA 3.5 days recognition Corpus) K1200 GPU images [3] image 1 million images 22-layer CNN 1 NVIDIA K20 3 weeks classification (ImageNet) GPU activity 1 million videos 8-layer CNN 10 NVIDIA video [4] 1 month recognition (Sports-1M) GPUs • High-‑dimensional ¡data ¡(e.g. ¡images ¡and ¡video) ¡tends ¡to ¡require ¡more ¡processing ¡ during ¡both ¡training ¡and ¡inference. ¡ ¡ ¡ • One ¡of ¡our ¡goals ¡was ¡to ¡find ¡the ¡most ¡computaFonally-‑intensive ¡CNN/DNN ¡ benchmarks, ¡and ¡then ¡go ¡to ¡work ¡on ¡acceleraFng ¡these ¡applicaFons ¡ • Image/Video ¡benchmarks ¡meet ¡these ¡criteria ¡ • Convolu8onal ¡Neural ¡Networks ¡(CNNs) ¡are ¡commonly ¡applied ¡to ¡Image/Video ¡data ¡ [1] ¡John ¡Canny, ¡et ¡al., ¡"Machine ¡learning ¡at ¡the ¡limit," ¡IEEE ¡InternaFonal ¡Conference ¡on ¡Big ¡Data, ¡2015. ¡ ¡ [2] ¡Dario ¡Amodei, ¡et ¡al., ¡"Deep ¡speech ¡2: ¡End-‑to-‑end ¡speech ¡recogniFon ¡in ¡english ¡and ¡mandarin," ¡arXiv:1512.02595, ¡2015. ¡ [3] ¡Sergio ¡Guadarrama, ¡"BVLC ¡googlenet," ¡hcps://github.com/BVLC/caffe/tree/master/ ¡models/bvlc_googlenet, ¡2015. ¡ [4] ¡A. ¡Karpathy, ¡et ¡al., ¡"Large-‑scale ¡video ¡classificaFon ¡with ¡convoluFonal ¡neural ¡networks," ¡CVPR, ¡2014. ¡ 7 ¡ ¡ ¡
Key ¡metrics ¡for ¡specifying ¡CNN/DNN ¡ design ¡goals ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Energy ¡Efficiency ¡ Training ¡Speed ¡ Accuracy ¡ To ¡achieve ¡the ¡opFmal ¡results ¡on ¡these ¡metrics, ¡it's ¡important ¡to ¡design ¡and/or ¡evaluate: ¡ • CNN ¡architectures ¡ • Sovware/Libraries ¡ • Hardware ¡architectures ¡ 8 ¡ ¡
Strategies ¡for ¡evalua(ng ¡team ¡progress ¡on ¡ ¡ full-‑stack ¡CNN/DNN ¡system ¡development ¡ Evalua(ng ¡individual ¡ ¡ Evalua(ng ¡the ¡ ¡ contribu(ons ¡ overall ¡system ¡ CNN ¡Team ¡ • Accuracy ¡ • QuanFty ¡of ¡computaFon ¡ & global&avgpool & maxpool/2 & maxpool/2 1000 & 128 & 384 & maxpool/2 & 512 & conv10& so4max& 128 & 256 & & 256 & 384 & 512 conv1& & 96 fire4& fire6& fire9& fire2& fire3& fire5& fire7& fire8& • Model ¡Size ¡ Sovware/Libraries ¡ ¡ • Percent ¡of ¡peak ¡ throughput ¡achieved ¡on ¡ • Energy ¡per ¡frame ¡ Team ¡ appropriate ¡hardware ¡ • Inference ¡speed ¡per ¡frame ¡ kernel<<< >>> Hardware ¡Team ¡ • Power ¡envelope ¡ • Peak ¡achievable ¡ throughput ¡ 9 ¡
Theme ¡2: ¡Rapidly ¡training ¡CNN ¡models ¡ Without ¡exaggeraFon, ¡training ¡a ¡CNN ¡can ¡take ¡weeks ¡ ¡ Train ¡rapidly ¡ à ¡More ¡producFvely ¡explore ¡the ¡design ¡space ¡ 10 ¡
Recommend
More recommend