neural networks for machine learning lecture 5a why
play

Neural Networks for Machine Learning Lecture 5a Why - PowerPoint PPT Presentation

Neural Networks for Machine Learning Lecture 5a Why object recogni:on is difficult Geoffrey Hinton with Ni:sh Srivastava Kevin Swersky Things


  1. ¡Neural ¡Networks ¡for ¡Machine ¡Learning ¡ ¡ ¡Lecture ¡5a ¡ Why ¡object ¡recogni:on ¡is ¡difficult ¡ Geoffrey ¡Hinton ¡ ¡ with ¡ Ni:sh ¡Srivastava ¡ ¡ Kevin ¡Swersky ¡

  2. Things ¡that ¡make ¡it ¡hard ¡to ¡recognize ¡objects ¡ Segmenta:on: ¡Real ¡scenes ¡are ¡ Deforma:on: ¡Objects ¡can ¡deform ¡in ¡a ¡ • • cluHered ¡with ¡other ¡objects: ¡ variety ¡of ¡non-­‑affine ¡ways: ¡ – ¡Its ¡hard ¡to ¡tell ¡which ¡pieces ¡go ¡ – e.g ¡a ¡hand-­‑wriHen ¡2 ¡can ¡have ¡a ¡ together ¡as ¡parts ¡of ¡the ¡same ¡ large ¡loop ¡or ¡just ¡a ¡cusp. ¡ ¡ object. ¡ Affordances: ¡Object ¡classes ¡are ¡oSen ¡ • – Parts ¡of ¡an ¡object ¡can ¡be ¡ defined ¡by ¡how ¡they ¡are ¡used: ¡ hidden ¡behind ¡other ¡objects. ¡ – Chairs ¡are ¡things ¡designed ¡for ¡ Ligh:ng: ¡The ¡intensi:es ¡of ¡the ¡ siVng ¡on ¡so ¡they ¡have ¡a ¡wide ¡ • pixels ¡are ¡determined ¡as ¡much ¡by ¡ variety ¡of ¡physical ¡shapes. ¡ ¡ ¡ the ¡ligh:ng ¡as ¡by ¡the ¡objects. ¡

  3. More ¡things ¡that ¡make ¡it ¡hard ¡to ¡recognize ¡objects ¡ Viewpoint: ¡Changes ¡in ¡viewpoint ¡ Imagine ¡a ¡medical ¡database ¡in ¡ • • cause ¡changes ¡in ¡images ¡that ¡standard ¡ which ¡the ¡age ¡of ¡a ¡pa:ent ¡ learning ¡methods ¡cannot ¡cope ¡with. ¡ ¡ some:mes ¡hops ¡to ¡the ¡input ¡ dimension ¡that ¡normally ¡codes ¡ – Informa:on ¡hops ¡between ¡input ¡ for ¡weight! ¡ dimensions ¡( i.e. ¡ pixels) ¡ – To ¡apply ¡machine ¡learning ¡we ¡ ¡ would ¡first ¡want ¡to ¡eliminate ¡ this ¡dimension-­‑hopping. ¡

  4. ¡Neural ¡Networks ¡for ¡Machine ¡Learning ¡ ¡ ¡Lecture ¡5b ¡ Ways ¡to ¡achieve ¡viewpoint ¡invariance ¡ Geoffrey ¡Hinton ¡ ¡ with ¡ Ni:sh ¡Srivastava ¡ ¡ Kevin ¡Swersky ¡

  5. Some ¡ways ¡to ¡achieve ¡viewpoint ¡invariance ¡ There ¡are ¡several ¡different ¡approaches: ¡ • We ¡are ¡so ¡good ¡at ¡viewpoint ¡ • – Use ¡redundant ¡invariant ¡features. ¡ invariance ¡that ¡it ¡is ¡hard ¡to ¡ appreciate ¡how ¡difficult ¡it ¡is. ¡ – Put ¡a ¡box ¡around ¡the ¡object ¡and ¡use ¡ – Its ¡one ¡of ¡the ¡main ¡ normalized ¡pixels. ¡ difficul:es ¡in ¡making ¡ – Lecture ¡5c: ¡Use ¡replicated ¡features ¡ computers ¡perceive. ¡ with ¡pooling. ¡This ¡is ¡called ¡ – We ¡s:ll ¡don ’ t ¡have ¡ “convolu:onal ¡neural ¡nets” ¡ ¡ generally ¡accepted ¡ – ¡Use ¡a ¡hierarchy ¡of ¡parts ¡that ¡have ¡ solu:ons. ¡ explicit ¡ ¡poses ¡rela:ve ¡to ¡the ¡camera ¡ (this ¡will ¡be ¡described ¡in ¡detail ¡later ¡in ¡ the ¡course). ¡

  6. The ¡invariant ¡feature ¡approach ¡ • Extract ¡a ¡large, ¡redundant ¡set ¡of ¡ • With ¡enough ¡invariant ¡features, ¡ features ¡that ¡are ¡invariant ¡under ¡ there ¡is ¡only ¡one ¡way ¡to ¡assemble ¡ transforma:ons ¡ them ¡into ¡an ¡object. ¡ – e.g. ¡ ¡pair ¡of ¡roughly ¡parallel ¡ – We ¡don ’ t ¡need ¡to ¡represent ¡ lines ¡with ¡a ¡red ¡dot ¡between ¡ the ¡rela:onships ¡between ¡ them. ¡ features ¡directly ¡because ¡they ¡ are ¡captured ¡by ¡other ¡ features. ¡ – This ¡is ¡what ¡baby ¡herring ¡gulls ¡ But ¡for ¡recogni:on, ¡we ¡must ¡avoid ¡ • use ¡to ¡know ¡where ¡to ¡peck ¡for ¡ forming ¡features ¡from ¡parts ¡of ¡ food. ¡ different ¡objects. ¡

  7. The ¡judicious ¡normaliza:on ¡approach ¡ Put ¡a ¡box ¡around ¡the ¡object ¡and ¡use ¡it ¡as ¡a ¡coordinate ¡frame ¡ • for ¡a ¡set ¡of ¡normalized ¡pixels. ¡ – This ¡solves ¡the ¡dimension-­‑hopping ¡problem. ¡If ¡we ¡choose ¡ the ¡box ¡correctly, ¡the ¡same ¡part ¡of ¡an ¡object ¡always ¡occurs ¡ on ¡the ¡same ¡normalized ¡pixels. ¡ ¡ – The ¡box ¡can ¡provide ¡invariance ¡to ¡many ¡degrees ¡of ¡ We ¡recognize ¡ freedom: ¡transla:on, ¡rota:on, ¡scale, ¡shear, ¡stretch ¡… ¡ ¡ this ¡leHer ¡before ¡ But ¡choosing ¡the ¡box ¡is ¡difficult ¡because ¡of: ¡ • we ¡do ¡mental ¡ rota:on ¡to ¡ – Segmenta:on ¡errors, ¡occlusion, ¡unusual ¡orienta:ons. ¡ decide ¡if ¡it’s ¡a ¡ We ¡need ¡to ¡recognize ¡the ¡shape ¡to ¡get ¡the ¡box ¡right! ¡ • mirror ¡image. ¡

  8. The ¡brute ¡force ¡normaliza:on ¡approach ¡ When ¡training ¡the ¡recognizer, ¡use ¡well-­‑segmented, ¡upright ¡images ¡to ¡fit ¡the ¡ • correct ¡box. ¡ At ¡test ¡:me ¡try ¡all ¡possible ¡boxes ¡in ¡a ¡range ¡of ¡posi:ons ¡and ¡scales. ¡ • – This ¡approach ¡is ¡widely ¡used ¡for ¡detec:ng ¡upright ¡things ¡like ¡faces ¡and ¡ house ¡numbers ¡in ¡unsegmented ¡images. ¡ – It ¡is ¡much ¡more ¡efficient ¡if ¡the ¡recognizer ¡can ¡cope ¡with ¡some ¡varia:on ¡in ¡ ¡ posi:on ¡and ¡scale ¡so ¡that ¡we ¡can ¡use ¡a ¡coarse ¡grid ¡when ¡trying ¡all ¡ possible ¡boxes. ¡

  9. ¡Neural ¡Networks ¡for ¡Machine ¡Learning ¡ ¡ ¡Lecture ¡5c ¡ Convolu:onal ¡neural ¡networks ¡for ¡hand-­‑wriHen ¡ digit ¡recogni:on ¡ Geoffrey ¡Hinton ¡ ¡ with ¡ Ni:sh ¡Srivastava ¡ ¡ Kevin ¡Swersky ¡

  10. The ¡replicated ¡feature ¡approach ¡ (currently ¡the ¡dominant ¡approach ¡for ¡neural ¡networks) ¡ Use ¡many ¡different ¡copies ¡of ¡the ¡same ¡feature ¡ • The ¡red ¡connec:ons ¡all ¡ detector ¡with ¡different ¡posi:ons. ¡ have ¡the ¡same ¡weight. ¡ – Could ¡also ¡replicate ¡across ¡scale ¡and ¡orienta:on ¡ ( tricky ¡and ¡expensive) ¡ – Replica:on ¡greatly ¡reduces ¡the ¡number ¡of ¡free ¡ parameters ¡to ¡be ¡learned. ¡ Use ¡several ¡different ¡feature ¡types, ¡each ¡with ¡its ¡own ¡ • map ¡of ¡replicated ¡detectors. ¡ – Allows ¡each ¡patch ¡of ¡image ¡to ¡be ¡represented ¡in ¡ several ¡ways. ¡ ¡

  11. Backpropaga:on ¡with ¡weight ¡constraints ¡ It’s ¡easy ¡to ¡modify ¡the ¡backpropaga:on ¡ • To constrain : w 1 = w 2 algorithm ¡to ¡incorporate ¡linear ¡ we need : Δ w 1 = Δ w 2 constraints ¡between ¡the ¡weights. ¡ We ¡compute ¡the ¡gradients ¡as ¡usual, ¡ • and ¡then ¡modify ¡the ¡gradients ¡so ¡that ¡ ∂ E ∂ E compute : and they ¡sa:sfy ¡the ¡constraints. ¡ ∂ w 1 ∂ w 2 – So ¡if ¡the ¡weights ¡started ¡off ¡ sa:sfying ¡the ¡constraints, ¡they ¡will ¡ con:nue ¡to ¡sa:sfy ¡them. ¡ ∂ E + ∂ E use for w 1 and w 2 ∂ w 1 ∂ w 2

  12. What does replicating the feature detectors achieve? • Equivariant activities: Replicated features do not make the neural activities invariant to translation. The activities are equivariant. translated representation by representation active neurons translated image image • Invariant knowledge: If a feature is useful in some locations during training, detectors for that feature will be available in all locations during testing.

  13. Pooling the outputs of replicated feature detectors • Get a small amount of translational invariance at each level by averaging four neighboring replicated detectors to give a single output to the next level. – This reduces the number of inputs to the next layer of feature extraction, thus allowing us to have many more different feature maps. – Taking the maximum of the four works slightly better. • Problem: After several levels of pooling, we have lost information about the precise positions of things. – This makes it impossible to use the precise spatial relationships between high-level parts for recognition.

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend