[PPT] - Deep RBF Value Functions for Continuous Control Kavosh Asadi PowerPoint Presentation

SLIDE 1

Deep RBF Value Functions for Continuous Control

Kavosh Asadi Ronald Parr George Konidaris Michael Littman

1

SLIDE 2

The RL Problem

2

agent

a

<latexit sha1_base64="F2D/FvNhHLsAPKNyXxvNekAF7Nw=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UoP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L3CWNHA=</latexit>

s, r

<latexit sha1_base64="53B5SMtKkE+DzAK9yYgkFpOi08Q=">AB6nicbVDLSsNAFL2pr1pfVZduBovgQkpi49d0Y3LivYBbSiT6aQdOpmEmYlQj/BjQtF3PpF7vwbJ2kQtR64cDjnXu69x4s4U9q2P63C0vLK6lpxvbSxubW9U97da6swloS2SMhD2fWwopwJ2tJMc9qNJMWBx2nHm1ynfueBSsVCca+nEXUDPBLMZwRrI92pEzkoV+yqnQEtEicnFcjRHJQ/+sOQxAEVmnCsVM+xI+0mWGpGOJ2V+rGiESYTPKI9QwUOqHKT7NQZOjLKEPmhNCU0ytSfEwkOlJoGnukMsB6rv14q/uf1Yu1fuAkTUaypIPNFfsyRDlH6NxoySYnmU0MwkczcisgYS0y0SaeUhXCZ4uz75UXSPq06tWrtl5pXOVxFOEADuEYHDiHBtxAE1pAYASP8AwvFrerFfrbd5asPKZfgF6/0LMd+N4A=</latexit>

SLIDE 3

3

“The state-space complexity for Go has been estimated at 10174, which is more than the total number of atoms in the universe.”

SLIDE 4

4

SLIDE 5

Background

Gt := rt + γrt+1 + γ2rt+2 + ... =

∞

X

i=0

γirt+i

<latexit sha1_base64="uXAjvt20+uKMGj8x1xAWtnNL+o=">ACOnicbVDLSgMxFM34tr6qLt0EiyAUhpkqvqBQdKHLClaFTh0yaYGk8yQ3BHKMN/lxq9w58KNC0Xc+gFO20F8HQicnHMuyT1BLgBx3m0xsYnJqemZ2ZLc/MLi0vl5ZVzEyWashaNRKQvA2KY4Iq1gINgl7FmRAaCXQ3RwP/4pZpwyN1Bv2YdSTpKR5ySiCX/PLpsQ8Hde1D1esRKQnWfgpVNyuV7WRUMuqtm3XPZNIP+V1J7vyuAqhj4tYyrNRkGd+ueLYzhD4L3ELUkEFmn75wetGNJFMARXEmLbrxNBJiQZOBctKXmJYTOgN6bF2ThWRzHTS4eoZ3siVLg4jnR8FeKh+n0iJNKYvgzwpCVyb395A/M9rJxDudVKu4gSYoqOHwkRgiPCgR9zlmlEQ/ZwQqn+V0yviSYU8rZLwxL2B9j5WvkvOa/Z7pa9dbpdaRwWdcygNbSONpGLdlEDnaAmaiGK7tATekGv1r31bL1Z76PomFXMrKIfsD4+AXq8rNw=</latexit>

Qπ(s, a) := E[Gt|st = s, at = a, π]

<latexit sha1_base64="Eap0UWn/Y0YCL6OqYgDXYjRvcbI=">ACFnicbVDJSgNBEO2JW4xb1KOXwSBEiGFixA0CQRE9JmAWSMahp9OTNOlZ6K4Rwpiv8OKvePGgiFfx5t/YkwR4NuHu9VUVXPDjiTYBifWmJmdm5+IbmYWlpeWV1Lr2/UpR8KQmvE575o2lhSzjxaAwacNgNBsWtz2rD757HfuKVCMt+7hkFATRd3PeYwgkFJVnqvehO1AzbMyhzePS21XQw924kuhq1LC+6kBSVlqB/nVJVpTNG3hBnyaFCcmgCSpW+qPd8UnoUg8Ix1K2CkYAZoQFMLpMNUOJQ0w6eMubSnqYZdKMxqdNdR3lNLRHV+o54E+Un92RNiVcuDaqjJeW/71YvE/rxWCc2xGzAtCoB4ZD3JCroOvxnpHSYoAT5QBPB1K46WGBCagkU6MQTmIcfp8Ter7+UIxX6weZMpnkziSaAtoywqoCNURleogmqIoHv0iJ7Ri/agPWmv2tu4NKFNejbRL2jvX0dlnvY=</latexit>

return
Q function
ptimal Q function

Q∗(s, a) := max

π

Qπ(s, a)

<latexit sha1_base64="rBfmq1u3Ee+W/A/4LPk3OZYW4zw=">AC3icbZDLSsNAFIYnXmu9RV26CS1CFSmJFW8gFN24bMFeoIlhMp20QycXZiZiCdm78VXcuFDErS/gzrdxkgZR6w/D/HznHGbO74SUcKHrn8rM7Nz8wmJhqbi8srq2rm5stnkQMYRbKAB6zqQY0p83BJEUNwNGYaeQ3HGV2m9c4tZpwE/rUYh9jy4MAnLkFQSGSrpeZNvJdU+D7cPTs3PXhnx2ZIEknTK+O2WtareiZt2hi5KYNcDVv9MPsBijzsC0Qh5z1D4UVQyYIojgpmhHIUQjOMA9aX3oYW7F2S6JtiNJX3MDJo8vtIz+nIihx/nYc2SnB8WQ/62l8L9aLxLuiRUTP4wE9tHkITeimgi0NBitTxhGgo6lgYgR+VcNDSGDSMj4ilkIp6mOvleNu2DqlGr1pqH5fpFHkcBbIMSqADHIM6uAIN0AI3INH8AxelAflSXlV3iatM0o+swV+SXn/Amoymio=</latexit>

hS, A, R, T, γi

<latexit sha1_base64="SmPoZkPmiI4sBiQ+C+T6BVdgfPg=">ACGXicbVDLSgMxFM3UV62vUZdugkVwUcrUio9d1Y3Lqn1Bp5Q7adqGJpkhyQil9Dfc+CtuXCjiUlf+jTPTUtR6IHA451xy7/ECzrRxnC8rtbC4tLySXs2srW9sbtnbOzXth4rQKvG5rxoeaMqZpFXDKeNQFEQHqd1b3AV+/V7qjTzZcUMA9oS0JOsywiYSGrbjstB9jFrgDTJ8DxXW5GL3L4NlfJuT0QAlyVBNt21sk7CfA8KUxJFk1RbtsfbscnoaDSEA5aNwtOYFojUIYRTscZN9Q0ADKAHm1GVIKgujVKLhvjg0jp4K6voicNTtSfEyMQWg+FyXjpfVfLxb/85qh6Z61RkwGoaGSTD7qhwbH8c14Q5TlBg+jAgQxaJdMemDAmKiMjNJCecxTmYnz5PaUb5QzBdvjrOly2kdabSH9tEhKqBTVELXqIyqiKAH9IRe0Kv1aD1b9b7JqypjO76Besz2+rcJ+b</latexit>

MDP
policy

π : S → Pr(A)

<latexit sha1_base64="C5mojRDEHRc/VWFZWbt3pwOTLkc=">ACEnicbVDLSsNAFJ34rPUVdelmsAjtpqRWfK2qblxWtA9oQplMJ+3QySTMTJQS+g1u/BU3LhRx68qdf+MkjaLWAxcO59zLvfe4IaNSWdaHMTM7N7+wmFvKL6+srq2bG5tNGUQCkwYOWCDaLpKEU4aipG2qEgyHcZabnD8Rv3RAhacCv1Sgkjo/6nHoUI6WlrlmyQ3pi+0gNMGLx1dgWtD9QSIjgFtZF8cuBp6WuWbDKVgo4TSoZKYAM9a75bvcCHPmEK8yQlJ2KFSonRkJRzMg4b0eShAgPUZ90NOXIJ9KJ05fGcFcrPegFQhdXMFV/TsTIl3Lku7ozOVH+9RLxP68TKe/IiSkPI0U4nizyIgZVAJN8YI8KghUbaYKwoPpWiAdIKx0ivk0hOMEB98vT5PmXrlSLVcv9wu1syOHNgGO6AIKuAQ1MAFqIMGwOAOPIAn8GzcG4/Gi/E6aZ0xspkt8AvG2ycfJ3b</latexit>

5

learn from interaction.

SLIDE 6

s

<latexit sha1_base64="d0SknmjHALu9tUEsf1X4Gl4nQ=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L92NLg=</latexit>a <latexit sha1_base64="F2D/FvNhHLsAPKNyXxvNekAF7Nw=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UoP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L3CWNHA=</latexit>

θ

<latexit sha1_base64="knGdMn0xReZYWGO9VkaYl80PCnY=">AB7XicbVDLSgNBEJyNrxhfUY9eBoPgKewa8XELevEYwTwgWcLsZJKMmZ1ZnqFsOQfvHhQxKv/482/cXaziBoLGoqbrq7gkhwA676RSWldW14rpY3Nre2d8u5ey6hYU9akSijdCYhgkvWBA6CdSLNSBgI1g4m16nfmDacCXvYBoxPyQjyYecErBSqwdjBqRfrhVNwNeJF5OKihHo1/+6A0UjUMmgQpiTNdzI/AToFTwWalXmxYROiEjFjXUklCZvwku3aGj6wywEOlbUnAmfpzIiGhMdMwsJ0hgbH56Xif143huGFn3AZxcAknS8axgKDwunreMA1oyCmlhCqub0V0zHRhINqJSFcJni7PvlRdI6qXq1au32tFK/yuMogN0iI6Rh85RHd2gBmoiu7RI3pGL45ynpxX523eWnDymX30C87F7y/j18=</latexit>

θ

<latexit sha1_base64="knGdMn0xReZYWGO9VkaYl80PCnY=">AB7XicbVDLSgNBEJyNrxhfUY9eBoPgKewa8XELevEYwTwgWcLsZJKMmZ1ZnqFsOQfvHhQxKv/482/cXaziBoLGoqbrq7gkhwA676RSWldW14rpY3Nre2d8u5ey6hYU9akSijdCYhgkvWBA6CdSLNSBgI1g4m16nfmDacCXvYBoxPyQjyYecErBSqwdjBqRfrhVNwNeJF5OKihHo1/+6A0UjUMmgQpiTNdzI/AToFTwWalXmxYROiEjFjXUklCZvwku3aGj6wywEOlbUnAmfpzIiGhMdMwsJ0hgbH56Xif143huGFn3AZxcAknS8axgKDwunreMA1oyCmlhCqub0V0zHRhINqJSFcJni7PvlRdI6qXq1au32tFK/yuMogN0iI6Rh85RHd2gBmoiu7RI3pGL45ynpxX523eWnDymX30C87F7y/j18=</latexit>

. . .

ˆ Q(s, a1; θ)

<latexit sha1_base64="YanI8BQ43H+DiFNJ5cTkb+xmwuw=">AB/XicbVDJSgNBEO2JW4xbXG5eGoMQcKMERe8BL14TMAskBlCTaeTNOlZ6K4R4hD8FS8eFPHqf3jzb5xJgrg9KHi8V0VPTeUQqNpfhiZufmFxaXscm5ldW19I7+51dBpBivs0AGquWC5lL4vI4CJW+FioPnSt50h1ep37zlSovAv8FRyB0P+r7oCQaYSJ38j0ApLWiPoSOdWHjgCMcdPIFs2ROQP8Sa0YKZIZqJ/9udwMWedxHJkHrtmWG6MSgUDJxzk70jwENoQ+byfUB49rJ5cP6b7idKlvUAl5SOdqN8nYvC0Hnlu0ukBDvRvLxX/89oR9s6cWPhNxn0W9SFIMaBoF7QrFGcpRQoApkdxK2QAUMEwCy01COE9x8vXyX9I4KlnlUrl2XKhczuLIkl2yR4rEIqekQq5JldQJI3fkgTyRZ+PeDRejNdpa8aYzWyTHzDePgG9E5RC</latexit>

ˆ Q(s, a|A|; θ)

<latexit sha1_base64="PnBIla17Lq8UNrxTWPWIFrZzPb4=">ACnicbVDJSgNBEO2JW4xb1KOX1iBEkDAx4oKXqBePCZgFMiHUdDpJk56F7hohTHL24q948aCIV7/Am3/jTBJEjQ8KHu9VUVXP9qXQaJqfRmJufmFxKbmcWldW9Ib25VtRcoxivMk56q26C5FC6voEDJ67i4NiS1+z+dezX7rjSwnNvceDzpgNdV3QEA4ykVnrX6gHSclYfQiscWg5gj4Gkl8PRhYU9jnDQSmfMnDkGnSX5KcmQKUqt9IfV9ljgcBeZBK0bedPHZgKBZN8lLICzX1gfejyRkRdcLhuhuNXRnQ/Utq046moXKRj9edECI7WA8eOuNb9V8vFv/zGgF2zpqhcP0AucsmizqBpOjROBfaFozlIOIAFMiupWyHihgGKWXGodwHuPk+VZUj3K5Qu5Qvk4U7yaxpEkO2SPZEmenJIiuSElUiGM3JNH8kxejAfjyXg13iatCWM6s01+wXj/AjY5mho=</latexit>

ptimal action selection:

6

ˆ Q(s, a; θ) ≈

<latexit sha1_base64="Zv34JAozbp5c+p3o2wJP6F/3Mc=">ACBHicbVDJSgNBEO2JW4xb1GMujUGIGFixAUvQS8eEzALZEKo6fRkmvQsdNeIeTgxV/x4kERr36EN/GySIGh8UPN6roqeHUqh0TQ/jdTC4tLySno1s7a+sbmV3d5p6CBSjNdZIAPVskFzKXxeR4GSt0LFwbMlb9qDq4nfvOVKi8C/wWHIOx70feEIBhL3WzOcgFpraAP4cJClyMcUAvCUAV3tJvNm0UzAZ0npRnJkxmq3eyH1QtY5HEfmQSt2yUzxM4IFAom+ThjRZqHwAbQ5+2Y+uBx3RklT4zpfqz0qBOouHykifpzYgSe1kPjs9QFf/9Sbif147QuesMxJ+GCH32XSRE0mKAZ0kQntCcYZyGBNgSsS3UuaCAoZxbpkhPMJTr5fnieNo2KpXCzXjvOVy1kcaZIje6RASuSUVMg1qZI6YeSePJn8mI8GE/Gq/E2bU0Zs5ld8gvG+xf8qpcu</latexit>

assume a perfect is learned

ˆ Q

<latexit sha1_base64="HRkZvhA1PdZ3aEYkjWGaVrzY/A=">AB7XicbVDLSgNBEOyNrxhfUY9eBoPgKeyq+LgFvXhMwDwgWcLsZDYZMzuzMwKIeQfvHhQxKv/482/cXaziBoLGoqbrq7gpgzbVz30yksLa+srhXSxubW9s75d29lpaJIrRJeqE2BNORO0aZjhtBMriqOA03Ywvkn9gNVmklxZyYx9SM8FCxkBsrtXojbFCjX64VTcDWiReTiqQo94vf/QGkiQRFYZwrHXc2PjT7EyjHA6K/USTWNMxnhIu5YKHFHtT7NrZ+jIKgMUSmVLGJSpPyemONJ6EgW2M8JmpP96qfif101MeOlPmYgTQwWZLwoTjoxE6etowBQlhk8swUQxeysiI6wMTagUhbCVYrz75cXSeuk6p1WTxtnldp1HkcRDuAQjsGDC6jBLdShCQTu4RGe4cWRzpPz6rzNWwtOPrMPv+C8fwEepI73</latexit>

arg max

a∈A

ˆ Q(s, a; θ)

<latexit sha1_base64="md9fqGx1XYigmcgGi7cmbiSkSKs=">ACFHicbZDLSgMxFIYz9VbrerSTbAIilKmVrzgpurGpYK1QqeUM2nahmYyQ3JGLEMfwo2v4saFIm5duPNtzNQi3n4IfPznHLO70dSGHTdyczNj4xOZWdzs3Mzs0v5BeXLk0Ya8arLJShvLBcCkUr6JAya8izSHwJa/5vZO0Xrvm2ohQXWA/4o0AOkq0BQO0VjO/6YHueAHcNBPwhLKEXQaSHg28LiA9XzdbcOhlyNsNPMFt+gORf9CaQFMtJZM/mtUIWB1whk2BMveRG2EhAo2CSD3JebHgErAcdXreoIOCmkQyPGtA167RoO9T2KaRD9/tEAoEx/cC3nenS5nctNf+r1WNs7zcSoaIYuWKfH7VjSTGkaUK0JTRnKPsWgGlhd6WsCxoY2hxzwxAOUu1+nfwXLreLpXKxfL5TqByP4siSFbJK1kmJ7JEKOSVnpEoYuSX35JE8OXfOg/PsvHy2ZpzRzDL5Ief1AxYHnlI=</latexit>

[Mnih et al., 2015]

for learning itself:

ˆ Q

<latexit sha1_base64="HRkZvhA1PdZ3aEYkjWGaVrzY/A=">AB7XicbVDLSgNBEOyNrxhfUY9eBoPgKeyq+LgFvXhMwDwgWcLsZDYZMzuzMwKIeQfvHhQxKv/482/cXaziBoLGoqbrq7gpgzbVz30yksLa+srhXSxubW9s75d29lpaJIrRJeqE2BNORO0aZjhtBMriqOA03Ywvkn9gNVmklxZyYx9SM8FCxkBsrtXojbFCjX64VTcDWiReTiqQo94vf/QGkiQRFYZwrHXc2PjT7EyjHA6K/USTWNMxnhIu5YKHFHtT7NrZ+jIKgMUSmVLGJSpPyemONJ6EgW2M8JmpP96qfif101MeOlPmYgTQwWZLwoTjoxE6etowBQlhk8swUQxeysiI6wMTagUhbCVYrz75cXSeuk6p1WTxtnldp1HkcRDuAQjsGDC6jBLdShCQTu4RGe4cWRzpPz6rzNWwtOPrMPv+C8fwEepI73</latexit>

θ θ + α

r + γ max

a0

ˆ Q(s0, a0; θ) ˆ Q(s, a; θ)

rθ ˆ

Q(s, a; θ)

<latexit sha1_base64="7to+Mt40ixj4ys0rcM4tQWEVfVo=">ACcXicbVHLjtMwFHXCayiv8tgBLKmQu2oQ5UyiIfYjGDckaiMyM1VXTj3jTW2E5k3wBV1D3fx46fYMP4LQZBJQjWTo+5x7ZPk5LJR1F0fcgvHT5ytVrO9c7N27eun2ne/feiSsqK3AiClXYsxQcKmlwQpIUnpUWQacKT9Pz941/+gmtk4X5SMsSZxoWRmZSAHkp6X6NKUcCHivMCKwtPvNWGfIYVJl7K5WLAbfDeAFa+62GL0kN/RWPcyB+PHD9fei/3aT2nl2I+3AhNfm92ECqIKk32mp7Kun2olG0Bt8m45b0WIujpPstnhei0mhIKHBuOo5KmtVgSQqFq05cOSxBnMCp54a0Ohm9bqxFX/qlTnPCuXIb5W/0zUoJ1b6tRPaqDc/es14v+8aUXZ61ktTVkRGrE5KsUp4I39fO5tChILT0BYaW/Kxc5WBDkP6mzLuFNg5e/n7xNTp6Pxgejg+MXvcN3bR07BHbZQM2Zq/YIfvAjtiECfYjeBA8Dp4EP8OHIQ93N6Nh0Gbus78QDn8Bxyq6fA=</latexit>

[Watkins, 1989]

Q∗(s, a) := max

π

Qπ(s, a)

<latexit sha1_base64="rBfmq1u3Ee+W/A/4LPk3OZYW4zw=">AC3icbZDLSsNAFIYnXmu9RV26CS1CFSmJFW8gFN24bMFeoIlhMp20QycXZiZiCdm78VXcuFDErS/gzrdxkgZR6w/D/HznHGbO74SUcKHrn8rM7Nz8wmJhqbi8srq2rm5stnkQMYRbKAB6zqQY0p83BJEUNwNGYaeQ3HGV2m9c4tZpwE/rUYh9jy4MAnLkFQSGSrpeZNvJdU+D7cPTs3PXhnx2ZIEknTK+O2WtareiZt2hi5KYNcDVv9MPsBijzsC0Qh5z1D4UVQyYIojgpmhHIUQjOMA9aX3oYW7F2S6JtiNJX3MDJo8vtIz+nIihx/nYc2SnB8WQ/62l8L9aLxLuiRUTP4wE9tHkITeimgi0NBitTxhGgo6lgYgR+VcNDSGDSMj4ilkIp6mOvleNu2DqlGr1pqH5fpFHkcBbIMSqADHIM6uAIN0AI3INH8AxelAflSXlV3iatM0o+swV+SXn/Amoymio=</latexit>

s

<latexit sha1_base64="d0SknmjHALu9tUEsf1X4Gl4nQ=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L92NLg=</latexit>

SLIDE 7

Maximization: Approach #1

7

learn a policy network

w w + αrw ˆ Q(s, π(s; w); θ)

<latexit sha1_base64="L7Ld0xgjtZ7EXk0eu6OyViRnKg=">ACIHicbVBNSyNBEO3xa7PxK67HvTQGIaKEiS7GxYvoxaOCUSETQk2nxmns6Rm6axzCkJ/iZf/KXjwojf9NU5iEL8eFDzeq6Kqnp8oacl1n5yJyanpmR+ln+XZufmFxcrSr1Mbp0ZgS8QqNuc+WFRSY4skKTxPDELkKzLw+G/tkVGitjfUL9BDsRXGgZSAFUSN1KM/MUBgTGxBnP1j1QSQieBl9BN8GXgjEj2t2w0tkze5ma7sehUiw1q1U3bo7Av9KGmNSZWMcdSuPXi8WaYSahAJr2w03oU4OhqRQOCh7qcUExCVcYLugGiK0nXz04ICvFkqPB7EpShMfqe8ncois7Ud+0RkBhfazNxS/89opBTudXOokJdTidVGQKk4xH6bFe9KgINUvCAgji1u5CMGAoCLT8iEv0Nsv738lZxu1htb9a3jP9W9/XEcJfabrbAa7Am2OH7Ii1mGDX7D+7ZXfOP+fGuXceXlsnPHMvsA5/kFkLGjTw=</latexit>

π(s; w)

<latexit sha1_base64="1MIknYNq7VAkKATzksYcMoYxME=">AB73icbVDLSsNAFL2pr1pfVZduBotQNyW14gM3RTcuK9gHtKFMpN26GQSZyZKCf0JNy4UcevuPNvnKRB1HrgwuGce7n3HjfkTGnb/rRyC4tLyv51cLa+sbmVnF7p6WCSBLaJAEPZMfFinImaFMzWknlBT7Lqdtd3yV+O17KhULxK2ehNTx8VAwjxGsjdTphaysLh4O+8WSXbFToHlSzUgJMjT6xY/eICRT4UmHCvVrdqhdmIsNSOcTgu9SNEQkzEe0q6hAvtUOXF67xQdGWAvECaEhql6s+JGPtKTXzXdPpYj9RfLxH/87qR9s6cmIkw0lSQ2SIv4kgHKHkeDZikRPOJIZhIZm5FZIQlJtpEVEhDOE9w8v3yPGkdVaq1Su3muFS/zOLIwx7sQxmqcAp1uIYGNIEAh0d4hfrznqyXq23WvOymZ24Res9y9hFY+s</latexit>

no need to solve , however, exploration is hard

max

a

ˆ Q(s, a; θ)

<latexit sha1_base64="+kxmX29m5UaGb6Z4aI6dGraVuJc=">ACBHicbVDJSgNBEO2JW4xb1GMujUGIGFixAUvQS8eEzALZIahptNJmvQsdNeIYcjBi7/ixYMiXv0Ib/6NkwVR4OCx3tVNVzQyk0muankVpYXFpeSa9m1tY3Nrey2zsNHUSK8ToLZKBaLmguhc/rKFDyVqg4eK7kTXdwNfabt1xpEfg3OAy57UHPF13BABPJyeYsD+6cGEbU6gPSWkEfwoWFfY5w4GTzZtGcgM6T0ozkyQxVJ/thdQIWedxHJkHrdskM0Y5BoWCSjzJWpHkIbA93k6oDx7Xdjx5YkT3E6VDu4FKykc6UX9OxOBpPfTcpNMD7Ou/3lj8z2tH2D2zY+GHEXKfTRd1I0kxoONEaEcozlAOEwJMieRWyvqgGSW2YSwvkYJ98vz5PGUbFULpZrx/nK5SyONMmRPVIgJXJKuSaVEmdMHJPHskzeTEejCfj1XibtqaM2cwu+QXj/QtuVJdy</latexit>

[Silver et al., 2014]

gradually improve the policy, by increasing :

ˆ Q(s, π(s; w); θ)

<latexit sha1_base64="xD+CIvHeGLwEMNXuZbot32YjQx0=">ACAnicbVDJSgNBEO2JW4xb1JN4aQxCAhImRlzIJejFYwJmgcwQejqdTJOehe4aJQzBi7/ixYMiXv0Kb/6NPUkQNT4oeLxXRVU9JxRcgWl+GqmFxaXlfRqZm19Y3Mru73TVEkKWvQASy7RDFBPdZAzgI1g4lI54jWMsZXiV+65ZJxQP/BkYhsz0y8HmfUwJa6mb3LJcArufVkRXyvKrcFSoWuAxIoZvNmUVzAjxPSjOSQzPUutkPqxfQyGM+UEGU6pTMEOyYSOBUsHGihQLCR2SAeto6hOPKTuevDGh1rp4X4gdfmAJ+rPiZh4So08R3d6BFz10vE/7xOBP1zO+Z+GAHz6XRPxIYApzkgXtcMgpipAmhkutbMXWJBR0aplJCBcJTr9fnifN42KpXCzXT3LVy1kcabSPDlAeldAZqJrVEMNRNE9ekTP6MV4MJ6MV+Nt2poyZjO76BeM9y8585Yu</latexit>

[Kakade, Langford 2002 & Matheron et al., 2019]

seems to me like an over-reaction! avoid it using policy gradient methods (super popular recently)

SLIDE 8

s

<latexit sha1_base64="d0SknmjHALu9tUEsf1X4Gl4nQ=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L92NLg=</latexit>

a

<latexit sha1_base64="F2D/FvNhHLsAPKNyXxvNekAF7Nw=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UoP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L3CWNHA=</latexit>

θ

<latexit sha1_base64="knGdMn0xReZYWGO9VkaYl80PCnY=">AB7XicbVDLSgNBEJyNrxhfUY9eBoPgKewa8XELevEYwTwgWcLsZJKMmZ1ZnqFsOQfvHhQxKv/482/cXaziBoLGoqbrq7gkhwA676RSWldW14rpY3Nre2d8u5ey6hYU9akSijdCYhgkvWBA6CdSLNSBgI1g4m16nfmDacCXvYBoxPyQjyYecErBSqwdjBqRfrhVNwNeJF5OKihHo1/+6A0UjUMmgQpiTNdzI/AToFTwWalXmxYROiEjFjXUklCZvwku3aGj6wywEOlbUnAmfpzIiGhMdMwsJ0hgbH56Xif143huGFn3AZxcAknS8axgKDwunreMA1oyCmlhCqub0V0zHRhINqJSFcJni7PvlRdI6qXq1au32tFK/yuMogN0iI6Rh85RHd2gBmoiu7RI3pGL45ynpxX523eWnDymX30C87F7y/j18=</latexit>

start with an initial

8

repeat:

ˆ Q(s, a; θ)

<latexit sha1_base64="ti4jaOuBYFP3DZPjzT73gzt4qQc=">AB+3icbVDJSgNBEO2JW4zbGI9eGoMQcLEiAtegl48JmAWyIRQ0+kTXoWumvEMORXvHhQxKs/4s2/cTIZRI0PCh7vVFVzwmk0GhZn0ZmaXldS27ntvY3NreMXfzTe2HivEG86Wv2g5oLoXHGyhQ8nagOLiO5C1nfDPzW/dcaeF7dzgJeNeFoScGgHGUs/M2yNAWi/qY7iycQRjnpmwSpZCegiKaekQFLUeuaH3fdZ6HIPmQStO2UrwG4ECgWTfJqzQ80DYGMY8k5MPXC57kbJ7VN6GCt9OvBVXB7SRP05EYGr9cR14k4XcKT/ejPxP68T4uCiGwkvCJF7bL5oEqKPp0FQftCcYZyEhNgSsS3UjYCBQzjuHJCJcznH2/vEiaJ6VypVSpnxaq12kcWbJPDkiRlMk5qZJbUiMNwsgDeSTP5MWYGk/Gq/E2b80Y6cwe+QXj/QuNZOe</latexit>

max

a∈A

ˆ Q(s, a; θ)

<latexit sha1_base64="XpsMT3X4EkY7qjYq78t8RtF2Lc=">ACEHicbZDLSgMxFIYz9V5vVZdugkVUkDJV8YKbqhuXFWwrdEo5k6ZtaCYzJGfEMvQR3Pgqblwo4talO9/GTC3i7YfAx3/OIef8fiSFQd9dzJj4xOTU9Mz2dm5+YXF3NJy1YSxZrzCQhnqKx8Ml0LxCgqU/CrSHAJf8prfO0vrtWujQjVJfYj3gigo0RbMEBrNXMbXgA3zQ8oSxhl4GkJwOvC0gvNs02HvY5QhbzVzeLbhD0b9QHEGejFRu5t68VsjigCtkEoypF90IGwloFEzyQdaLDY+A9aD6xYVBNw0kuFBA7punRZth9o+hXTofp9IDCmH/i2M13a/K6l5n+1eoztw0YiVBQjV+zo3YsKY0TYe2hOYMZd8CMC3srpR1QNDm2F2GMJRqv2vk/9CdadQ3C3sXuzlS6ejOKbJKlkjm6RIDkiJnJMyqRBGbsk9eSRPzp3z4Dw7L5+tGWc0s0J+yHn9ANkJnJQ=</latexit>

a ∈ A

<latexit sha1_base64="92wXcb1URgpkucA/hDpCEvp4Js=">AB9XicbVDLSsNAFL2pr1pfVZduBovgqiRWfOyqblxWsA9oYplMJ+3QySTMTJQS+h9uXCji1n9x5984aYOo9cDA4Zx7uWeOH3OmtG1/WoWFxaXleJqaW19Y3OrvL3TUlEiCW2SiEey42NFORO0qZnmtBNLikOf07Y/usr89j2VikXiVo9j6oV4IFjACNZGusMuE26I9ZBgji565YpdtadA8TJSQVyNHrlD7cfkSkQhOleo6dqy9FEvNCKeTkpsoGmMywgPaNVTgkCovnaeoAOj9FEQSfOERlP150aKQ6XGoW8ms4Tqr5eJ/3ndRAdnXspEnGgqyOxQkHCkI5RVgPpMUqL52BMJDNZERliYk2RZWmJZxnOPn+8jxpHVWdWrV2c1ypX+Z1FGEP9uEQHDiFOlxDA5pAQMIjPMOL9WA9Wa/W2y0YOU7u/AL1vsXItGSaA=</latexit>

a a + µra ˆ Q(s, a; θ)

<latexit sha1_base64="pP5tHOtFKfAIwlSXmpQPxvaH4o=">ACGHicbVDLSgNBEJz1bXxFPXoZDEJEiRsVH3gRvXiMYDSQDaF30msGZ2eXmV4lLPkML/6KFw+KeM3Nv3ETg/gqaCiqunu8mMlLbnuzMyOjY+MTk1nZuZnZtfyC8uXdoMQKrIlKRqflgUmNVZKksBYbhNBXeOXfnPb9q1s0Vkb6gjoxNkK41jKQAiTmvkt8BQGBMZEdxz4BvfCxNPgK2im0PXaQPy8aDfhyKM2Eqw38wW35A7A/5LykBTYEJVmvue1IpGEqEkosLZedmNqpGBICoXdnJdYjEHcwDXWM6ohRNtIB491+VqmtHgQmaw08YH6fSKF0NpO6GedIVDb/vb64n9ePaHgoJFKHSeEWnwuChLFKeL9lHhLGhSkOhkBYWR2KxdtMCAoyzI3COGwj72vl/+Sy+1Seae0c75bOD4ZxjHFVtgqK7Iy2fH7IxVWJUJds8e2TN7cR6cJ+fVeftsHXGM8vsB5zeB4DIn48=</latexit>

Maximization: Approach #2

SLIDE 9

Maximization: Approach #3

9

restrict the function class so that max

a

ˆ Q(s, a; θ)

<latexit sha1_base64="+kxmX29m5UaGb6Z4aI6dGraVuJc=">ACBHicbVDJSgNBEO2JW4xb1GMujUGIGFixAUvQS8eEzALZIahptNJmvQsdNeIYcjBi7/ixYMiXv0Ib/6NkwVR4OCx3tVNVzQyk0muankVpYXFpeSa9m1tY3Nrey2zsNHUSK8ToLZKBaLmguhc/rKFDyVqg4eK7kTXdwNfabt1xpEfg3OAy57UHPF13BABPJyeYsD+6cGEbU6gPSWkEfwoWFfY5w4GTzZtGcgM6T0ozkyQxVJ/thdQIWedxHJkHrdskM0Y5BoWCSjzJWpHkIbA93k6oDx7Xdjx5YkT3E6VDu4FKykc6UX9OxOBpPfTcpNMD7Ou/3lj8z2tH2D2zY+GHEXKfTRd1I0kxoONEaEcozlAOEwJMieRWyvqgGSW2YSwvkYJ98vz5PGUbFULpZrx/nK5SyONMmRPVIgJXJKuSaVEmdMHJPHskzeTEejCfj1XibtqaM2cwu+QXj/QtuVJdy</latexit>

input-convex neural networks [Amos et al., 2017]

| max

a

Q∗(s, a) − max

a

ˆ Q(s, a; θ)|

<latexit sha1_base64="3qj6oaZT9mGOkfvIr4FoXJI9Lg=">ACGHicbZDJSgNBEIZ74h63qEcvjUGIonGi4oKXoBePBkwMZGKo6fQkjT0L3TViGPMYXnwVLx4U8Zqb+PMGMXth4afr6qort8OpNBom9GZmR0bHxicio7PTM7N59bWKxpP1SMV5kvfVW3QXMpPF5FgZLXA8XBtSW/sK9OkvrFNVda+N459gLedKHjCUcwBi1clu3lgs3rQj6lctovV/QG7C2+YmsLiCtJOzIwi5HWLt5fJm0UxF/5rS0OTJUGet3MBq+yx0uYdMgtaNkhlgMwKFgknez1qh5gGwK+jwRmw9cLluRulhfboakzZ1fBU/D2lKv09E4Grdc+240wXs6t+1BP5Xa4ToHDQj4QUhco9LHJCSdGnSUq0LRnKHuxAaZE/FfKuqCAYZxlNg3hMNHe18l/TW27WNop7lR28+XjYRyTZJmskAIpkX1SJqfkjFQJI3fkgTyRZ+PeDRejNeP1owxnFkiP2QM3gHI9J+7</latexit>

is easy

s

<latexit sha1_base64="d0SknmjHALu9tUEsf1X4Gl4nQ=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L92NLg=</latexit>

a

<latexit sha1_base64="F2D/FvNhHLsAPKNyXxvNekAF7Nw=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UoP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L3CWNHA=</latexit>

ˆ Q(s, a; θ)

<latexit sha1_base64="ti4jaOuBYFP3DZPjzT73gzt4qQc=">AB+3icbVDJSgNBEO2JW4zbGI9eGoMQcLEiAtegl48JmAWyIRQ0+kTXoWumvEMORXvHhQxKs/4s2/cTIZRI0PCh7vVFVzwmk0GhZn0ZmaXldS27ntvY3NreMXfzTe2HivEG86Wv2g5oLoXHGyhQ8nagOLiO5C1nfDPzW/dcaeF7dzgJeNeFoScGgHGUs/M2yNAWi/qY7iycQRjnpmwSpZCegiKaekQFLUeuaH3fdZ6HIPmQStO2UrwG4ECgWTfJqzQ80DYGMY8k5MPXC57kbJ7VN6GCt9OvBVXB7SRP05EYGr9cR14k4XcKT/ejPxP68T4uCiGwkvCJF7bL5oEqKPp0FQftCcYZyEhNgSsS3UjYCBQzjuHJCJcznH2/vEiaJ6VypVSpnxaq12kcWbJPDkiRlMk5qZJbUiMNwsgDeSTP5MWYGk/Gq/E2b80Y6cwe+QXj/QuNZOe</latexit>

θa

<latexit sha1_base64="IT9hW2y1ls9zH5479V3pT4nC2k=">AB73icbVBNS8NAEN3Ur1q/qh69LBbBU0mt+HErevFYwX5AG8pmO2mXbjZxdyKU0D/hxYMiXv073vw3JmkQtT4YeLw3w8w8N5TCoG1/WoWl5ZXVteJ6aWNza3unvLvXNkGkObR4IAPdZkBKRS0UKCEbqiB+a6Eju5Tv3OA2gjAnWH0xAcn42U8ARnmEjdPo4B2YANyhW7amegi6SWkwrJ0RyUP/rDgEc+KOSGdOr2SE6MdMouIRZqR8ZCBmfsBH0EqYD8aJs3tn9ChRhtQLdFIKab+nIiZb8zUd5NOn+HY/PVS8T+vF6F34cRChRGC4vNFXiQpBjR9ng6FBo5ymhDGtUhupXzMNOYRFTKQrhMcfb98iJpn1Rr9Wr9rTSuMrjKJIDckiOSY2ckwa5IU3SIpxI8kieyYt1bz1Zr9bvLVg5TP75Bes9y8u/pAz</latexit>

θs

<latexit sha1_base64="tp6HgzD/6nEp65S6z94swcls5Ts=">AB73icbVBNS8NAEN3Ur1q/qh69LBbBU0mt+HErevFYwX5AG8pmO2mXbjZxdyKU0D/hxYMiXv073vw3JmkQtT4YeLw3w8w8N5TCoG1/WoWl5ZXVteJ6aWNza3unvLvXNkGkObR4IAPdZkBKRS0UKCEbqiB+a6Eju5Tv3OA2gjAnWH0xAcn42U8ARnmEjdPo4B2cAMyhW7amegi6SWkwrJ0RyUP/rDgEc+KOSGdOr2SE6MdMouIRZqR8ZCBmfsBH0EqYD8aJs3tn9ChRhtQLdFIKab+nIiZb8zUd5NOn+HY/PVS8T+vF6F34cRChRGC4vNFXiQpBjR9ng6FBo5ymhDGtUhupXzMNOYRFTKQrhMcfb98iJpn1Rr9Wr9rTSuMrjKJIDckiOSY2ckwa5IU3SIpxI8kieyYt1bz1Zr9bvLVg5TP75Bes9y9KRpBF</latexit>

θa

<latexit sha1_base64="IT9hW2y1ls9zH5479V3pT4nC2k=">AB73icbVBNS8NAEN3Ur1q/qh69LBbBU0mt+HErevFYwX5AG8pmO2mXbjZxdyKU0D/hxYMiXv073vw3JmkQtT4YeLw3w8w8N5TCoG1/WoWl5ZXVteJ6aWNza3unvLvXNkGkObR4IAPdZkBKRS0UKCEbqiB+a6Eju5Tv3OA2gjAnWH0xAcn42U8ARnmEjdPo4B2YANyhW7amegi6SWkwrJ0RyUP/rDgEc+KOSGdOr2SE6MdMouIRZqR8ZCBmfsBH0EqYD8aJs3tn9ChRhtQLdFIKab+nIiZb8zUd5NOn+HY/PVS8T+vF6F34cRChRGC4vNFXiQpBjR9ng6FBo5ymhDGtUhupXzMNOYRFTKQrhMcfb98iJpn1Rr9Wr9rTSuMrjKJIDckiOSY2ckwa5IU3SIpxI8kieyYt1bz1Zr9bvLVg5TP75Bes9y8u/pAz</latexit>

θa

<latexit sha1_base64="IT9hW2y1ls9zH5479V3pT4nC2k=">AB73icbVBNS8NAEN3Ur1q/qh69LBbBU0mt+HErevFYwX5AG8pmO2mXbjZxdyKU0D/hxYMiXv073vw3JmkQtT4YeLw3w8w8N5TCoG1/WoWl5ZXVteJ6aWNza3unvLvXNkGkObR4IAPdZkBKRS0UKCEbqiB+a6Eju5Tv3OA2gjAnWH0xAcn42U8ARnmEjdPo4B2YANyhW7amegi6SWkwrJ0RyUP/rDgEc+KOSGdOr2SE6MdMouIRZqR8ZCBmfsBH0EqYD8aJs3tn9ChRhtQLdFIKab+nIiZb8zUd5NOn+HY/PVS8T+vF6F34cRChRGC4vNFXiQpBjR9ng6FBo5ymhDGtUhupXzMNOYRFTKQrhMcfb98iJpn1Rr9Wr9rTSuMrjKJIDckiOSY2ckwa5IU3SIpxI8kieyYt1bz1Zr9bvLVg5TP75Bes9y8u/pAz</latexit>

θs

<latexit sha1_base64="tp6HgzD/6nEp65S6z94swcls5Ts=">AB73icbVBNS8NAEN3Ur1q/qh69LBbBU0mt+HErevFYwX5AG8pmO2mXbjZxdyKU0D/hxYMiXv073vw3JmkQtT4YeLw3w8w8N5TCoG1/WoWl5ZXVteJ6aWNza3unvLvXNkGkObR4IAPdZkBKRS0UKCEbqiB+a6Eju5Tv3OA2gjAnWH0xAcn42U8ARnmEjdPo4B2cAMyhW7amegi6SWkwrJ0RyUP/rDgEc+KOSGdOr2SE6MdMouIRZqR8ZCBmfsBH0EqYD8aJs3tn9ChRhtQLdFIKab+nIiZb8zUd5NOn+HY/PVS8T+vF6F34cRChRGC4vNFXiQpBjR9ng6FBo5ymhDGtUhupXzMNOYRFTKQrhMcfb98iJpn1Rr9Wr9rTSuMrjKJIDckiOSY2ckwa5IU3SIpxI8kieyYt1bz1Zr9bvLVg5TP75Bes9y9KRpBF</latexit>

θs

<latexit sha1_base64="tp6HgzD/6nEp65S6z94swcls5Ts=">AB73icbVBNS8NAEN3Ur1q/qh69LBbBU0mt+HErevFYwX5AG8pmO2mXbjZxdyKU0D/hxYMiXv073vw3JmkQtT4YeLw3w8w8N5TCoG1/WoWl5ZXVteJ6aWNza3unvLvXNkGkObR4IAPdZkBKRS0UKCEbqiB+a6Eju5Tv3OA2gjAnWH0xAcn42U8ARnmEjdPo4B2cAMyhW7amegi6SWkwrJ0RyUP/rDgEc+KOSGdOr2SE6MdMouIRZqR8ZCBmfsBH0EqYD8aJs3tn9ChRhtQLdFIKab+nIiZb8zUd5NOn+HY/PVS8T+vF6F34cRChRGC4vNFXiQpBjR9ng6FBo5ymhDGtUhupXzMNOYRFTKQrhMcfb98iJpn1Rr9Wr9rTSuMrjKJIDckiOSY2ckwa5IU3SIpxI8kieyYt1bz1Zr9bvLVg5TP75Bes9y9KRpBF</latexit>

+

<latexit sha1_base64="pXA/8fIRN+URJ4EwHP7lNDkb18w=">AB6HicbVDLSsNAFL2pr1pfVZduBosgCWx4mNXdOyBfuANpTJdNKOnUzCzEQoV/gxoUibv0kd/6NkzSIWg9cOJxzL/fe40WcKW3bn1ZhaXlda24XtrY3NreKe/utVUYS0JbJOSh7HpYUc4EbWmOe1GkuLA47TjTW5Sv/NApWKhuNPTiLoBHgnmM4K1kZong3LFrtoZ0CJxclKBHI1B+aM/DEkcUKEJx0r1HDvSboKlZoTWakfKxphMsEj2jNU4IAqN8kOnaEjowyRH0pTQqNM/TmR4ECpaeCZzgDrsfrpeJ/Xi/W/qWbMBHFmgoyX+THOkQpV+jIZOUaD41BPJzK2IjLHERJtsSlkIVynOv19eJO3TqlOr1pnlfp1HkcRDuAQjsGBC6jDLTSgBQoPMIzvFj31pP1ar3NWwtWPrMPv2C9fwGKTYzm</latexit>

θa ≥ 0

<latexit sha1_base64="PCW+E5D5xZpcVuHlniog4CK5XOI=">AB+HicbVDJSgNBEO2JW4xLRj16aQyCpzAx4nILevEYwSyQhKGnU5M06VnsrhFiyJd48aCIVz/Fm39jZzKIGh8UPN6roqeF0uh0XE+rdzS8srqWn69sLG5tV20d3abOkoUhwaPZKTaHtMgRQgNFCihHStgSeh5Y2uZn7rHpQWUXiL4xh6ARuEwhecoZFcu9jFISBzGe0O4I46rl1yk4KukgqGSmRDHX/uj2I54ECKXTOtOxYmxN2EKBZcwLXQTDTHjIzaAjqEhC0D3JunhU3polD71I2UqRJqPycmLNB6HimM2A41H+9mfif10nQP+9NRBgnCGfL/ITSTGisxRoXyjgKMeGMK6EuZXyIVOMo8mqkIZwMcPp98uLpHlcrlTL1ZuTUu0yiyNP9skBOSIVckZq5JrUSYNwkpBH8kxerAfryXq13uatOSub2SO/YL1/AdwSkrM=</latexit>

two properties better co-exist.

SLIDE 10

Our Solution: Deep RBF Q Functions

10

offers both desired properties at the same time
accurate and efficient action maximization
universal function approximation.

softmax

… …

dot product

hidden layers

s

<latexit sha1_base64="EF3gVTokzRtz6drbupAhSvs3q4=">AB6XicbVDLSsNAFJ3UV42vqks3g6XgqiQqPnZFNy5bsA9oQ5lMb9qhk0mYmQgl9AtcCQri1k9y5d84SYOo9cCFwzn3cu89fsyZ0o7zaZVWVtfWN8qb9tb2zu5eZf+go6JEUmjTiEey5xMFnAloa6Y59GIJPQ5dP3pbeZ3H0AqFol7PYvBC8lYsIBRo3UsNK1ak7OfAycQtSRQWaw8rHYBTRJAShKSdK9V0n1l5KpGaUw9yuDRIFMaFTMoa+oYKEoLw0v3SOa0YZ4SCSpoTGuWr/mEhJqNQs9E1nSPRE/fUy8T+vn+jgykuZiBMNgi4WBQnHOsLZ23jEJFDNZ4YQKpk5FtMJkYRqE46dp3Cd4eL752XSOa27Z/Wz1nm1cVPkUZH6BidIBdoga6Q03URhQBekTP6MWaWk/Wq/W2aC1Zxcwh+gXr/QtcoY1Z</latexit>

a

<latexit sha1_base64="bUPuLPmdR34XjWzdEt1jGkvsAk=">AB6XicbVDLSsNAFJ3UV42vqks3g6XgqiQqPnZFNy5bsA9oQ5lMb9qhk0mYmQgl9AtcCQri1k9y5d84SYOo9cCFwzn3cu89fsyZ0o7zaZVWVtfWN8qb9tb2zu5eZf+go6JEUmjTiEey5xMFnAloa6Y59GIJPQ5dP3pbeZ3H0AqFol7PYvBC8lYsIBRo3UIsNK1ak7OfAycQtSRQWaw8rHYBTRJAShKSdK9V0n1l5KpGaUw9yuDRIFMaFTMoa+oYKEoLw0v3SOa0YZ4SCSpoTGuWr/mEhJqNQs9E1nSPRE/fUy8T+vn+jgykuZiBMNgi4WBQnHOsLZ23jEJFDNZ4YQKpk5FtMJkYRqE46dp3Cd4eL752XSOa27Z/Wz1nm1cVPkUZH6BidIBdoga6Q03URhQBekTP6MWaWk/Wq/W2aC1Zxcwh+gXr/QtBR41H</latexit>

a1:N

<latexit sha1_base64="CA25IiFiC3oik9wIk1eV9k2oxQ=">AB73icbVDLSsNAFL2prxpfVZduBkvBVUlUfK2KblxJBfuANpTJdNIOnUzizEQoR/hSlAQt36PK/GSRtErQcuHM65l3v8WPOlHacT6uwsLi0vFJctdfWNza3Sts7TRUlktAGiXgk2z5WlDNBG5pTtuxpDj0OW35o6vMbz1QqVgk7vQ4pl6IB4IFjGBtpBbupe7FzaRXKjtVZwo0T9yclCFHvVf6PYjkoRUaMKxUh3XibWXYqkZ4XRiV7qJojEmIzygHUMFDqny0um9E1QxSh8FkTQlNJq9o+JFIdKjUPfdIZYD9VfLxP/8zqJDs68lIk40VSQ2aIg4UhHKHse9ZmkRPOxIZhIZo5FZIglJtpEZE9TOM9w8v3zPGkeVt2j6tHtcbl2medRhD3YhwNw4RqcA1aACBETzCM7xY9aT9Wq9zVoLVj6zC79gvX8BSLGPkw=</latexit>

v1:N

<latexit sha1_base64="SciXDZvNHatHNODf6xOkzn5Y=">AB73icbVDLSsNAFL2prxpfVZdugqXgqiRWfK2KblxJBfuANpTJdNIOnUzizKRQj/ClaAgbv0eV/6NkzSIWg9cOJxzL/fe40WMSmXbn0ZhaXlda24bm5sbm3vlHb3WjKMBSZNHLJQdDwkCaOcNBVjHQiQVDgMdL2xtep354QIWnI79U0Im6Ahpz6FCOlpfaknziXt7N+qWxX7QzWInFyUoYcjX7pozcIcRwQrjBDUnYdO1JugoSimJGZWenFkQIj9GQdDXlKCDSTbJ7Z1ZFKwPLD4UurqxMNX9MJCiQchp4ujNAaiT/eqn4n9eNlX/uJpRHsSIczxf5MbNUaKXPWwMqCFZsqgnCgupjLTxCAmGlIzKzFC5SnH7/vEhax1WnVq3dnZTrV3keRTiAQzgCB86gDjfQgCZgGMjPMOL8WA8Ga/G27y1YOQz+/ALxvsXaRiPqA=</latexit>

k·k

<latexit sha1_base64="UAkLneWZSjt3xRr0vurj6WzEHho=">ACBnicbVDLSsNAFJ34rPEVdamLYCm4KqkVH7uiG5cV7AOaUCbTm3bo5MHMjVBKN678FeCgrj1H1z5N07aIGo9cC+Hc+5l5h4/EVyh43waC4tLyurhTVzfWNza9va2W2qOJUMGiwWsWz7VIHgETSQo4B2IoGvoCWP7zK/NYdSMXj6BZHCXgh7Uc84IyilrWgSsgQFc0QaLejG6kvcHumdC1yo6ZWcKe5UclIkOepd68PtxSwNIUImqFKdipOgN6YSORMwMUtuqiChbEj70NE0oiEobzw9Y2KXtNKzg1jqitCequaPjTENlRqFvp4MKQ7UXy8T/M6KQbn3phHSYoQsdlDQSpsjO0sE7vHJTAUI0ok1x/1mYDKilDnZw5TeEiw+n3zfOkeVyuVMvVm5Ni7TLPo0D2ySE5IhVyRmrkmtRJgzByTx7JM3kxHown49V4m40uGPnOHvkF4/0L7seZhA=</latexit>

RBF layer

b Q

<latexit sha1_base64="gKd2EUikoAVz+E+VRA4g4ZT/seQ=">AB8XicbVDLSsNAFJ3UV62vqks3g0VwVIrPnZFNy5bsA9sQ5lMJu3QySTM3Cgl9C/cuFDErX/jzr9xkgZR64ELh3Pu5d573EhwDb9aRWldW14rpY3Nre2d8u5eR4exoqxNQxGqnks0E1yNnAQrBcpRgJXsK47uU797j1TmofyFqYRcwIyktznlICR7gYP3GNjArg1LFfsqp0BL5JaTioR3NY/h4IY0DJoEKonW/ZkfgJEQBp4LNSoNYs4jQCRmxvqGSBEw7SXbxDB8ZxcN+qExJwJn6cyIhgdbTwDWdAYGx/ul4n9ePwb/wkm4jGJgks4X+bHAEOL0fexSiIqSGEKm5uxXRMFKFgQiplIVymOPt+eZF0Tq1erXeOq0rvI4iugAHaJjVEPnqIFuUBO1EUSPaJn9GJp68l6td7mrQUrn9lHv2C9fwFDEZDI</latexit> β <latexit sha1_base64="F4vN4+Bz7orLUGKmZFZH7+yew=">AB7HicbVBNS8NAEJ3Ur1q/qh69BIvgqSQqftyKXjxWMG2hDWznbRLN5uwuxFK6W/w4kERr/4gb/4bN2kQtT4YeLw3w8y8IOFMacf5tEpLyura+X1ysbm1vZOdXevpeJUvRozGPZCYhCzgR6mOnUQiQKO7WB8k/ntB5SKxeJeTxL0IzIULGSUaCN5vQA16VdrTt3JYS8StyA1KNDsVz96g5imEQpNOVGq6zqJ9qdEakY5ziq9VGFC6JgMsWuoIBEqf5ofO7OPjDKw1iaEtrO1Z8TUxIpNYkC0xkRPVJ/vUz8z+umOrz0p0wkqUZB54vClNs6trP7QGTSDWfGEKoZOZWm46IJFSbfCp5CFcZzr9fXiStk7p7Wj+9O6s1ros4ynAh3AMLlxA26hCR5QYPAIz/BiCevJerXe5q0lq5jZh1+w3r8A3J6O2w=</latexit>

(RBF: radial-basis function)

SLIDE 11

Deep RBF Q Functions (1):

11

a

<latexit sha1_base64="F2D/FvNhHLsAPKNyXxvNekAF7Nw=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UoP1yxa7aGcgicXJSgRz1fvmjN4hYEmComaBKdR071u6USs2ZwFmplyiMKRvTIXYNDWmAyp1mh87IkVEGxI+kqVCTP05MaWBUpPAM50B1SP10vF/7xuov1Ld8rDONEYsvkiPxFERyT9mgy4RKbFxBDKJDe3EjaikjJtsilIVylOP9+eZG0TqrOafW0cVapXedxFOEADuEYHLiAGtxCHZrAOERnuHFurerFfrbd5asPKZfgF6/0L3CWNHA=</latexit>

a1

<latexit sha1_base64="0qE4jt9RoXywk6P0+qfHQjEzJOY=">AB6nicbVDLSsNAFL2pr1pfUZduBovgqiRWfOyKblxWtA9oQ5lMJ+3QySTMTIQS+gluXCji1i9y5984SYOo9cCFwzn3cu89fsyZ0o7zaZWldW18rlY3Nre0de3evraJEtoiEY9k18eKciZoSzPNaTeWFIc+px1/cp35nQcqFYvEvZ7G1AvxSLCAEayNdIcH7sCuOjUnB1okbkGqUKA5sD/6w4gkIRWacKxUz3Vi7aVYakY4nVX6iaIxJhM8oj1DBQ6p8tL81Bk6MsoQBZE0JTK1Z8TKQ6Vmoa+6QyxHqu/Xib+5/USHVx4KRNxoqkg80VBwpGOUPY3GjJieZTQzCRzNyKyBhLTLRJp5KHcJnh7PvlRdI+qbn1Wv32tNq4KuIowEcwjG4cA4NuIEmtIDACB7hGV4sbj1Zr9bvLVkFTP78AvW+xcBbo3A</latexit>

v1

<latexit sha1_base64="SyHdAaMFCdmWprFqRE8PdCjw3mQ=">AB6nicbVDLSsNAFL2pr1pfVZduBovgqiS2+NgV3bisaB/QhjKZTtqhk0mYmRK6Ce4caGIW7/InX/jJA2i1gMXDufcy73eBFnStv2p1VYWV1b3yhulra2d3b3yvsHbRXGktAWCXkoux5WlDNBW5pTruRpDjwO14k5vU70ypVCwUD3oWUTfAI8F8RrA20v104AzKFbtqZ0DLxMlJBXI0B+WP/jAkcUCFJhwr1XPsSLsJlpoRTuelfqxohMkEj2jPUIEDqtwkO3WOTowyRH4oTQmNMvXnRIDpWaBZzoDrMfqr5eK/3m9WPuXbsJEFGsqyGKRH3OkQ5T+jYZMUqL5zBMJDO3IjLGEhNt0ilIVylOP9+eZm0z6pOrVq7q1ca13kcRTiCYzgFBy6gAbfQhBYQGMEjPMOLxa0n69V6W7QWrHzmEH7Bev8CIWyN1Q=</latexit>

ˆ Q(a)

<latexit sha1_base64="r7FxKanf7FX8S6irpGoLd62j6a0=">AB8HicbVDLSsNAFJ34rPVdelmsAh1UxIrPnZFNy5bsA9pQ7mZTtqhk0mYmQgl9CvcuFDErZ/jzr9xkgZR64ELh3Pu5d57vIgzpW3701paXldWy9sFDe3tnd2S3v7bRXGktAWCXkoux4oypmgLc0p91IUg8Tjve5Cb1Ow9UKhaKOz2NqBvASDCfEdBGu+PQeNmBU4GpbJdtTPgReLkpIxyNAalj/4wJHFAhSYclOo5dqTdBKRmhNZsR8rGgGZwIj2DBUQUOUm2cEzfGyUIfZDaUponKk/JxIlJoGnukMQI/VXy8V/N6sfYv3YSJKNZUkPkiP+ZYhzj9Hg+ZpETzqSFAJDO3YjIGCUSbjIpZCFcpzr9fXiTt06pTq9aZ+X6dR5HAR2iI1RBDrpAdXSLGqiFCArQI3pGL5a0nqxX623eumTlMwfoF6z3L6Iaj8c=</latexit>

ˆ Q(a) :=

N

X

i=1

g(a − ai)vi

<latexit sha1_base64="PSoa5PvXWmKzZ2HmJMYEOaCbDXI=">ACDHicbVDLSgMxFM3UV62vqks3wSK0C8uMFV9QKLpxJS3YB7R1uJOmbWjmQZIplKEf4MZfceNCEbd+gDv/xkxbRK0HAodzuXmHifgTCrT/DQSC4tLyvJ1dTa+sbmVnp7pyb9UBaJT73RcMBSTnzaFUxWkjEBRch9O6M7iK/fqQCsl871aNAtp2oexLiOgtGSnM60+KFzJQu6i2JKha0esaI3vbnAvC4dgs9zQZjpl5s0J8DyxZiSDZijb6Y9WxyehSz1FOEjZtMxAtSMQihFOx6lWKGkAZA92tTUA5fKdjQ5ZowPtNLBXV/o5yk8UX9OROBKOXIdnXRB9eVfLxb/85qh6p61I+YFoaIemS7qhwrH8fN4A4TlCg+0gSIYPqvmPRBAFG6v9SkhPMYJ98nz5PaUd4q5AuV40zpclZHEu2hfZRFjpFJXSNyqiKCLpHj+gZvRgPxpPxarxNowljNrOLfsF4/wLwT5nL</latexit>

g(a − ai) := e−β||a−ai||

<latexit sha1_base64="QLeovMlVdefM6rcwUihNHYbWUiU=">ACBnicbVDJSgNBEO1xjXEb9SjCYBDiIWFixA2EoBePEcwCyTjUdCpJk56F7h4hTHLy4q948aCIV7/Bm3/jZBJEjQ8KHu9VUVXPCTiTyjQ/tZnZufmFxdRSenldW1d39isSj8UFCvU576oOyCRMw8rimO9UAguA7HmtO7HPm1OxS+d6N6gdoudDxWJtRULFk6zudLOTAZvtn53gb5ZoOKhgMEmkwGNp6xsybCYxpUpiQDJmgbOsfzZPQxc9RTlI2SiYgbIiEIpRjsN0M5QYAO1Bxsx9cBFaUXJG0NjL1ZaRtsXcXnKSNSfExG4UvZdJ+50QXlX28k/uc1QtU+sSLmBaFCj4XtUNuKN8YZWK0mECqeD8mQAWLbzVoFwRQFSeXTkI4HeHo+VpUj3IF4r54vVhpnQxiSNFtskuyZICOSYlckXKpEIouSeP5Jm8aA/ak/aqvY1bZ7TJzBb5Be39CyLZmHE=</latexit>

ˆ Qβ(a) := PN

i=1 e−β||a−ai||vi

PN

i=1 e−β||a−ai||

<latexit sha1_base64="1J24S5XMrn9m27l2c8WMXw7BTts=">ACSnichZBLSxBFIWrx/dEzWiWboMgi4cuqP4AkF0k1VQyKgwPTa3a247hdUPqm4LQ0/PjeusvNHuHFhEDepaYeQRCEHCg7nktVfWGmpCHXvXdqE5NT0zOzc/UP8wuLHxtLy2cmzbXAtkhVqi9CMKhkgm2SpPAi0whxqPA8vD4ezc9vUBuZJt9pkGE3hqtERlIA2ShogN8H4qdB4YdIUK7B+v6BH2kQhW/yOCjkgVdefuN4WxUDT4cwgYEcjgsbwJZ/r9VBo2m23Ir8bfG5smG+skaPzwe6nIY0xIKDCm47kZdQvQJIXCsu7nBjMQ13CFHWsTiNF0iwpFyVdt0uNRqu1JiFfpnxsFxMYM4tA2Y6C+Xc2Ct+bdXKdruFTLKcMBGvF0W54pTyEVfekxoFqYE1ILS0b+WiDxYkWfr1CsLeSNu/v/zWnH1peZutzdOt5uHRGMcsW2Gf2Rrz2A47ZF/ZCWszwW7ZA3tiP50759F5dl5eqzVnvPOJ/aXa5C97B7P5</latexit>

ˆ Qβ(a) :=

N

X

i=1

e−β||a−ai||vi

<latexit sha1_base64="q/oiIcJGqx08MeNDJe5Kx3xQP0o=">ACHnicbVBNSxBEO0xmpg1Jpt4zKVxETYHl5msJhoQJF48iYK7CjvjUNbu9vY80F3jbDMzi/Jxb+Sw4RETzpv3F2HMSvBwWP96qoqhckShqy7Vtr5s3s3Nt38+9rCx8WP36qf/7SNXGqBXZErGJ9HIBJSPskCSFx4lGCAOFR8HpztQ/OkNtZBwd0jhBL4RhJAdSABWSX193R0D8wHcDJGjCt19brklDP5NbTn6S7eV4kq2W3mQCq+DLySQ/86Vfb9gtuwR/SZyKNFiFfb9+7fZjkYkVBgTM+xE/Iy0CSFwrzmpgYTEKcwxF5BIwjReFn5Xs5XCqXPB7EuKiJeqo8nMgiNGYdB0RkCjcxzbyq+5vVSGmx4mYySlDAS94sGqeIU82lWvC81ClLjgoDQsriVixFoEFQkWitD2Jzix8PL0n3e8tpt9oHa43t31Uc8+wrW2ZN5rCfbJvtsn3WYL9YX/Zf3ZhnVv/rEvr6r51xqpmltgTWDd3SEixg=</latexit>

“normalized” (stateless)

g

<latexit sha1_base64="Sc7qn6148d34VOQsNukQgnR+xQ=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UGPbLFbtqZyCLxMlJBXLU+WP3iBiSYChZoIq1XsWLtTKjVnAmelXqIwpmxMh9g1NKQBKneaHTojR0YZED+SpkJNMvXnxJQGSk0Cz3QGVI/UXy8V/O6ifYv3SkP40RjyOaL/EQHZH0azLgEpkWE0Mok9zcStiISsq0yaUhXCV4vz75UXSOqk6p9XTxlmldp3HUYQDOIRjcOACanALdWgCA4RHeIYX6956sl6t3lrwcpn9uEXrPcv5T2NIg=</latexit>

||a − ai||

<latexit sha1_base64="xA90BEa3jwY9PxMxKrH9xRbeBI=">AB8HicbVDLSsNAFJ34rPVdelmsAhuLKkVH7uiG5cV7EPaUG6mk3bozCTMTIS9CvcuFDErZ/jzr8xSYOo9cCFwzn3cu89bsCZNrb9aS0sLi2vrBbWiusbm1vbpZ3dlvZDRWiT+NxXHRc05UzSpmG06gKAiX07Y7vk79gNVmvnyzkwC6gYSuYxAiaR7uMYjqHP4rhfKtsVOwOeJ9WclFGORr/0Rv4JBRUGsJB627VDowTgTKMcDot9kJNAyBjGNJuQiUIqp0oO3iKDxNlgD1fJSUNztSfExEIrSfCToFmJH+6Xif143N6FEzEZhIZKMlvkhRwbH6f4wFTlBg+SQgQxZJbMRmBAmKSjIpZCJcpzr5fnietk0q1VqndnpbrV3kcBbSPDtARqJzVEc3qIGaiCBHtEzerGU9WS9Wm+z1gUrn9lDv2C9fwEIWJCy</latexit>

β = 1

<latexit sha1_base64="gCwqBeWug46pCquLHjKYWbFBmMU=">AB7nicbVBNS8NAEJ3Ur1q/qh69BIvgqSRW/DgIRS8eK9gPaEPZbLft0s0m7E6EvojvHhQxKu/x5v/xk0aRK0PBh7vzTAz48E1+g4n1ZhaXlda24XtrY3NreKe/utXQYK8qaNBSh6vhEM8ElayJHwTqRYiTwBWv7k5vUbz8wpXko73EaMS8gI8mHnBI0UrvnMyRXbr9capOBnuRuDmpQI5Gv/zRG4Q0DphEKojWXdeJ0EuIQk4Fm5V6sWYRoRMyYl1DJQmY9pLs3Jl9ZJSBPQyVKYl2pv6cSEig9TwTWdAcKz/eqn4n9eNcXjhJVxGMTJ54uGsbAxtNPf7QFXjKYGkKo4uZWm46JIhRNQqUshMsUZ98vL5LWSdWtVWt3p5X6dR5HEQ7gEI7BhXOowy0oAkUJvAIz/BiRdaT9Wq9zVsLVj6zD79gvX8B0WyPXQ=</latexit>

g

<latexit sha1_base64="Sc7qn6148d34VOQsNukQgnR+xQ=">AB6HicbVDJSgNBEK2JW4xb1KOXxiB4CjMqLregF48JmAWSIfR0apI2PQvdPUI+QIvHhTx6id582/smQyixgcFj/eqKrnxYIrbdufVmFpeWV1rbhe2tjc2t4p7+61VJRIhk0WiUh2PKpQ8BCbmuBnVgiDTyBbW98k/rtB5SKR+GdnsToBnQYcp8zqo3UGPbLFbtqZyCLxMlJBXLU+WP3iBiSYChZoIq1XsWLtTKjVnAmelXqIwpmxMh9g1NKQBKneaHTojR0YZED+SpkJNMvXnxJQGSk0Cz3QGVI/UXy8V/O6ifYv3SkP40RjyOaL/EQHZH0azLgEpkWE0Mok9zcStiISsq0yaUhXCV4vz75UXSOqk6p9XTxlmldp3HUYQDOIRjcOACanALdWgCA4RHeIYX6956sl6t3lrwcpn9uEXrPcv5T2NIg=</latexit>

||a − ai||

<latexit sha1_base64="xA90BEa3jwY9PxMxKrH9xRbeBI=">AB8HicbVDLSsNAFJ34rPVdelmsAhuLKkVH7uiG5cV7EPaUG6mk3bozCTMTIS9CvcuFDErZ/jzr8xSYOo9cCFwzn3cu89bsCZNrb9aS0sLi2vrBbWiusbm1vbpZ3dlvZDRWiT+NxXHRc05UzSpmG06gKAiX07Y7vk79gNVmvnyzkwC6gYSuYxAiaR7uMYjqHP4rhfKtsVOwOeJ9WclFGORr/0Rv4JBRUGsJB627VDowTgTKMcDot9kJNAyBjGNJuQiUIqp0oO3iKDxNlgD1fJSUNztSfExEIrSfCToFmJH+6Xif143N6FEzEZhIZKMlvkhRwbH6f4wFTlBg+SQgQxZJbMRmBAmKSjIpZCJcpzr5fnietk0q1VqndnpbrV3kcBbSPDtARqJzVEc3qIGaiCBHtEzerGU9WS9Wm+z1gUrn9lDv2C9fwEIWJCy</latexit>

β = 10

<latexit sha1_base64="CG9GHPzUfL9lqnq+EjMk0uE7xQ=">AB73icbVDLSgNBEOyNrxhfUY9eBoPgKewa8XEQgl48RjAmkCxhdjKbDJl9ONMrhCU/4cWDIl79HW/+jZPNImosaCiqunu8mIpNr2p1VYWFxaXimultbWNza3yts7dzpKFONFslItT2quRQhb6JAydux4jTwJG95o6up3rgSosovMVxzN2ADkLhC0bRSO2ux5FeOHavXLGrdgYyT5ycVCBHo1f+6PYjlgQ8RCap1h3HjtFNqULBJ+UuonmMWUjOuAdQ0MacO2m2b0TcmCUPvEjZSpEkqk/J1IaD0OPNMZUBzqv95U/M/rJOifuakI4wR5yGaL/EQSjMj0edIXijOUY0MoU8LcStiQKsrQRFTKQjif4uT75Xlyd1R1atXazXGlfpnHUYQ92IdDcOAU6nANDWgCAwmP8Awv1r31ZL1ab7PWgpXP7MIvWO9fQZGPlw=</latexit>

SLIDE 12

softmax

… …

dot product

hidden layers

s

<latexit sha1_base64="EF3gVTokzRtz6drbupAhSvs3q4=">AB6XicbVDLSsNAFJ3UV42vqks3g6XgqiQqPnZFNy5bsA9oQ5lMb9qhk0mYmQgl9AtcCQri1k9y5d84SYOo9cCFwzn3cu89fsyZ0o7zaZVWVtfWN8qb9tb2zu5eZf+go6JEUmjTiEey5xMFnAloa6Y59GIJPQ5dP3pbeZ3H0AqFol7PYvBC8lYsIBRo3UsNK1ak7OfAycQtSRQWaw8rHYBTRJAShKSdK9V0n1l5KpGaUw9yuDRIFMaFTMoa+oYKEoLw0v3SOa0YZ4SCSpoTGuWr/mEhJqNQs9E1nSPRE/fUy8T+vn+jgykuZiBMNgi4WBQnHOsLZ23jEJFDNZ4YQKpk5FtMJkYRqE46dp3Cd4eL752XSOa27Z/Wz1nm1cVPkUZH6BidIBdoga6Q03URhQBekTP6MWaWk/Wq/W2aC1Zxcwh+gXr/QtcoY1Z</latexit>

a

<latexit sha1_base64="bUPuLPmdR34XjWzdEt1jGkvsAk=">AB6XicbVDLSsNAFJ3UV42vqks3g6XgqiQqPnZFNy5bsA9oQ5lMb9qhk0mYmQgl9AtcCQri1k9y5d84SYOo9cCFwzn3cu89fsyZ0o7zaZVWVtfWN8qb9tb2zu5eZf+go6JEUmjTiEey5xMFnAloa6Y59GIJPQ5dP3pbeZ3H0AqFol7PYvBC8lYsIBRo3UIsNK1ak7OfAycQtSRQWaw8rHYBTRJAShKSdK9V0n1l5KpGaUw9yuDRIFMaFTMoa+oYKEoLw0v3SOa0YZ4SCSpoTGuWr/mEhJqNQs9E1nSPRE/fUy8T+vn+jgykuZiBMNgi4WBQnHOsLZ23jEJFDNZ4YQKpk5FtMJkYRqE46dp3Cd4eL752XSOa27Z/Wz1nm1cVPkUZH6BidIBdoga6Q03URhQBekTP6MWaWk/Wq/W2aC1Zxcwh+gXr/QtBR41H</latexit>

a1:N

<latexit sha1_base64="CA25IiFiC3oik9wIk1eV9k2oxQ=">AB73icbVDLSsNAFL2prxpfVZduBkvBVUlUfK2KblxJBfuANpTJdNIOnUzizEQoR/hSlAQt36PK/GSRtErQcuHM65l3v8WPOlHacT6uwsLi0vFJctdfWNza3Sts7TRUlktAGiXgk2z5WlDNBG5pTtuxpDj0OW35o6vMbz1QqVgk7vQ4pl6IB4IFjGBtpBbupe7FzaRXKjtVZwo0T9yclCFHvVf6PYjkoRUaMKxUh3XibWXYqkZ4XRiV7qJojEmIzygHUMFDqny0um9E1QxSh8FkTQlNJq9o+JFIdKjUPfdIZYD9VfLxP/8zqJDs68lIk40VSQ2aIg4UhHKHse9ZmkRPOxIZhIZo5FZIglJtpEZE9TOM9w8v3zPGkeVt2j6tHtcbl2medRhD3YhwNw4RqcA1aACBETzCM7xY9aT9Wq9zVoLVj6zC79gvX8BSLGPkw=</latexit>

v1:N

<latexit sha1_base64="SciXDZvNHatHNODf6xOkzn5Y=">AB73icbVDLSsNAFL2prxpfVZdugqXgqiRWfK2KblxJBfuANpTJdNIOnUzizKRQj/ClaAgbv0eV/6NkzSIWg9cOJxzL/fe40WMSmXbn0ZhaXlda24bm5sbm3vlHb3WjKMBSZNHLJQdDwkCaOcNBVjHQiQVDgMdL2xtep354QIWnI79U0Im6Ahpz6FCOlpfaknziXt7N+qWxX7QzWInFyUoYcjX7pozcIcRwQrjBDUnYdO1JugoSimJGZWenFkQIj9GQdDXlKCDSTbJ7Z1ZFKwPLD4UurqxMNX9MJCiQchp4ujNAaiT/eqn4n9eNlX/uJpRHsSIczxf5MbNUaKXPWwMqCFZsqgnCgupjLTxCAmGlIzKzFC5SnH7/vEhax1WnVq3dnZTrV3keRTiAQzgCB86gDjfQgCZgGMjPMOL8WA8Ga/G27y1YOQz+/ALxvsXaRiPqA=</latexit>

k·k

<latexit sha1_base64="UAkLneWZSjt3xRr0vurj6WzEHho=">ACBnicbVDLSsNAFJ34rPEVdamLYCm4KqkVH7uiG5cV7AOaUCbTm3bo5MHMjVBKN678FeCgrj1H1z5N07aIGo9cC+Hc+5l5h4/EVyh43waC4tLyurhTVzfWNza9va2W2qOJUMGiwWsWz7VIHgETSQo4B2IoGvoCWP7zK/NYdSMXj6BZHCXgh7Uc84IyilrWgSsgQFc0QaLejG6kvcHumdC1yo6ZWcKe5UclIkOepd68PtxSwNIUImqFKdipOgN6YSORMwMUtuqiChbEj70NE0oiEobzw9Y2KXtNKzg1jqitCequaPjTENlRqFvp4MKQ7UXy8T/M6KQbn3phHSYoQsdlDQSpsjO0sE7vHJTAUI0ok1x/1mYDKilDnZw5TeEiw+n3zfOkeVyuVMvVm5Ni7TLPo0D2ySE5IhVyRmrkmtRJgzByTx7JM3kxHown49V4m40uGPnOHvkF4/0L7seZhA=</latexit>

RBF layer

b Q

<latexit sha1_base64="gKd2EUikoAVz+E+VRA4g4ZT/seQ=">AB8XicbVDLSsNAFJ3UV62vqks3g0VwVIrPnZFNy5bsA9sQ5lMJu3QySTM3Cgl9C/cuFDErX/jzr9xkgZR64ELh3Pu5d573EhwDb9aRWldW14rpY3Nre2d8u5eR4exoqxNQxGqnks0E1yNnAQrBcpRgJXsK47uU797j1TmofyFqYRcwIyktznlICR7gYP3GNjArg1LFfsqp0BL5JaTioR3NY/h4IY0DJoEKonW/ZkfgJEQBp4LNSoNYs4jQCRmxvqGSBEw7SXbxDB8ZxcN+qExJwJn6cyIhgdbTwDWdAYGx/ul4n9ePwb/wkm4jGJgks4X+bHAEOL0fexSiIqSGEKm5uxXRMFKFgQiplIVymOPt+eZF0Tq1erXeOq0rvI4iugAHaJjVEPnqIFuUBO1EUSPaJn9GJp68l6td7mrQUrn9lHv2C9fwFDEZDI</latexit> β <latexit sha1_base64="F4vN4+Bz7orLUGKmZFZH7+yew=">AB7HicbVBNS8NAEJ3Ur1q/qh69BIvgqSQqftyKXjxWMG2hDWznbRLN5uwuxFK6W/w4kERr/4gb/4bN2kQtT4YeLw3w8y8IOFMacf5tEpLyura+X1ysbm1vZOdXevpeJUvRozGPZCYhCzgR6mOnUQiQKO7WB8k/ntB5SKxeJeTxL0IzIULGSUaCN5vQA16VdrTt3JYS8StyA1KNDsVz96g5imEQpNOVGq6zqJ9qdEakY5ziq9VGFC6JgMsWuoIBEqf5ofO7OPjDKw1iaEtrO1Z8TUxIpNYkC0xkRPVJ/vUz8z+umOrz0p0wkqUZB54vClNs6trP7QGTSDWfGEKoZOZWm46IJFSbfCp5CFcZzr9fXiStk7p7Wj+9O6s1ros4ynAh3AMLlxA26hCR5QYPAIz/BiCevJerXe5q0lq5jZh1+w3r8A3J6O2w=</latexit>

12

Deep RBF Q Functions (2):

ˆ Qβ(s, a; θ) := PN

i=1 e−β||a−ai(s;θ)|| vi(s; θ)

PN

i=1 e−β||a−ai(s;θ)||

<latexit sha1_base64="XQnHjrIYDRpW6upZSXV4dytS9o=">ACc3iclVHLShxBFK3uPDSTh2MC2bhI4SQwgczQrZIngugmq6CQUWF6bG7X3HYKqx9U3RaGmv6BfF52+Qs37q1px2BiNjlQcDjnXKrq3KRU0lAQ/PL8e/cfPFxaftR6/OTps5X26vNDU1Ra4EAUqtDHCRhUMscBSVJ4XGqELF4lJztzf2jc9RGFvl3mpY4yuA0l6kUQE6K2z+iCRA/iG2UIEHdNe/gS0QTx9+3o5SDcJGpspiK7fD+sR+q/HE9prsbAY9iGX3ORnszri57eV+n9m67jdCfpBA36XhAvSYQvsx+2f0bgQVY5CQXGDMOgpJEFTVIorFtRZbAEcQanOHQ0hwzNyDad1fyNU8Y8LbQ7OfFGvT1hITNmiUumQFNzN/eXPyXN6wo/TiyMi8rwlxcX5RWilPB5wvgY6lRkJo6AkJL91YuJuCKJremVlPCpzne/7yXK40Q83+5sHW52d3Udy2yNrbMuC9kHtsO+sn02YIJdeC+9Vx73Lv01f91/fR31vcXMC/YH/N4VOeS/JA=</latexit>

θ

<latexit sha1_base64="FVUblvQNqYfEuFHd50sZqbACg=">AB7nicbVDLSgNBEJyNrxhfUY9eBoPgKeyq+LgFvXiMYB6QLGF20kmGzM4uM71CWPIRXjwo4tXv8ebfOJsosaChqKqm+6uIJbCoOt+OoWl5ZXVteJ6aWNza3unvLvXNFGiOTR4JCPdDpgBKRQ0UKCEdqyBhYGEVjC+yfzWA2gjInWPkxj8kA2VGAjO0EqtLo4AWalXrhVdwa6SLycVEiOeq/80e1HPAlBIZfMmI7nxuinTKPgEqalbmIgZnzMhtCxVLEQjJ/Ozp3SI6v06SDSthTSmfpzImWhMZMwsJ0hw5H562Xif14nwcGlnwoVJwiKzxcNEkxotnvtC80cJQTSxjXwt5K+YhpxtEmNA/hKsP598uLpHlS9U6rp3dnldp1HkeRHJBDckw8ckFq5JbUSYNwMiaP5Jm8OLHz5Lw6b/PWgpP7JNfcN6/APNHj3M=</latexit>

ˆ Qβ ≈ Q∗

<latexit sha1_base64="riQAZbS1bzwWEIE8i1vKZ/7admk=">ACBXicbVDJSgNBEO2JW4zbqEc9NAZBPISJEZdb0IvHBMwCmTHUdDpJk56F7hoxDLl48Ve8eFDEq/gzb9xkgyixgcFj/eqKrnhlJotKxPIzM3v7C4lF3OrayurW+Ym1t1HUSK8RoLZKCaLmguhc9rKFDyZqg4eK7kDXdwOfYbt1xpEfjXOAy540HPF13BABOpbe7afUBabce2yxFG1IYwVMEdrd7Eh6O2mbcK1gR0lhRTkicpKm3zw+4ELPK4j0yC1q2iFaITg0LBJB/l7EjzENgAeryVUB8rp148sWI7idKh3YDlZSPdKL+nIjB03rouUmnB9jXf72x+J/XirB75sTCDyPkPpsu6kaSYkDHkdCOUJyhHCYEmBLJrZT1QHDJLjcJITzMU6+X54l9aNCsVQoVY/z5Ys0jizZIXvkgBTJKSmTK1IhNcLIPXkz+TFeDCejFfjbdqaMdKZbfILxvsX792YWg=</latexit>

ˆ Qβ(a) := PN

i=1 e−β||a−ai||vi

PN

i=1 e−β||a−ai||

<latexit sha1_base64="1J24S5XMrn9m27l2c8WMXw7BTts=">ACSnichZBLSxBFIWrx/dEzWiWboMgi4cuqP4AkF0k1VQyKgwPTa3a247hdUPqm4LQ0/PjeusvNHuHFhEDepaYeQRCEHCg7nktVfWGmpCHXvXdqE5NT0zOzc/UP8wuLHxtLy2cmzbXAtkhVqi9CMKhkgm2SpPAi0whxqPA8vD4ezc9vUBuZJt9pkGE3hqtERlIA2ShogN8H4qdB4YdIUK7B+v6BH2kQhW/yOCjkgVdefuN4WxUDT4cwgYEcjgsbwJZ/r9VBo2m23Ir8bfG5smG+skaPzwe6nIY0xIKDCm47kZdQvQJIXCsu7nBjMQ13CFHWsTiNF0iwpFyVdt0uNRqu1JiFfpnxsFxMYM4tA2Y6C+Xc2Ct+bdXKdruFTLKcMBGvF0W54pTyEVfekxoFqYE1ILS0b+WiDxYkWfr1CsLeSNu/v/zWnH1peZutzdOt5uHRGMcsW2Gf2Rrz2A47ZF/ZCWszwW7ZA3tiP50759F5dl5eqzVnvPOJ/aXa5C97B7P5</latexit>

(extension to states)

SLIDE 13

13

max

a∈A

ˆ Qβ(s, a; θ) = max

i∈[1,N]

ˆ Qβ(s, ai; θ)

<latexit sha1_base64="m87Ush8E9qNmWXCJNcGsX7hgvD0=">ACSXicbVBSxtBGJ2N2mq0NW2PXgaDECGEXRVbKQVrL5EoTGB7L9djJBmdnl5lvpWHJ3+ult976H7x4sIgnZzextCYPBh7ve49vhelUh03d9OZWl5cXL1bXq+sar15u1N28vTZJpxtskYnuRmC4FIq3UaDk3VRziCPJO9HVl2LeuebaiER9xXHKgxiGSgwEA7RSWPvmx/A9zMEXyjIcMZD084T6I0B6EeZ+xBEmDdOEjz6OLN+ln+g0Imyk5zXPgkXuUDz5w1rdbkl6DzxZqROZjgPa7/8fsKymCtkEozpeW6KQ4aBZN8UvUzw1NgVzDkPUsVxNwEednEhO5YpU8HibZPIS3VfxM5xMaM48g6i2vN81khLpr1Mhx8CHKh0gy5YtNFg0xSTGhRK+0LzRnKsSXAtLB/pWwEGhja8qtlCUcFDv+ePE8u91refmv/4qB+fDKrY5VskW3SIB5T47JKTknbcLID3JD7sgf56dz69w7D1NrxZl3pH/UFl6BdysfI=</latexit>

0 ≤ max

a∈A

ˆ Qβ(s, a; θ) − max

i∈[1,N]

ˆ Qβ(s, ai; θ) ≤ O(e−β)

<latexit sha1_base64="Wlw4XclM0c0DsVxJ1GDZ7n2B4w=">ACanicbVFNb9QwEHVSPspC6VIkEOrFsCBtpXaVtIgPcSlw4QStxLaV1iGaeGe7Vh0n2BPEKsqBv8iNX8CFH4Gzu0VAO5KlpzfvecbPWamVoyj6EYQrV65eu756o3Pz1trt9e6djSNXVFbiUBa6sCcZONTK4JAUaTwpLUKeaTzOzt62/eMvaJ0qzEealZjkcGrUREkgT6Xdb5HQ+Fnk8DWtQSjEU0laP64WIKxA/TWmRI0PTdNrwSNPV4a0c8XFiUt4zi7fJZepUnevbGfz86vpD08dP9c5CuJV2e9Egmhe/COIl6LFlHaTd72JcyCpHQ1KDc6M4KimpwZKSGpuOqByWIM/gFEceGsjRJfU8qoY/8cyYTwrjyE+Z/921JA7N8szr2zXdf/3WvKy3qiyYukVqasCI1cDJpUmlPB29z5WFmUpGcegLTK78rlFCxI8r/TmYfwsq1nf58ERztDuK9wd7h097+m2Ucq2yTPWJ9FrPnbJ+9YwdsyCT7GawF94L7wa9wI3wQbi6kYbD03GX/VPj4Nxzkuak=</latexit>

A = R

<latexit sha1_base64="h20qGMkmG+tO9zHbzuvs/f/zh7o=">AB/nicbVDLSsNAFL3xWesrKq7cDBbBVUms+FgIVTcuq9gHtKFMpN26OTBzEQoeCvuHGhiFu/w51/4yQNRa0HBg7n3Ms9c9yIM6ks68uYm19YXFourBRX19Y3Ns2t7YMY0FonYQ8FC0XS8pZQOuKU5bkaDYdzltusPr1G8+UCFZGNyrUQdH/cD5jGClZa65m7Hx2pAMEeXF1N61zVLVtnKgGaJnZMS5Kh1zc9OLySxTwNFOJaybVuRchIsFCOcjoudWNIkyHu07amAfapdJIs/hgdaKWHvFDoFyiUqT83EuxLOfJdPZkmlH+9VPzPa8fKO3MSFkSxogGZHPJijlSI0i5QjwlKFB9pgolgOisiAywUbqxYlbCeYqT6ZdnSeOobFfKldvjUvUqr6MAe7APh2DKVThBmpQBwIJPMELvBqPxrPxZrxPRueMfGcHfsH4+AZK8JUw</latexit>

A = Rd

<latexit sha1_base64="cTpjJrgIt+XJCh3Jwvpqua6MwjE=">ACAnicbVDLSsNAFJ34rPUVdSVuBovgqiRWfCyEqhuXVewD2lgmk0k7dDIJMxOhOLGX3HjQhG3foU7/8ZJGopaDwycOede7r3HjRiVyrK+jJnZufmFxcJScXldW3d3NhsyDAWmNRxyELRcpEkjHJSV1Qx0oEQYHLSNMdXKZ+854ISUN+q4YRcQLU49SnGCktdc3tToBUHyMGz+EZnHxu7ryuWbLKVgY4TeyclECOWtf87HghjgPCFWZIyrZtRcpJkFAUMzIqdmJIoQHqEfamnIUEOk2QkjuKcVD/qh0I8rmKk/OxIUSDkMXF2Z7ij/eqn4n9eOlX/iJRHsSIcjwf5MYMqhGke0KOCYMWGmiAsqN4V4j4SCudWjEL4TF0eTkadI4KNuVcuX6sFS9yOMogB2wC/aBDY5BFVyBGqgDB7AE3gBr8aj8Wy8Ge/j0hkj79kCv2B8fAOAz5Za</latexit>

Deep RBF Q Functions (3):

ˆ Qβ

<latexit sha1_base64="NwoqDbLWIZVXbqlu4dO3qvacheQ=">AB9XicbVDLSsNAFJ3UV62vqks3g0VwVIrPnZFNy5bsA9oYplMJ+3QySTM3Cgl9D/cuFDErf/izr9xkgZR64ELh3Pu5d57vEhwDb9aRWldW14rpY3Nre2d8u5eR4exoqxNQxGqnkc0E1yNnAQrBcpRgJPsK43uU797j1TmofyFqYRcwMyktznlICR7pwxAdwaJI7HgMwG5YpdtTPgRVLSQXlaA7KH84wpHAJFBtO7X7AjchCjgVLBZyYk1iwidkBHrGypJwLSbZFfP8JFRhtgPlSkJOFN/TiQk0HoaeKYzIDWf71U/M/rx+BfuAmXUQxM0vkiPxYQpxGgIdcMQpiagihiptbMR0TRSiYoEpZCJcpzr5fXiSdk2qtXq23TiuNqzyOIjpAh+gY1dA5aqAb1ERtRJFCj+gZvVgP1pP1ar3NWwtWPrOPfsF6/wJl+ZKW</latexit>

(maximization theory)

SLIDE 14

14

yes! are deep RBF Q functions capable of universal function approximation? [Hornik et al., 1989] no need to trade expressiveness

Deep RBF Q Functions (4):

∀Q∗ ∀ ≥ 0 ∃✓ |Q∗(s, a) − ˆ Qβ(s, a; ✓)| ≤ ✏

<latexit sha1_base64="EnYsFZqkdwjfbaes3g/n9kisVg=">ACZXicbVFNTxsxEPUupaRpKYFWvXDAaoQEVRtAFGqXlC59EikBpDiNJp1JomF9yP2LCLa5E9y67WX/o16N0vVQp9k6em9Gc/4OUy1shQEPzx/5cnq07Xas/rzF+svNxqbWxc2yYzErkx0Yq5CsKhVjF1SpPEqNQhRqPEyvD4r/MsbNFYl8TeapdiPYByrkZJATho05mKUGNCad7n7xZcTDMY8ntNhEgxjhdskFw7+Ot28xyQRMnV+K8vGHPvof9D2ICxDuDvGwrtc/L2v250DgVmFqli/HNoBWU4I9JuyJNVuF80LgTw0RmEcYkNVjbawcp9XMwpKTGRV1kFlOQ1zDGnqMxRGj7eZnSgu86Zcjd09yJiZfq3x05RNbOotBVRkAT+9ArxP95vYxGJ/1cxWlGMvloFGmOSW8iJwPlUFJeuYISKPcrlxOwIAk9zH1MoRPBY7/PkxuThotQ9bh52j5umXKo4a2Zv2R5rs4/slH1l56zLJPvp1bxNb8v75a/7r/03y1Lfq3pesX/g7/wGuXG3tw=</latexit>

(UFA)

the two desired properties do co-exist.

SLIDE 15

RBF-DQN

15

therwise, similar to DQN: use target network, experience replay,
greedy policy, & RMSProp like DQN.

✏

<latexit sha1_base64="vI3oQKPO1yHf4raXHBXcRgXJb8Y=">AB73icbVDLSgNBEJyNrxhfUY9eBoPgKWyM+LgFvXiMYB6QLGF20psMmZ1Z2aFsOQnvHhQxKu/482/cXaziBoLGoqbrq7/IgzbVz30yksLa+srhXSxubW9s75d29tpaxotCikvV9YkGzgS0DMcupECEvocOv7kOvU7D6A0k+LOTCPwQjISLGCUGCt1+xBpxqUYlCtu1c2AF0ktJxWUozkof/SHksYhCEM50bpXcyPjJUQZRjnMSv1YQ0TohIygZ6kgIWgvye6d4SOrDHEglS1hcKb+nEhIqPU09G1nSMxY/VS8T+vF5vgwkuYiGIDgs4XBTHRuL0eTxkCqjhU0sIVczeiumYKEKNjaiUhXCZ4uz75UXSPqnW6tX67WmlcZXHUQH6BAdoxo6Rw10g5qohSji6BE9oxfn3nlyXp23eWvByWf20S84719lmZBX</latexit>

θ θ + α

r + γ max

a0

ˆ Qβ(s0, a0; θ) ˆ Qβ(s, a; θ

r ˆ

Qβ(s, a; θ)

<latexit sha1_base64="fFnwb2Cj7WdS4nlubCRcTtOlQ5o=">ACf3icdVFNbxMxEPUuBUr4CvTIxWqEkihptKEIWnGp4MKxlUhbKQ6rWcebtWp7V/ZsS7TK3+CHceO/cMCbrFC/eJKlp/fejO2ZpFDSYRT9DsIHWw8fPd5+0nr67PmLl+1Xr09dXlouJjxXuT1PwAkljZigRCXOCytAJ0qcJRdfav/sUlgnc/MNl4WYaVgYmUoO6KW4/ZNhJhAoUyJFsDa/o0yoAxUkXkrkYueHbAFaA1Mw4+4gu6KZYD0JK5Y4sOrnusOoftpU/p9r7932x5CY9bd+sxAonzn/4X6cbsTjaI16F0ybkiHNDiO27/YPOelFga5Auem46jAWQUWJVdi1WKlEwXwC1iIqacGtHCzaj2/FX3rlTlNc+uPQbpWr1dUoJ1b6sQnNWDmbnu1eJ83LTE9mFXSFCUKwzcXpaWimN6GXQureColp4At9K/lfIMLHD0K2uth3BY48O/L98lp+9G4/3R/sn7ztHnZhzb5A3ZJT0yJh/JEflKjsmEcPIn2A0GwTAMwm4CqNAyamh1yA+HhX2gRwE8=</latexit>

≈ max

i2[1,N]

ˆ Qβ(s0, a0

i; θ)

<latexit sha1_base64="Ar8kxhqVgbir4Hnew01CGMI1CU=">ACIHicbVDLSgNBEJz1bXxFPXoZDKChl0VH3gRvXgSBaNCdl16J5NkcHZ2mekVw5JP8eKvePGgiN70a5zEIL4KGmqupnuilIpDLrum9PXPzA4NDwyWhgbn5icKk7PnJk04xXWCITfRGB4VIoXkGBkl+kmkMcSX4eXR10/PNro1I1Cm2Uh7E0FCiLhiglcLilg9pqpMbP4abMBe+UFVv5Sho+01AehLmfsQR2ktmcQUWQ7HrY9O+L1eXw2LJLbtd0L/E65ES6eE4L76tYRlMVfIJBhT9dwUgxw0CiZ5u+BnhqfArqDBq5YqiLkJ8u6BbpglRqtJ9qWQtpVv0/kEBvTiPbGQM2zW+vI/7nVTOsbwe5UGmGXLHPj+qZpJjQTlq0JjRnKFuWANPC7kpZEzQwtJkWuiHsdLD5dfJfcrZW9tbL6ycbpb39XhwjZI7MkyXikS2yRw7JMakQRm7JPXkT86d8+A8Oy+frX1Ob2aW/IDz/gH3l6Lu</latexit>

use a deep RBF Q function, and update parameters:

SLIDE 16

Evaluations

16

9 standard continuous-action RL problems from Open AI Gym: Classic Control, Box2D, Mujoco.

SLIDE 17

Comparisons: (1)

17

learn Q using standard neural nets, perform action-maximization using gradient ascent input-convex neural network [Amos et al., 2017] RBF-DQN wire-fitting excluded due to its poor performance [Baird & Klopf, 1994] (more domains in the paper). (with value-function-based baselines)

SLIDE 18

18

DDPG: Deep Deterministic Policy Gradient [Lilicrap et al., 2015] TD3: Twin Delayed Deep Deterministic policy gradient [Fujimoto et al., 2015].

Comparisons: (2)

RBF-DQN (with policy-gradient baselines)

SLIDE 19

Conclusion

19

Future Work

deep RBF Q functions, great for continuous control

facilitate efficient action-maximization
capable of UFA
scale, and do well relative to deep RL baselines
better exploration (uncertainty-based, optimistic initialization, …)
other RBFs
better Q training (Double-Q, Distributional Q, …)
other (real-world) applications: robotics, dialog, education & health care.

SLIDE 20

20

Thanks

Deep RBF Value Functions for Continuous Control

Kavosh Asadi, Ronald Parr, George Konidaris, Michael Littman

paper: Arxiv.org/abs/2002.01883 code: Github.com/kavosh8/RBFDQN