Machine Learning and Brain Science Kenji Doya doya@oist.jp Neural - - PowerPoint PPT Presentation

machine learning and brain science
SMART_READER_LITE
LIVE PREVIEW

Machine Learning and Brain Science Kenji Doya doya@oist.jp Neural - - PowerPoint PPT Presentation

RIKENOsakaOIST Joint Workshop 2016 Big Waves of Theoretical Science in Okinawa 2016.6.21 Machine Learning and Brain Science Kenji Doya doya@oist.jp Neural Computation Unit Okinawa Institute of Science and Technology Okinawa Institute


slide-1
SLIDE 1

Kenji Doya

doya@oist.jp

Neural Computation Unit Okinawa Institute of Science and Technology RIKEN–Osaka–OIST Joint Workshop 2016 Big Waves of Theoretical Science in Okinawa 2016.6.21

Machine Learning and Brain Science

slide-2
SLIDE 2

Okinawa Institute of Science & Technology

.00.27.7 7-‐‑–0000717 7077770.7

  • ¡

710 ¡ .

slide-3
SLIDE 3
slide-4
SLIDE 4

Our Research Interests

How to build adaptive, autonomous systems robot experiments How the brain realizes robust, flexible adaptation neurobiology

slide-5
SLIDE 5

Outline

Machine Learning and Brain Science Reinforcement Learning and Basal Ganglia Delayed Reward and Serotonin What’s Next

slide-6
SLIDE 6

Machine Learning and Brain Science

To make intelligent machines by electronics, we should not bother biological constraints. As there’s a superb implementation in the brain, we should learn from that. Currently, brain-like implementation like Deep Learning gives the best performance.

slide-7
SLIDE 7

Artificial Intelligence Brain Science

Coevolution in Pattern Recognition

Multi-layer learning

(Amari, 1967)

Neocognitron

(Fukushima 1980)

ConvNet (Krizhevsky, Sutskever, Hinton, 2012) GoogleBrain (2012) Place cell

(O’Keefe 1976)

Face cell (Bruce, Desimone, Gross 1981)

(Sugase et al. 1999)

3

HIPPOCAMPAL PLACE UNITS

87 WALL

  • 213-4-j l

RACK

FIG.
  • 2. Place
fields for all place units except 21342 and those from animal 217.

distributed around the maze. The concentration

  • f fields from

the other animals in arm B may have reflected the fact that many of the rats spent their “free time” in this arm. The fact that the initial search for units was conducted there might also have introduced a bias towards units active in that area. In any case, it was clear that the majority

  • f fields

were not located in those places which contained the rewards

  • r other
FIG.
  • 3. Place
fields for place units from animal 217.

Experience dependence

(Blakemore & Cooper 1970)

RECEPTIVE FIELDS IN CAT STRIATE CORTEX

579 found by changing the size, shape and orientation of the stimulus until a clear response was evoked. Often when a region with excitatory or inhibitory responses was established the neighbouring opposing areas in the receptive

field could only be demonstrated indirectly.

Such an indirect method is

illustrated in Fig. 3B, where two flanking areas are indicated by using a short slit in various positions like the hand of a clock, always including the very A B

+7

  • !

mm

  • I
  • m_

aS~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~T

T T
  • Fig. 3. Same unit as in Fig. 2. A, responses to shinling a rectangular light spot, 1° x 8°; centre of
slit superimposed on centre of receptive field; successive stimuli rotated clockwise, as shown to left of figure. B, responses to a 1° x 5° slit oriented in various directions, with one end always covering the centre ofthe receptive field: note that this central region evoked responses when stimulated alone (Fig. 2a). Stimulus and background intensities as in Fig. 1; stimulus duration 1 sec. centre of the field. The findings thus agree qualitatively with those obtained

with a small spot (Fig. 2a). Receptive fields having a central area and opposing flanks represented a common pattern, but several variations were seen. Some fields had long narrow central regions with extensive flanking areas (Figs. 1-3): others had a large central area and concentrated slit-shaped flanks (Figs. 6, 9, 10). In many

fields the two flanking regions were asymmetrical, differing in size and shape; in these a given spot gave unequal responses in symmetrically corresponding 37
  • PHYSIO. CXL,VIIT

Feature detectors

(Hubel & Wiesel 1959)

Perceptron

(Rosenblatt 1962)

slide-8
SLIDE 8

What is Machine Learning

Supervised Learning Input-output pairs {(x1,y1), (x2,y2),…} → input-output model y = f(x) + ! for new input x, predict output y Reinforcement Learning state-action-reward triplets {(x1,y1,r1), (x2,y2,r2),…} → action policy y = f(x) to maximize reward Unsupervised Learning Input data { x1, x2, x3,…} → statistical model of P(x) discover structure behind data

x t M = 3 1 −1 1

1 2 3 4 5 6 40 60 80 100

slide-9
SLIDE 9

thalamus SN IO Cortex Basal Ganglia Cerebellum target error +

  • utput

input

Cerebellum: Supervised Learning

reward

  • utput

input

Basal Ganglia: Reinforcement Learning Cerebral Cortex:Unsupervised Learning

  • utput

input

Specialization by Learning Algorithms

(Doya, 1999)

slide-10
SLIDE 10

Learning by Trial and Error

(Doya & Nakano, 1985)

Explore actions (cycle of 4 postures) Learn from performance feedback (speed sensor)

slide-11
SLIDE 11

Reinforcement Learning

Learn action policy: s " a to maximize rewards Value function: expected future rewards V(s(t)) = E[ r(t) + #r(t+1) + #2r(t+2) + #3r(t+3) +…] 0≤#≤1: discount factor Temporal difference (TD) error: $(t) = r(t) + #V(s(t+1)) – V(s(t))

environment reward r action a state s agent

#V(s(t+1))

slide-12
SLIDE 12

Pendulum Swing-Up

reward function: potential energy value function V(s)

s =(angle,angular velocity)

slide-13
SLIDE 13

Reinforcement Learning

(Morimoto & Doya, 2000)

Learning from reward and punishment reward: height of the head punishment: bump on the floor

slide-14
SLIDE 14

Learning to Survive and Reproduce

(Elfwing et al., 2011, 2014)

Catch battery packs

survival

Copy ‘genes’ by IR ports

reproduction, evolution

slide-15
SLIDE 15

Reinforcement Learning

Predict reward: value function V(s) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s] Q(s,a) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s, a(t)=a] Select action greedy: a = argmax Q(s,a) Boltzmann: P(a|s) + exp[ * Q(s,a)] Update prediction: TD error $(t) = r(t) + #V(s(t+1)) – V(s(t)) 'V(s(t)) = ( $(t) 'Q(s(t),a(t)) = ( $(t) How to implement these steps? How to tune these parameters?

slide-16
SLIDE 16

Basal Ganglia

Locus of Parkinson’s and Huntington’s diseases What is their normal function??

Striatum Globus Pallidus Substantia Nigra Thalamus

slide-17
SLIDE 17

Dopamine-dependent Plasticity

Medium spiny neurons in striatum glutamate from cortex dopamine from midbrain Three-factor learning rule (Wickens et al.) cortical input + spike " LTD cortical input + spike + dopamine " LTP input x output x reward Time window

  • f plasticity

(Yagishita et al., 2014)

slide-18
SLIDE 18

Basal Ganglia for Reinforcement Learning?

(Doya 2000, 2007) Cerebral cortex state/action coding Striatum reward prediction Pallidum action selection Dopamine neurons TD signal Thalamus $ V(s) Q(s,a) state action

slide-19
SLIDE 19

Gambling Rats

(Ito & Doya, 2015)

Center Cue'tone 0.5,1s 1,2s Right Rwd'tone

No,rwd

Pellet Left

poking

Center Right Left pellet dish

Cue$tone Reward$prob.$(L,$R) Left$tone (900Hz) Fixed (50%,0%) Right$tone (6500Hz) Fixed (0%,$50%) FreeAchoice$tone (White$noise) Varied (90%,$50%) (50%,$90%) (50%,$10%) (10%,$50%)

slide-20
SLIDE 20

Dorsolateral Dorsomedial Ventral

C

R

C

R

Neural Activity in the Striatum

(Ito & Doya, 2015)

slide-21
SLIDE 21

State/Action/Reward Coding

sec sec sec

0.19 bits/sec 0.81 bits/sec 0.57 bits/sec

phase$1 2 3 4 5 6 7 cue L/R 1 2 3 4 5 6 7 cue L/R cue L/R 5 6 3 4 7

DLS DMS VS State Action Reward

slide-22
SLIDE 22

Generalized Q-learning Model

(Ito & Doya, 2009)

Action selection P(a(t)=L) = expQL(t)/(expQL(t)+expQR(t)) Action value update: i{L,R} Qi(t+1) = (1-(1)Qi(t) + (1,1 if a(t)=i, r(t)=1 (1-(1)Qi(t) - (1,2 if a(t)=i, r(t)=0 (1-(2)Qi(t) if a(t)≠i, r(t)=1 (1-(2)Qi(t) if a(t)≠i, r(t)=0 Parameters (1: learning rate (2: forgetting rate ,1: reward reinforcement ,2: no-reward aversion

slide-23
SLIDE 23
  • Left, reward

Left, no-reward Right, reward Right, no-reward

QL QR

(90 50) (50 90) (50 10)

Model Fitting by Particle Filter

(2 (1 Trials

slide-24
SLIDE 24

Model Fitting

Generalized Q learning (1: learning (2: forgetting ,1: reinforcement ,2: aversion standard: (2=,2=0 forgetting: ,2=0

  • 1st$Markov$model(4)

2nd$Markov$model(16) 3rd$Markov$model(64) 4th$Markov$model(256) standard$Q$(const)(2) FAQ$(const)(3) DFAQ$(const)(4) local$matching$law(1) standard$Q$(variable)(2) FAQ$(variable)(2) DFAQ$(variable)(2)

** ** * ** ** ** ** ** ** normalized$ likelihood

slide-25
SLIDE 25

Action value DLS DMS State value VS

Action Reward QL QR higher$QL lower$QL higher$QR lower$QR QL firing (Hz) trials QR

Action/State Values in Striatum

(Ito & Doya, 2015)

Action Reward QL QR phase$1 2 3 4 5 6 7 cue L/R higher$QL lower$QL QL firing (Hz) trials

slide-26
SLIDE 26

ac

CeM IMD PV PFC SMC

Hindlimb Hindlimb Trunk Trunk Forelimb Forelimb Head Head

ACd PLd PLv IL AId AIv

Core Shell Corticostriatal projections Thalamostr

Midline and intralaminar thalmic nuclei Frontal cortex

Hierarchy in Cortico-Striatal Network

Dorsolateral striatum – motor early action coding what motor action? Dorsomedial striatum - frontal action value in what task context? Ventral striatum - limbic state value whether worth doing?

(Voorn et al., 2004)

slide-27
SLIDE 27

Reinforcement Learning

Predict reward: value function V(s) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s] Q(s,a) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s, a(t)=a] Select action greedy: a = argmax Q(s,a) Boltzmann: P(a|s) + exp[ * Q(s,a)] Update prediction: TD error $(t) = r(t) + #V(s(t+1)) - V(s(t)) 'V(s(t)) = ( $(t) 'Q(s(t),a(t)) = ( $(t) How these steps implemented? How these parameters regulated?

slide-28
SLIDE 28

Temporal Discount Factor #

Large # reach for far reward Small #

  • nly to near reward
slide-29
SLIDE 29

Temporal Discount Factor #

V(t) = E[ r(t) + #r(t+1) + #2r(t+2) + #3r(t+3) +…] controls the ‘character’ of an agent

1 2 3 4 step $20 +100 $20 $20 1 1 2 3 4 step $20 +100 $20 $20 1 1 2 3 4 step +50 $100 1 1 2 3 4 step +50 $100 1

# large # small

can’t5resist5temptation no5pain,5no5gain! stay5away5from5danger better5stay5idle V =18.7$ V =$A22.9 V =A25.1$ V =$47.3

Depression? Impulsivity? Serotonin?

slide-30
SLIDE 30

Neuromodulators for Metalearning

(Doya, 2002)

Metaparameter tuning is critical in RL How does the brain tune them? Dopamine: TD error $ Acetylcholine: learning rate ( Noradrenaline: exploration * Serotonin: temporal discount #

slide-31
SLIDE 31

Markov Decision Task

(Tanaka et al., 2004)

Stimulus and response State transition and reward functions

+100yen +100yen

2s 1s 1s 1s 0.5s 0.5s Time

action$a1 action$a2

A20 A20 +20 +20 A20 +20

s1 s2 s3

A20 A20 +20 +20 +100 A100

s1 s2 s3

slide-32
SLIDE 32

Markov Decision Task

(Tanaka et

  • al. 2004)

Reward prediction V(t) Reward prediction error $(t)

mPFC Insula

x$=$A2$mm x$=$A42$mm

Striatum

z$=$2

slide-33
SLIDE 33

Dorsal-Ventral Map of Time Scale

(Tanaka et al., 2007)

slide-34
SLIDE 34

2FDDCCIFDC( DIG

)F.CC.D)FFDCD ¡

tryptophan hydroxylase-2 (Tph2) promoter TetO-ChR2(C128S)-EYFP

(Tanaka et al., 2012, Cell Reports)

Open by blue light Close by yellow light

slide-35
SLIDE 35

Reward Delay Task (3, 6, 9, ∞ sec)

3 sec: success

  • mission: 12.1 s
  • mission: 20.8 s
slide-36
SLIDE 36

Waiting Time in Omission Trials

(Miyazaki et al. 2014, Current Biology)

5 10 15 20 25 30 35 40 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

Number'of'times Waiting'time'(s)

No blue stim. Blue stim.

5 10 15 20 25 No blue stim. Blue stim.

Waiting'time'(s)

Yellow stim.

Yellow stim.

slide-37
SLIDE 37

Summary

Human fMRI Dorsal BG loop: future Ventral BG loop: immediate Differential modulation by serotonin Rodent Recording/Manipulation Microdialysis: higher 5-HT in delayed reward pharmacology: lower 5-HT cause waiting error Dorsal raphe neurons: higher firing during waiting firing stops before giving up extended waiting by optogenetic stimulation effect depends on probability/confidence

slide-38
SLIDE 38

Brain/MINDS Program (2014~2023)

Structural and functional maps of marmoset brain RIKEN + 22 labs 3 billion yen (~$30M)/year OIST: model building from high-throughput data

slide-39
SLIDE 39

2.革新脳の達成目標

  • A. 霊長類の脳構造・機能マップの作成

マクロスコピック メゾスコピック ミクロスコピック

標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合

①霊長類脳における神経結合の構造マップの作成

行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10

2.革新脳の達成目標

  • A. 霊長類の脳構造・機能マップの作成

②霊長類脳における行動と対応付けされた 機能マップの作成

行動解析 脳機能画像データ 細胞活動の網羅的記録

マーモセットに適した 行動課題の選択と 課題関連 神経回路の抽出 行動解析において 重要な回路に特化 して細胞レベルの 活動を解析 12

① 高解像度・広領域・深部観察・高時間分解能を達成する 神経回路構造・機能解析技術 の開発 ○可視化プローブの開発 ○組織操作技術(透明化等)の開発 ○広範囲観察のための顕微鏡技術の開発 ○超高密度電極アレイの開発 ○ヒト脳イメージングのための新規 技術の開発

2.革新脳の達成目標

B.神経回路マップ作成のための革新的技術開発

14

2.革新脳の達成目標

  • A. 霊長類の脳構造・機能マップの作成

②霊長類脳における行動と対応付けされた 機能マップの作成

行動解析 脳機能画像データ 細胞活動の網羅的記録

マーモセットに適した 行動課題の選択と 課題関連 神経回路の抽出 行動解析において 重要な回路に特化 して細胞レベルの 活動を解析 12

2.革新脳の達成目標

  • A. 霊長類の脳構造・機能マップの作成

マクロスコピック メゾスコピック ミクロスコピック

標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合

①霊長類脳における神経結合の構造マップの作成

行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10

2.革新脳の達成目標

  • A. 霊長類の脳構造・機能マップの作成

マクロスコピック メゾスコピック ミクロスコピック

標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合

①霊長類脳における神経結合の構造マップの作成

行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10

2.革新脳の達成目標

  • A. 霊長類の脳構造・機能マップの作成

マクロスコピック メゾスコピック ミクロスコピック

標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合

①霊長類脳における神経結合の構造マップの作成

行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10

2FIIFAE

GFIIFA-‐‑– ;;IGDC-‐‑– FFG FCGEFCFC GFAGDC

IFADAG

FDGDE /,,, ,/ /,,, GDGDE ,, ,,/, ,,/ FDGDE ,/,,, ,, ¡ / ¡/ ,

+ICDCAE

G;-‐‑– FGC;-‐‑– (D, IAAFDG (C DAIAFC

Creating Multi-scale Brain Model

slide-40
SLIDE 40

Integrated Model: Parkinsonian

slide-41
SLIDE 41

Post-K Project

Flagship 2020: “exa-sclae” ~1018flops New focus on neural networks /artificial intelligence

内容の詳細:「革新的技術による脳機能ネットワークの全容解明プロジェクト」等によ り得られる脳構造と活動の高スループット計測によるボトムアップデータと、認知を 実現する機械学習によるトップダウン設計論を融合し、思考を実現する脳の大規模 神経回路を、ニューロンの特性や回路の結合構造などの実験データに基づいた多 階層モデルにより再現し、その応用をはかる。 ポスト「京」利用の必要性 期待される成果・波及効果

(1)必要性の観点 (2)有効性の観点 (3)戦略的活用 の観点 大脳皮質の階層的確率推論、大脳基底核の報酬評価、小脳による定型 的行動制御など脳の機能アーキテクチャを参考に、環境との相互作用の もとで学習し続ける知能エージェントを実現する。 ポスト京のキャパシティにより、ネット上で得られる膨大な情報のもとで学 習させることにより、動的に発達し続ける人工知能システムを実現する。 ポスト京により様々な規模と詳細度のシミュレーションを実現する: ・細胞内分子シグナルを含む局所神経回路の詳細モデル ・自動縮約したニューロンモデルによる全脳規模シミュレーション マーモセットなど霊長類の脳データにもとづく詳細大規模シミュレーションにより、脳内シミュレーションと思考、他者認知とコミュニケーションなど、 人の精神活動の基盤となる脳機構の実体の解明が期待される。 そのモデルの解析は、精神神経疾患や発達障害のメカニズムの理解、それらの診断、治療、予防法の開発、また人の心を理解し行動するロボッ トなど、より人間的な人工知能の応用への道を開く。 脳に関して特定の仮定のもとに抽象化したモデルは多数 提案されているが、実験データにもとづく詳細モデルに よってはじめて、脳の物理化学的な実体がいかに精神機 能を実現し得るのかという問題に迫ることが可能になる。 実時間シミュレーションにより、センサやロボットを通した外 界や人とのインタラクションが可能になり、運動制御、意思 決定、コミュニケーションなどの脳機構をリアルに検証する ことが可能になる。

概要・意義・必要性

ポスト「京」により、複雑な神経回路を再現し、「考える」という脳機能の解明に挑むことは現代科学の最大のチャレンジ であり、「健康・医療戦略」にもあるように新しい情報処理技術の確立や精神神経疾患の克服に向け社会的期待も高い。 脳科学の革新的プロジェクトと連携し、そのビッグデータのモデル化と大規模シミュレーションにより、新たなブレークス ルーが期待できる。脳の機構にならった人工知能は、人の心を理解するロボットなど新たなイノベーションを可能にする。 思考の神経回路の実体の解明には、大量の実験データに基づく大規模、マルチスケールのモデルの構築と、さらにリ アルな感覚行動データによる長期の学習が不可欠であり、ポスト「京」の超大規模計算により初めて実現可能である。

必要な計算資源 (実行効率を1EFLOPSの15%程度と 仮定)

サブ課題B:脳アーキテクチャにもとづく人工汎用知能 ・コネクトミクス等データ集中計算:10日 ・マルチスケール局所回路モデル:5日 ・マーモセット全脳詳細モデル:15日 ・人全脳縮約モデル:30日 ・脳型人工汎用知能シミュレーション: 20日 細胞形態と回路結合、活動のイメージングなど異種大規模データを、機 械学習手法をもとにモデル統合しその動作機構を解明する。 サブ課題A:思考を実現する神経回路機構の解明

33

⑬ 思考を実現する神経回路露機構の解明と⼈亻⼯左知能への応⽤甩

slide-42
SLIDE 42
slide-43
SLIDE 43

Acknowledgements

Striatum recording Makoto Ito Tomohiko Yoshizawa Kazuyuki Samejima (Tamagawa U) Two-photon imaging Akihiro Funamizu Bernd Kuhn fMRI Yu Shimizu Alan Fermin (Tamagawa U) Saori Tanaka (ATR) Nicolas Schweighofer (USC) Sigeto Yamawaki (Hiroshima U) Serotonin Recording Kayoko W Miyazaki Katsuhiko Miyazaki Optogenetics Kenji Tanaka (Keio U) Akihiro Yamanaka (Nagoya U) Spiking neural network model Jun Igarashi Jan Moren Osamu Shouno (HRI) Signaling cascade model Takashi Nakano Jun Yoshimoto Naoto Yukinawa Kozo Kaibuchi (Nagoya U) Robotics Eiji Uchibe Stefan Elfwing Jiexin Wang Naoto Yoshida (Tohoku U) Paavo Parmas

Scientific Research on Innovative Areas Strategic Research Program for Brain Sciences Brain/MINDS High Performance Computing Infrastructure

slide-44
SLIDE 44

OIST Neural Computation Unit