Machine Learning and Brain Science Kenji Doya doya@oist.jp Neural - - PowerPoint PPT Presentation
Machine Learning and Brain Science Kenji Doya doya@oist.jp Neural - - PowerPoint PPT Presentation
RIKENOsakaOIST Joint Workshop 2016 Big Waves of Theoretical Science in Okinawa 2016.6.21 Machine Learning and Brain Science Kenji Doya doya@oist.jp Neural Computation Unit Okinawa Institute of Science and Technology Okinawa Institute
Okinawa Institute of Science & Technology
.00.27.7 7-‐‑–0000717 7077770.7
- ¡
710 ¡ .
Our Research Interests
How to build adaptive, autonomous systems robot experiments How the brain realizes robust, flexible adaptation neurobiology
Outline
Machine Learning and Brain Science Reinforcement Learning and Basal Ganglia Delayed Reward and Serotonin What’s Next
Machine Learning and Brain Science
To make intelligent machines by electronics, we should not bother biological constraints. As there’s a superb implementation in the brain, we should learn from that. Currently, brain-like implementation like Deep Learning gives the best performance.
Artificial Intelligence Brain Science
Coevolution in Pattern Recognition
Multi-layer learning
(Amari, 1967)
Neocognitron
(Fukushima 1980)
ConvNet (Krizhevsky, Sutskever, Hinton, 2012) GoogleBrain (2012) Place cell
(O’Keefe 1976)
Face cell (Bruce, Desimone, Gross 1981)
(Sugase et al. 1999)
3
HIPPOCAMPAL PLACE UNITS87 WALL
- 213-4-j l
RACK
FIG.- 2. Place
distributed around the maze. The concentration
- f fields from
the other animals in arm B may have reflected the fact that many of the rats spent their “free time” in this arm. The fact that the initial search for units was conducted there might also have introduced a bias towards units active in that area. In any case, it was clear that the majority
- f fields
were not located in those places which contained the rewards
- r other
- 3. Place
Experience dependence
(Blakemore & Cooper 1970)
RECEPTIVE FIELDS IN CAT STRIATE CORTEX
579 found by changing the size, shape and orientation of the stimulus until a clear response was evoked. Often when a region with excitatory or inhibitory responses was established the neighbouring opposing areas in the receptive
field could only be demonstrated indirectly.Such an indirect method is
illustrated in Fig. 3B, where two flanking areas are indicated by using a short slit in various positions like the hand of a clock, always including the very A B+7
- !
mm
- I
- m_
aS~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~T
T T- Fig. 3. Same unit as in Fig. 2. A, responses to shinling a rectangular light spot, 1° x 8°; centre of
with a small spot (Fig. 2a). Receptive fields having a central area and opposing flanks represented a common pattern, but several variations were seen. Some fields had long narrow central regions with extensive flanking areas (Figs. 1-3): others had a large central area and concentrated slit-shaped flanks (Figs. 6, 9, 10). In many
fields the two flanking regions were asymmetrical, differing in size and shape; in these a given spot gave unequal responses in symmetrically corresponding 37- PHYSIO. CXL,VIIT
Feature detectors
(Hubel & Wiesel 1959)
Perceptron
(Rosenblatt 1962)
What is Machine Learning
Supervised Learning Input-output pairs {(x1,y1), (x2,y2),…} → input-output model y = f(x) + ! for new input x, predict output y Reinforcement Learning state-action-reward triplets {(x1,y1,r1), (x2,y2,r2),…} → action policy y = f(x) to maximize reward Unsupervised Learning Input data { x1, x2, x3,…} → statistical model of P(x) discover structure behind data
x t M = 3 1 −1 1
1 2 3 4 5 6 40 60 80 100
thalamus SN IO Cortex Basal Ganglia Cerebellum target error +
- utput
input
Cerebellum: Supervised Learning
reward
- utput
input
Basal Ganglia: Reinforcement Learning Cerebral Cortex:Unsupervised Learning
- utput
input
Specialization by Learning Algorithms
(Doya, 1999)
Learning by Trial and Error
(Doya & Nakano, 1985)
Explore actions (cycle of 4 postures) Learn from performance feedback (speed sensor)
Reinforcement Learning
Learn action policy: s " a to maximize rewards Value function: expected future rewards V(s(t)) = E[ r(t) + #r(t+1) + #2r(t+2) + #3r(t+3) +…] 0≤#≤1: discount factor Temporal difference (TD) error: $(t) = r(t) + #V(s(t+1)) – V(s(t))
environment reward r action a state s agent
#V(s(t+1))
Pendulum Swing-Up
reward function: potential energy value function V(s)
s =(angle,angular velocity)
Reinforcement Learning
(Morimoto & Doya, 2000)
Learning from reward and punishment reward: height of the head punishment: bump on the floor
Learning to Survive and Reproduce
(Elfwing et al., 2011, 2014)
Catch battery packs
survival
Copy ‘genes’ by IR ports
reproduction, evolution
Reinforcement Learning
Predict reward: value function V(s) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s] Q(s,a) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s, a(t)=a] Select action greedy: a = argmax Q(s,a) Boltzmann: P(a|s) + exp[ * Q(s,a)] Update prediction: TD error $(t) = r(t) + #V(s(t+1)) – V(s(t)) 'V(s(t)) = ( $(t) 'Q(s(t),a(t)) = ( $(t) How to implement these steps? How to tune these parameters?
Basal Ganglia
Locus of Parkinson’s and Huntington’s diseases What is their normal function??
Striatum Globus Pallidus Substantia Nigra Thalamus
Dopamine-dependent Plasticity
Medium spiny neurons in striatum glutamate from cortex dopamine from midbrain Three-factor learning rule (Wickens et al.) cortical input + spike " LTD cortical input + spike + dopamine " LTP input x output x reward Time window
- f plasticity
(Yagishita et al., 2014)
Basal Ganglia for Reinforcement Learning?
(Doya 2000, 2007) Cerebral cortex state/action coding Striatum reward prediction Pallidum action selection Dopamine neurons TD signal Thalamus $ V(s) Q(s,a) state action
Gambling Rats
(Ito & Doya, 2015)
Center Cue'tone 0.5,1s 1,2s Right Rwd'tone
No,rwd
Pellet Left
poking
Center Right Left pellet dish
Cue$tone Reward$prob.$(L,$R) Left$tone (900Hz) Fixed (50%,0%) Right$tone (6500Hz) Fixed (0%,$50%) FreeAchoice$tone (White$noise) Varied (90%,$50%) (50%,$90%) (50%,$10%) (10%,$50%)
Dorsolateral Dorsomedial Ventral
C
R
C
R
Neural Activity in the Striatum
(Ito & Doya, 2015)
State/Action/Reward Coding
sec sec sec
0.19 bits/sec 0.81 bits/sec 0.57 bits/sec
phase$1 2 3 4 5 6 7 cue L/R 1 2 3 4 5 6 7 cue L/R cue L/R 5 6 3 4 7
DLS DMS VS State Action Reward
Generalized Q-learning Model
(Ito & Doya, 2009)
Action selection P(a(t)=L) = expQL(t)/(expQL(t)+expQR(t)) Action value update: i{L,R} Qi(t+1) = (1-(1)Qi(t) + (1,1 if a(t)=i, r(t)=1 (1-(1)Qi(t) - (1,2 if a(t)=i, r(t)=0 (1-(2)Qi(t) if a(t)≠i, r(t)=1 (1-(2)Qi(t) if a(t)≠i, r(t)=0 Parameters (1: learning rate (2: forgetting rate ,1: reward reinforcement ,2: no-reward aversion
- Left, reward
Left, no-reward Right, reward Right, no-reward
QL QR
(90 50) (50 90) (50 10)
Model Fitting by Particle Filter
(2 (1 Trials
Model Fitting
Generalized Q learning (1: learning (2: forgetting ,1: reinforcement ,2: aversion standard: (2=,2=0 forgetting: ,2=0
- 1st$Markov$model(4)
2nd$Markov$model(16) 3rd$Markov$model(64) 4th$Markov$model(256) standard$Q$(const)(2) FAQ$(const)(3) DFAQ$(const)(4) local$matching$law(1) standard$Q$(variable)(2) FAQ$(variable)(2) DFAQ$(variable)(2)
** ** * ** ** ** ** ** ** normalized$ likelihood
Action value DLS DMS State value VS
Action Reward QL QR higher$QL lower$QL higher$QR lower$QR QL firing (Hz) trials QR
Action/State Values in Striatum
(Ito & Doya, 2015)
Action Reward QL QR phase$1 2 3 4 5 6 7 cue L/R higher$QL lower$QL QL firing (Hz) trials
ac
CeM IMD PV PFC SMC
Hindlimb Hindlimb Trunk Trunk Forelimb Forelimb Head Head
ACd PLd PLv IL AId AIv
Core Shell Corticostriatal projections Thalamostr
Midline and intralaminar thalmic nuclei Frontal cortex
Hierarchy in Cortico-Striatal Network
Dorsolateral striatum – motor early action coding what motor action? Dorsomedial striatum - frontal action value in what task context? Ventral striatum - limbic state value whether worth doing?
(Voorn et al., 2004)
Reinforcement Learning
Predict reward: value function V(s) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s] Q(s,a) = E[ r(t) + #r(t+1) + #2r(t+2)…| s(t)=s, a(t)=a] Select action greedy: a = argmax Q(s,a) Boltzmann: P(a|s) + exp[ * Q(s,a)] Update prediction: TD error $(t) = r(t) + #V(s(t+1)) - V(s(t)) 'V(s(t)) = ( $(t) 'Q(s(t),a(t)) = ( $(t) How these steps implemented? How these parameters regulated?
Temporal Discount Factor #
Large # reach for far reward Small #
- nly to near reward
Temporal Discount Factor #
V(t) = E[ r(t) + #r(t+1) + #2r(t+2) + #3r(t+3) +…] controls the ‘character’ of an agent
1 2 3 4 step $20 +100 $20 $20 1 1 2 3 4 step $20 +100 $20 $20 1 1 2 3 4 step +50 $100 1 1 2 3 4 step +50 $100 1
# large # small
can’t5resist5temptation no5pain,5no5gain! stay5away5from5danger better5stay5idle V =18.7$ V =$A22.9 V =A25.1$ V =$47.3
Depression? Impulsivity? Serotonin?
Neuromodulators for Metalearning
(Doya, 2002)
Metaparameter tuning is critical in RL How does the brain tune them? Dopamine: TD error $ Acetylcholine: learning rate ( Noradrenaline: exploration * Serotonin: temporal discount #
Markov Decision Task
(Tanaka et al., 2004)
Stimulus and response State transition and reward functions
+100yen +100yen
2s 1s 1s 1s 0.5s 0.5s Time
action$a1 action$a2
A20 A20 +20 +20 A20 +20
s1 s2 s3
A20 A20 +20 +20 +100 A100
s1 s2 s3
Markov Decision Task
(Tanaka et
- al. 2004)
Reward prediction V(t) Reward prediction error $(t)
mPFC Insula
x$=$A2$mm x$=$A42$mm
Striatum
z$=$2
Dorsal-Ventral Map of Time Scale
(Tanaka et al., 2007)
2FDDCCIFDC( DIG
)F.CC.D)FFDCD ¡
tryptophan hydroxylase-2 (Tph2) promoter TetO-ChR2(C128S)-EYFP
(Tanaka et al., 2012, Cell Reports)
Open by blue light Close by yellow light
Reward Delay Task (3, 6, 9, ∞ sec)
3 sec: success
- mission: 12.1 s
- mission: 20.8 s
Waiting Time in Omission Trials
(Miyazaki et al. 2014, Current Biology)
5 10 15 20 25 30 35 40 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Number'of'times Waiting'time'(s)
No blue stim. Blue stim.
5 10 15 20 25 No blue stim. Blue stim.
Waiting'time'(s)
Yellow stim.
Yellow stim.
Summary
Human fMRI Dorsal BG loop: future Ventral BG loop: immediate Differential modulation by serotonin Rodent Recording/Manipulation Microdialysis: higher 5-HT in delayed reward pharmacology: lower 5-HT cause waiting error Dorsal raphe neurons: higher firing during waiting firing stops before giving up extended waiting by optogenetic stimulation effect depends on probability/confidence
Brain/MINDS Program (2014~2023)
Structural and functional maps of marmoset brain RIKEN + 22 labs 3 billion yen (~$30M)/year OIST: model building from high-throughput data
2.革新脳の達成目標
- A. 霊長類の脳構造・機能マップの作成
マクロスコピック メゾスコピック ミクロスコピック
標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合
①霊長類脳における神経結合の構造マップの作成
行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10
2.革新脳の達成目標
- A. 霊長類の脳構造・機能マップの作成
②霊長類脳における行動と対応付けされた 機能マップの作成
行動解析 脳機能画像データ 細胞活動の網羅的記録
マーモセットに適した 行動課題の選択と 課題関連 神経回路の抽出 行動解析において 重要な回路に特化 して細胞レベルの 活動を解析 12
① 高解像度・広領域・深部観察・高時間分解能を達成する 神経回路構造・機能解析技術 の開発 ○可視化プローブの開発 ○組織操作技術(透明化等)の開発 ○広範囲観察のための顕微鏡技術の開発 ○超高密度電極アレイの開発 ○ヒト脳イメージングのための新規 技術の開発
2.革新脳の達成目標
B.神経回路マップ作成のための革新的技術開発
14
2.革新脳の達成目標
- A. 霊長類の脳構造・機能マップの作成
②霊長類脳における行動と対応付けされた 機能マップの作成
行動解析 脳機能画像データ 細胞活動の網羅的記録
マーモセットに適した 行動課題の選択と 課題関連 神経回路の抽出 行動解析において 重要な回路に特化 して細胞レベルの 活動を解析 12
2.革新脳の達成目標
- A. 霊長類の脳構造・機能マップの作成
マクロスコピック メゾスコピック ミクロスコピック
標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合
①霊長類脳における神経結合の構造マップの作成
行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10
2.革新脳の達成目標
- A. 霊長類の脳構造・機能マップの作成
マクロスコピック メゾスコピック ミクロスコピック
標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合
①霊長類脳における神経結合の構造マップの作成
行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10
2.革新脳の達成目標
- A. 霊長類の脳構造・機能マップの作成
マクロスコピック メゾスコピック ミクロスコピック
標準化された 脳テンプレートを 統一して使用し、 異なる階層の データを統合
①霊長類脳における神経結合の構造マップの作成
行動解析や 病態モデルにおいて 重要な回路に特化 してシナプスレベルの 網羅的解析を実施 10
2FIIFAE
GFIIFA-‐‑– ;;IGDC-‐‑– FFG FCGEFCFC GFAGDC
IFADAG
FDGDE /,,, ,/ /,,, GDGDE ,, ,,/, ,,/ FDGDE ,/,,, ,, ¡ / ¡/ ,
+ICDCAE
G;-‐‑– FGC;-‐‑– (D, IAAFDG (C DAIAFC
Creating Multi-scale Brain Model
Integrated Model: Parkinsonian
Post-K Project
Flagship 2020: “exa-sclae” ~1018flops New focus on neural networks /artificial intelligence
内容の詳細:「革新的技術による脳機能ネットワークの全容解明プロジェクト」等によ り得られる脳構造と活動の高スループット計測によるボトムアップデータと、認知を 実現する機械学習によるトップダウン設計論を融合し、思考を実現する脳の大規模 神経回路を、ニューロンの特性や回路の結合構造などの実験データに基づいた多 階層モデルにより再現し、その応用をはかる。 ポスト「京」利用の必要性 期待される成果・波及効果
(1)必要性の観点 (2)有効性の観点 (3)戦略的活用 の観点 大脳皮質の階層的確率推論、大脳基底核の報酬評価、小脳による定型 的行動制御など脳の機能アーキテクチャを参考に、環境との相互作用の もとで学習し続ける知能エージェントを実現する。 ポスト京のキャパシティにより、ネット上で得られる膨大な情報のもとで学 習させることにより、動的に発達し続ける人工知能システムを実現する。 ポスト京により様々な規模と詳細度のシミュレーションを実現する: ・細胞内分子シグナルを含む局所神経回路の詳細モデル ・自動縮約したニューロンモデルによる全脳規模シミュレーション マーモセットなど霊長類の脳データにもとづく詳細大規模シミュレーションにより、脳内シミュレーションと思考、他者認知とコミュニケーションなど、 人の精神活動の基盤となる脳機構の実体の解明が期待される。 そのモデルの解析は、精神神経疾患や発達障害のメカニズムの理解、それらの診断、治療、予防法の開発、また人の心を理解し行動するロボッ トなど、より人間的な人工知能の応用への道を開く。 脳に関して特定の仮定のもとに抽象化したモデルは多数 提案されているが、実験データにもとづく詳細モデルに よってはじめて、脳の物理化学的な実体がいかに精神機 能を実現し得るのかという問題に迫ることが可能になる。 実時間シミュレーションにより、センサやロボットを通した外 界や人とのインタラクションが可能になり、運動制御、意思 決定、コミュニケーションなどの脳機構をリアルに検証する ことが可能になる。
概要・意義・必要性
ポスト「京」により、複雑な神経回路を再現し、「考える」という脳機能の解明に挑むことは現代科学の最大のチャレンジ であり、「健康・医療戦略」にもあるように新しい情報処理技術の確立や精神神経疾患の克服に向け社会的期待も高い。 脳科学の革新的プロジェクトと連携し、そのビッグデータのモデル化と大規模シミュレーションにより、新たなブレークス ルーが期待できる。脳の機構にならった人工知能は、人の心を理解するロボットなど新たなイノベーションを可能にする。 思考の神経回路の実体の解明には、大量の実験データに基づく大規模、マルチスケールのモデルの構築と、さらにリ アルな感覚行動データによる長期の学習が不可欠であり、ポスト「京」の超大規模計算により初めて実現可能である。
必要な計算資源 (実行効率を1EFLOPSの15%程度と 仮定)
サブ課題B:脳アーキテクチャにもとづく人工汎用知能 ・コネクトミクス等データ集中計算:10日 ・マルチスケール局所回路モデル:5日 ・マーモセット全脳詳細モデル:15日 ・人全脳縮約モデル:30日 ・脳型人工汎用知能シミュレーション: 20日 細胞形態と回路結合、活動のイメージングなど異種大規模データを、機 械学習手法をもとにモデル統合しその動作機構を解明する。 サブ課題A:思考を実現する神経回路機構の解明
33
⑬ 思考を実現する神経回路露機構の解明と⼈亻⼯左知能への応⽤甩
Acknowledgements
Striatum recording Makoto Ito Tomohiko Yoshizawa Kazuyuki Samejima (Tamagawa U) Two-photon imaging Akihiro Funamizu Bernd Kuhn fMRI Yu Shimizu Alan Fermin (Tamagawa U) Saori Tanaka (ATR) Nicolas Schweighofer (USC) Sigeto Yamawaki (Hiroshima U) Serotonin Recording Kayoko W Miyazaki Katsuhiko Miyazaki Optogenetics Kenji Tanaka (Keio U) Akihiro Yamanaka (Nagoya U) Spiking neural network model Jun Igarashi Jan Moren Osamu Shouno (HRI) Signaling cascade model Takashi Nakano Jun Yoshimoto Naoto Yukinawa Kozo Kaibuchi (Nagoya U) Robotics Eiji Uchibe Stefan Elfwing Jiexin Wang Naoto Yoshida (Tohoku U) Paavo Parmas
Scientific Research on Innovative Areas Strategic Research Program for Brain Sciences Brain/MINDS High Performance Computing Infrastructure