Juergen Branke, Sergio Morales-Enciso Warwick Business School - - PowerPoint PPT Presentation

juergen branke sergio morales enciso
SMART_READER_LITE
LIVE PREVIEW

Juergen Branke, Sergio Morales-Enciso Warwick Business School - - PowerPoint PPT Presentation

Juergen Branke, Sergio Morales-Enciso Warwick Business School Outline Mo8va8on Evolu8onary op8misa8on in dynamic environments Efficient Global Op8misa8on


slide-1
SLIDE 1

Warwick ¡Business ¡School ¡

Juergen ¡Branke, ¡Sergio ¡Morales-­‑Enciso ¡

slide-2
SLIDE 2

Warwick ¡Business ¡School ¡

Outline ¡

ž Mo8va8on ¡ ž Evolu8onary ¡op8misa8on ¡in ¡dynamic ¡

environments ¡

ž Efficient ¡Global ¡Op8misa8on ¡(EGO) ¡ ž Extensions ¡to ¡dynamic ¡environments ¡ ž Experimental ¡results ¡ ž Conclusion ¡

slide-3
SLIDE 3

Warwick ¡Business ¡School ¡

Mo+va+on ¡

ž Many ¡op8misa8on ¡problems ¡are ¡dynamic ¡ — Scheduling ¡ — Pickup ¡& ¡delivery ¡ — Changing ¡quality ¡of ¡raw ¡material ¡ — … ¡ ž Problem ¡changes ¡from ¡finding ¡the ¡op8mum ¡to ¡

tracking ¡the ¡op8mum ¡

slide-4
SLIDE 4

Warwick ¡Business ¡School ¡

Nature ¡is ¡able ¡to ¡adapt ¡

¡Evolu+onary ¡algorithms ¡seem ¡promising! ¡

slide-5
SLIDE 5

Warwick ¡Business ¡School ¡

Evolu+onary ¡algorithms ¡are ¡not ¡

Convergence ¡of ¡popula8on ¡limits ¡adaptability ¡

slide-6
SLIDE 6

Warwick ¡Business ¡School ¡

Possible ¡Remedies ¡

  • 1. Restart ¡aPer ¡a ¡change ¡ ¡

(only ¡choice ¡if ¡changes ¡are ¡too ¡severe) ¡ But: ¡Too ¡slow ¡

  • 2. Generate ¡diversity ¡aPer ¡a ¡change ¡

– Hypermuta8on ¡[Cobb ¡1990] ¡

But: ¡Randomisa8on ¡destroys ¡informa8on, ¡ ¡

  • nly ¡local ¡search ¡or ¡similar ¡to ¡restart ¡
slide-7
SLIDE 7

Warwick ¡Business ¡School ¡

Possible ¡Remedies ¡(2) ¡

  • 3. Maintain ¡diversity ¡throughout ¡the ¡run ¡

— Random ¡Immigrants ¡[Grefenste\e ¡1992] ¡ — Thermodynamical ¡GA ¡[Mori ¡et ¡al. ¡1996] ¡

But: ¡Disturbes ¡op8misa8on ¡process ¡

  • 4. Memory-­‑enhanced ¡EAs ¡

– Implicit ¡memory ¡[Goldberg ¡& ¡Smith ¡1987, ¡Lewis ¡et ¡al. ¡1998] ¡

  • Redundant ¡gene8c ¡representa8on ¡(e.g. ¡diploid) ¡

– Explicit ¡memory ¡[Ramsey ¡& ¡Grefenste\e ¡1993, ¡Branke ¡1999, ¡Yang ¡2008] ¡

  • Explicit ¡rules ¡which ¡informa8on ¡to ¡store ¡in ¡and ¡retrieve ¡from ¡the ¡memory ¡

But: ¡Only ¡useful ¡when ¡op8mum ¡reappears ¡at ¡old ¡loca8on, ¡ Problem ¡of ¡convergence ¡remains ¡

slide-8
SLIDE 8

Warwick ¡Business ¡School ¡

Possible ¡Remedies ¡(3) ¡

  • 5. Mul8-­‑Popula8on ¡approaches ¡

— Maintain ¡different ¡subpopula8ons ¡on ¡different ¡

peaks ¡

○ adap8ve ¡memory ¡ ○ able ¡to ¡detect ¡new ¡op8ma ¡ ○ distance/similarity ¡metric ¡required ¡

— Self-­‑Organizing ¡Scouts ¡[Branke ¡et ¡al. ¡2000 ¡ — ClusteringPSO ¡[Yang&Li ¡2010, ¡Li ¡& ¡Yang ¡2012] ¡

Maintains ¡and ¡updates ¡memory ¡of ¡several ¡good ¡ regions ¡

slide-9
SLIDE 9

Warwick ¡Business ¡School ¡

Only ¡few ¡ ¡ evalua+ons ¡possible ¡

ž Limited ¡8me ¡ ž Expensive ¡black-­‑box ¡op8misa8on ¡problem ¡

slide-10
SLIDE 10

Warwick ¡Business ¡School ¡

Efficient ¡Global ¡Op+misa+on ¡(EGO) ¡

ž Fit ¡a ¡Gaussian ¡Process ¡(GP) ¡to ¡data ¡ ž Response ¡model ¡provides ¡informa8on ¡about ¡ — expected ¡value ¡ — uncertainty ¡ ž Use ¡response ¡model ¡to ¡determine ¡next ¡data ¡

point ¡

ž Expected ¡improvement ¡makes ¡explicit ¡trade-­‑off ¡

between ¡explora8on ¡and ¡exploita8on ¡

slide-11
SLIDE 11

Warwick ¡Business ¡School ¡

Efficient ¡Global ¡Op+misa+on ¡(EGO) ¡

ž Fit ¡a ¡Gaussian ¡Process ¡(GP) ¡to ¡data ¡

¡ ¡ ¡ ¡ ¡where ¡

f(~ x) ∼ GP

  • m(~

x), K(~ x, ~ x0)

  • m(~

x) = 0 ~ K =    k(~ x1, ~ x1) · · · k(~ x1, ~ xn) . . . ... . . . k(~ xn, ~ x1) · · · k(~ xn, ~ xn)   

k(~ x, ~ x0) | {z }

kernel

= 2

f

|{z}

max cov

exp ✓ −

D

X

d=1

(xd − x0

d)2

2 `2

d

|{z}

length scale

◆ + 2

n(~

x, ~ x0) | {z }

measurement noise

slide-12
SLIDE 12

Warwick ¡Business ¡School ¡

Example: ¡GP ¡in ¡1 ¡dimension ¡

1 2 3 4 5 6 −1 −0.5 0.5 1 1.5

slide-13
SLIDE 13

Warwick ¡Business ¡School ¡

Adapta+on ¡to ¡dynamic ¡ environments ¡

How ¡to ¡integrate ¡knowledge ¡from ¡history? ¡

a) Designate ¡old ¡date ¡as ¡less ¡reliable ¡(noisy) ¡ b) Add ¡8me ¡as ¡addi8onal ¡dimension ¡ c) Modify ¡mean ¡prior ¡

slide-14
SLIDE 14

Warwick ¡Business ¡School ¡

ž Noise ¡level ¡s2 ¡is ¡user-­‑specified ¡parameter ¡

a) ¡Add ¡noise ¡to ¡old ¡samples ¡

k(~ x, ~ x0) = 2

f

|{z}

max cov

exp ✓ −

D

X

d=1

(xd − x0

d)2

2 `2

d

|{z}

length scale

◆ + 2

n(⌧)(~

x, ~ x0) | {z }

measurement noise

σ2

n(τ) = (τc − τ)s2

slide-15
SLIDE 15

Warwick ¡Business ¡School ¡

Effect ¡of ¡noise ¡

1 2 3 4 5 6 −50 50 100 150 200 250

Effect on noise level: σn = 0

1 2 3 4 5 6 50 100 150 200 250

Effect on noise level: σn = 1

1 2 3 4 5 6 50 100 150 200 250 300

Effect on noise level: σn = 5

1 2 3 4 5 6 50 100 150 200

Effect on noise level: σn = 20

slide-16
SLIDE 16

Warwick ¡Business ¡School ¡

Example ¡

−3 −2 −1 1 2 3 −6 −4 −2 2 4 6

Sample space [x] Objective function [y]

0.05 0.1 0.15 0.2 0.25 0.3

Expected improvement

−3 −2 −1 1 2 3 −6 −4 −2 2 4 6

Sample space [x] Objective function [y]

0.5 1 1.5 2 2.5 3 3.5 4

Expected improvement

−3 −2 −1 1 2 3 −6 −4 −2 2 4 6

Sample space [x] Objective function [y]

0.2 0.4 0.6 0.8 1 1.2 1.4

Expected improvement

−3 −2 −1 1 2 3 −6 −4 −2 2 4 6

Sample space [x] Objective function [y]

0.05 0.1 0.15 0.2 0.25

Expected improvement

slide-17
SLIDE 17

Warwick ¡Business ¡School ¡

b) ¡Addi+onal ¡dimension ¡

ž Time ¡stamp ¡as ¡addi8onal ¡dimension ¡ ž Length ¡scale ¡parameter ¡is ¡learned ¡by ¡GP ¡

k(~ x, ~ x0) = 2

f

|{z}

max cov

exp ✓ −

D+1

X

d=1

(xd − x0

d)2

2 `2

d

|{z}

length scale

slide-18
SLIDE 18

Warwick ¡Business ¡School ¡

c) ¡Transferring ¡the ¡mean ¡prior ¡

ž Instead ¡of ¡a ¡zero ¡mean ¡prior, ¡take ¡the ¡best ¡

es8mate ¡of ¡the ¡previous ¡epoch ¡as ¡a ¡prior ¡mean ¡ func8on ¡

f(~ x) ∼ GP

  • f τ1(~

x), Kτ(~ x, ~ x0)

  • ∀ ⌧ > 0
slide-19
SLIDE 19

Warwick ¡Business ¡School ¡

Measuring ¡performance ¡

ž Average ¡error ¡– ¡If ¡every ¡solu8on ¡is ¡tested ¡in ¡real ¡

world ¡

ž Offline ¡error ¡– ¡If ¡best ¡so ¡far ¡solu8on ¡is ¡tested ¡in ¡

real ¡world ¡

ž Best ¡before ¡change ¡– ¡If ¡op8miza8on ¡is ¡done ¡

before ¡a ¡solu8on ¡is ¡implemented ¡

slide-20
SLIDE 20

Warwick ¡Business ¡School ¡

Moving ¡Peaks ¡Benchmark ¡[Branke1999] ¡

ž Several ¡peaks, ¡ ¡

changing ¡in ¡

— Loca8on ¡ — Height ¡ — Width ¡ ž Used ¡here: ¡ — 5 ¡peaks ¡ — 1 ¡D ¡ — Change ¡every ¡25 ¡evalua8ons ¡

slide-21
SLIDE 21

Warwick ¡Business ¡School ¡

Offline ¡error ¡

200 400 600 800 1000 1200 1400 1600 1800 2000 5 10 15 20 25 30 35 40 45 50

Function Evaluations Offline error Offline error. R=128, Hist=1 epoch. vLength=1.0, height severity=2.0 width severity = 0.01; D=1

Reset Ignore DIN(Sn=4) TasD+1 Reset* PSMP

slide-22
SLIDE 22

Warwick ¡Business ¡School ¡

Final ¡offline ¡error ¡

5 10 15 20

RANDOM RESET IGNORE RESET* DIN (S_n=4) TasD+1 PSMP

Offline error

Performance comparison of 7 models. R=128, Hist=1 epoch vlength = 1.0; height severity=2.0; width severity = 0.01; D=1

slide-23
SLIDE 23

Warwick ¡Business ¡School ¡

500 20 40 60 Function Evaluations Current error 500 20 40 60 Function Evaluations Current error

Current error. R=128, Hist=1 epoch. vLength=1.0, height severity=2.0 width severity = 0.01; D=1

500 20 40 60 Function Evaluations Current error 500 20 40 60 Function Evaluations Current error 500 20 40 60 Function Evaluations Current error 500 20 40 60 Function Evaluations Current error

Reset Ignore DIN(Sn=4) TasD+1 Reset* PSMP

slide-24
SLIDE 24

Warwick ¡Business ¡School ¡

Conclusion ¡

ž With ¡appropriate ¡adjustments, ¡evolu8onary ¡

computa8on ¡is ¡able ¡to ¡con8nuously ¡adapt ¡

ž Proposed ¡new ¡variants ¡of ¡EGO ¡for ¡dynamic ¡

  • p8misa8on ¡problems ¡

ž Results ¡show ¡benefit ¡of ¡transferring ¡informa8on ¡

from ¡previous ¡epochs ¡

ž Promising ¡for ¡applica8ons ¡where ¡very ¡few ¡

func8on ¡evalua8ons ¡are ¡possible ¡

slide-25
SLIDE 25

Warwick ¡Business ¡School ¡

Future ¡work ¡

ž Move ¡to ¡GP ¡variants ¡that ¡can ¡deal ¡with ¡larger ¡

dimensionality ¡and ¡more ¡datapoints ¡

ž Learning ¡of ¡noise ¡parameter ¡ ž Test ¡on ¡other ¡func8ons ¡