Collaborative on line learning of an action model Christophe - - PowerPoint PPT Presentation

collaborative on line learning of an action model
SMART_READER_LITE
LIVE PREVIEW

Collaborative on line learning of an action model Christophe - - PowerPoint PPT Presentation

Collaborative on line learning of an action model Christophe Rodrigues , Henry Soldano , Gauvain Bourgne and Cline Rouveirol LIPN (Universit Paris 13, UMR-CNRS 7030) LIP6 (Universit Pierre et Marie Curie, UMR-CNRS 7606)


slide-1
SLIDE 1

Collaborative on line learning of an action model

Christophe Rodrigues∗, Henry Soldano∗, Gauvain Bourgne† and Céline Rouveirol∗

∗LIPN (Université Paris 13, UMR-CNRS 7030) †LIP6 (Université Pierre et Marie Curie, UMR-CNRS 7606)

ILP - Nancy

14/09/2014

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 1 / 14

slide-2
SLIDE 2

Introduction

Collaborative Learning

Given a relational revision algorithm IRALe, that performs online learning

  • f a deterministic conditional STRIPS-like model and a multi agent

learning protocol SMILE.

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 2 / 14

slide-3
SLIDE 3

Incremental refinement of relational action model

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 3 / 14

slide-4
SLIDE 4

SMILE protocol

Local consistency mechanism, a-consistency: consistency wrt internal counter-examples SMILE : A general consistency maintenance protocol Global revision mechanism triggered by an agent ai upon direct

  • bservation of a contradictory observation x,(internal

counter-example). A set of interactions I(ai, aj), j ∈ [1..n], j = i, between the learner agent ai and other agents aj, acting as critics

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 4 / 14

slide-5
SLIDE 5

SMILE protocol

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 5 / 14

slide-6
SLIDE 6

SMILE properties

An IRALe agent ai is mas-consistent iff Ti is consistent with respect to O, i.e., to all counter-examples stored by agents of the n-MAS. Provided agents in the n-MAS in independent environments, each agent is MAS-consistent. The process always terminates. Let d be the cost of an interaction and c to be the cost of revision. When a MAS of n agents has received ne examples, in the worst case:

1

The total number of local revisions performed during the history of the MAS is less than ne ∗ n

2

The total cost of interactions is less than ne · (n + 1) · (n − 1) · d

3

The total revision cost is less than ne · n · c(ne)

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 6 / 14

slide-7
SLIDE 7

Experiments

A community of n agents (1, 5, 30), each acting in their own

  • environment. Agents are individualistic as they maintain and modify

their own current hypothesis. Proof of concept in the blocks world domain in which color predicates for blocks are introduced. 2 rules (over 7) in the 7 blocks 2 colors (b and w) world Preconditions Action Effect bl(A), bl(B), bl(C), move(A, B)

  • n(A, B),

cl(A), cl(B), w(A), w(B), ¬on(A, C),

  • n(A, C), on(B, D)

cl(C), ¬cl(B) bl(A), bl(B), bl(C), move(A, B) b(A), cl(A), cl(B), w(A), b(B), ¬w(A)

  • n(A, C), on(B, D)

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 7 / 14

slide-8
SLIDE 8

Integration with a planner

At a given moment, the agent a is in state si, and has its own current action model Ti and corresponding counter-examples memory Oi. Each agent is provided with some random goal to reach Gi. At each time t, the agent tries to build a plan P = (a1, ..., am) to reach Gi.

  • If it succeeds, the agent applies a1, observing effect e. Let

ˆ e = predict(a1, Ti, si). If e = ˆ e, the agent applies the next action of the plan.

  • Otherwise, this generates a new counter-example x = (si, a1, e), Ti is

revised locally into T ′

i , which is transmitted to the other agents,

therefore triggering a global revision.

If planning fails, random actions are selected and performed.

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 8 / 14

slide-9
SLIDE 9

Results

0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ 0.9 ¡ 1 ¡ 0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡

Average ¡accuracy ¡of ¡each ¡agent ¡ Number ¡of ¡ac3ons ¡performed ¡by ¡each ¡agent ¡

Accuracy ¡

Tilde(1ag) ¡ 1 ¡agent ¡ 5 ¡agents ¡ 30 ¡agents ¡

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 9 / 14

slide-10
SLIDE 10

Results

0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 300 ¡ 0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡

Average ¡number ¡of ¡messages ¡sent ¡ by ¡each ¡agent ¡ Number ¡of ¡ac4ons ¡performed ¡by ¡each ¡agent ¡

Communica4onal ¡cost ¡

5 ¡agents ¡ 30 ¡agents ¡

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 10 / 14

slide-11
SLIDE 11

Results

0 ¡ 5 ¡ 10 ¡ 15 ¡ 20 ¡ 25 ¡ 30 ¡ 0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡

Average ¡number ¡of ¡examples ¡ stored ¡by ¡each ¡agent ¡ Number ¡of ¡ac8ons ¡performed ¡by ¡each ¡agent ¡

Number ¡of ¡examples ¡

1 ¡agent ¡ 5 ¡agents ¡(only ¡ internal) ¡ 30 ¡agents ¡(only ¡ internal) ¡ 5 ¡agents ¡(all ¡ examples) ¡ 30 ¡agents ¡(all ¡ examples) ¡

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 11 / 14

slide-12
SLIDE 12

Results

0 ¡ 2 ¡ 4 ¡ 6 ¡ 8 ¡ 10 ¡ 12 ¡ 0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 300 ¡

Average ¡number ¡of ¡goals ¡achieved ¡ by ¡each ¡agent ¡ Number ¡of ¡ac7ons ¡performed ¡by ¡each ¡agent ¡

Number ¡of ¡achieved ¡goals ¡

1 ¡agent ¡ 5 ¡agents ¡ 30 ¡agents ¡

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 12 / 14

slide-13
SLIDE 13

Results - Vote protocol

0.8 ¡ 0.82 ¡ 0.84 ¡ 0.86 ¡ 0.88 ¡ 0.9 ¡ 0.92 ¡ 0.94 ¡ 0.96 ¡ 0.98 ¡ 1 ¡ 0 ¡ 200 ¡ 400 ¡ 600 ¡ 800 ¡

Accuracy ¡ Number ¡of ¡examples ¡received ¡by ¡each ¡agent ¡

7 ¡blocks ¡-­‑ ¡2 ¡colors ¡

Average ¡and ¡vo3ng ¡accuracy ¡of ¡an ¡agent ¡in ¡a ¡5-­‑MAS ¡ Average ¡ Vo3ng ¡

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 13 / 14

slide-14
SLIDE 14

Thank you for your attention

C.Rodrigues & Al. Collaborative online learning of an action mod 14/09/2014 14 / 14