PREFERENCES IN ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING - - PowerPoint PPT Presentation

preferences in artificial intelligence and machine
SMART_READER_LITE
LIVE PREVIEW

PREFERENCES IN ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING - - PowerPoint PPT Presentation

PREFERENCES IN ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING Eyke Hllermeier Intelligent Systems Group Department of Computer Science University of Paderborn,


slide-1
SLIDE 1

Eyke ¡Hüllermeier ¡

Intelligent ¡Systems ¡Group ¡ Department ¡of ¡Computer ¡Science ¡ University ¡of ¡Paderborn, ¡Germany ¡

  • eyke@upb.de

¡

PREFERENCES ¡IN ¡ARTIFICIAL ¡INTELLIGENCE ¡ AND ¡MACHINE ¡LEARNING ¡

PFIA ¡2015, ¡Rennes, ¡France, ¡28-­‑JUN-­‑2015 ¡

slide-2
SLIDE 2

PREFERENCES ¡ARE ¡UBIQUITOUS ¡

Preferences ¡play ¡a ¡key ¡role ¡in ¡many ¡applicaGons ¡of ¡computer ¡science ¡and ¡ modern ¡informaGon ¡technology: ¡

COMPUTATIONAL ¡ ADVERTISING ¡ RECOMMENDER ¡ SYSTEMS ¡ ADAPTIVE ¡USER ¡ INTERFACES ¡ AUTONOMOUS ¡ AGENTS ¡ ADAPTIVE ¡ RETRIEVAL ¡SYSTEMS ¡ COMPUTER ¡ ¡ GAMES ¡ ELECTRONIC ¡ COMMERCE ¡

2

PERSONALIZED ¡ MEDICINE ¡ SERVICE-­‑ORIENTED ¡ COMPUTING ¡

slide-3
SLIDE 3

PREFERENCES ¡ARE ¡UBIQUITOUS ¡

Preferences ¡play ¡a ¡key ¡role ¡in ¡many ¡applicaGons ¡of ¡computer ¡science ¡and ¡ modern ¡informaGon ¡technology: ¡

COMPUTATIONAL ¡ ADVERTISING ¡ RECOMMENDER ¡ SYSTEMS ¡ ADAPTIVE ¡USER ¡ INTERFACES ¡ AUTONOMOUS ¡ AGENTS ¡ ADAPTIVE ¡ RETRIEVAL ¡SYSTEMS ¡ COMPUTER ¡ ¡ GAMES ¡ ELECTRONIC ¡ COMMERCE ¡

3

PERSONALIZED ¡ MEDICINE ¡ SERVICE-­‑ORIENTED ¡ COMPUTING ¡ medicaGons ¡or ¡therapies ¡ specifically ¡tailored ¡for ¡ individual ¡paGents ¡

slide-4
SLIDE 4

COMMERCIAL ¡INTEREST ¡

4

slide-5
SLIDE 5

PREFERENCES ¡IN ¡AI ¡

5

“Early ¡work ¡in ¡AI ¡focused ¡on ¡the ¡noFon ¡of ¡a ¡goal—an ¡explicit ¡target ¡that ¡must ¡ be ¡achieved—and ¡this ¡paradigm ¡is ¡sGll ¡dominant ¡in ¡AI ¡problem ¡solving. ¡But ¡as ¡ applicaGon ¡domains ¡become ¡more ¡complex ¡and ¡realisGc, ¡it ¡is ¡apparent ¡that ¡the ¡ dichotomic ¡noFon ¡of ¡a ¡goal, ¡while ¡adequate ¡for ¡certain ¡puzzles, ¡is ¡too ¡crude ¡in ¡

  • general. ¡The ¡problem ¡is ¡that ¡in ¡many ¡contemporary ¡applicaGon ¡domains ¡... ¡the ¡

user ¡has ¡liMle ¡knowledge ¡about ¡the ¡set ¡of ¡possible ¡soluFons ¡or ¡feasible ¡items, ¡ and ¡what ¡she ¡typically ¡seeks ¡is ¡the ¡best ¡that’s ¡out ¡there. ¡But ¡since ¡the ¡user ¡does ¡ not ¡know ¡what ¡is ¡the ¡best ¡achievable ¡plan ¡or ¡the ¡best ¡available ¡document ¡or ¡ product, ¡she ¡typically ¡cannot ¡characterize ¡it ¡or ¡its ¡properGes ¡specifically. ¡As ¡a ¡ result, ¡she ¡will ¡end ¡up ¡either ¡asking ¡for ¡an ¡unachievable ¡goal, ¡geOng ¡no ¡ soluFon ¡in ¡response, ¡or ¡asking ¡for ¡too ¡liMle, ¡obtaining ¡a ¡soluFon ¡that ¡can ¡be ¡ substanFally ¡improved.” ¡ [Brafman ¡& ¡Domshlak, ¡2009] ¡

... ¡compared ¡with ¡the ¡dichotomic ¡no@on ¡of ¡a ¡goal, ¡preference ¡formalisms ¡ significantly ¡increase ¡flexibility ¡in ¡knowledge ¡representa@on ¡and ¡problem ¡solving! ¡ ¡ ¡

slide-6
SLIDE 6

PREFERENCES ¡IN ¡AI ¡

PREFERENCES ¡IN ¡ARTIFICIAL ¡INTELLIGENCE ¡RESEARCH: ¡ ¡

  • preference ¡representaFon ¡(preference ¡relaGons, ¡CP ¡nets, ¡GAI ¡

networks, ¡logical ¡representaGons, ¡fuzzy ¡constraints, ¡…) ¡ ¡

  • preference ¡handling ¡and ¡reasoning ¡with ¡preferences ¡(decision ¡theory, ¡

constraint ¡saGsfacGon, ¡non-­‑monotonic ¡reasoning, ¡…) ¡ ¡

  • preference ¡acquisiFon ¡(preference ¡elicitaGon, ¡preference ¡learning, ¡...) ¡

6

slide-7
SLIDE 7

PREFERENCE ¡INFORMATION ¡

7

slide-8
SLIDE 8

PREFERENCE ¡INFORMATION ¡

8

CLICKED ¡ON ¡ NOT ¡CLICKED ¡ON ¡

  • Preferences ¡are ¡not ¡

necessarily ¡expressed ¡ explicitly, ¡but ¡can ¡be ¡ extracted ¡implictly ¡from ¡ people‘s ¡behavior! ¡

  • Massive ¡amounts ¡of ¡very ¡

noisy ¡data! ¡

slide-9
SLIDE 9

PREFERENCE ¡LEARNING ¡ Fostered ¡by ¡the ¡availability ¡of ¡large ¡amounts ¡of ¡data, ¡ PREFERENCE ¡LEARNING ¡has ¡recently ¡emerged ¡as ¡a ¡new ¡ subfield ¡of ¡machine ¡learning, ¡dealing ¡with ¡the ¡learning ¡of ¡ (predicGve) ¡preference ¡models ¡from ¡observed, ¡revealed ¡or ¡ automaGcally ¡extracted ¡preference ¡informaGon. ¡

9

(preference) ¡ data ¡ (preference) ¡ models ¡

slide-10
SLIDE 10

PREFERENCE ¡LEARNING ¡

10

  • J. ¡Fürnkranz ¡& ¡

¡E. ¡Hüllermeier ¡(eds.) ¡ Preference ¡Learning ¡ Springer-­‑Verlag ¡2011 ¡

Tutorials: ¡

  • European ¡Conf. ¡on ¡Machine ¡Learning, ¡2010 ¡
  • Int. ¡Conf. ¡Discovery ¡Science, ¡2011 ¡
  • Int. ¡Conf. ¡Algorithmic ¡Decision ¡Theory, ¡2011 ¡
  • European ¡Conf. ¡on ¡ArGficial ¡Intelligence, ¡2012 ¡
  • Int. ¡Conf. ¡Algorithmic ¡Learning ¡Theory, ¡2014 ¡

Special ¡Issue ¡on ¡ RepresenGng, ¡ Processing, ¡and ¡ Learning ¡Preferences: ¡ TheoreGcal ¡and ¡ PracGcal ¡Challenges ¡ (2011) ¡ ¡

Workshops: ¡

  • ECML/PDKK ¡08–10: ¡Workshop ¡on ¡Preference ¡Learning ¡
  • ECAI ¡2012: ¡Workshop ¡on ¡Preference ¡Learning: ¡Problems ¡ ¡

and ¡ApplicaGons ¡in ¡AI ¡

  • Dagstuhl ¡Seminar ¡on ¡Preference ¡Learning ¡(2014) ¡

Special ¡Issue ¡on ¡ Preference ¡Learning ¡ (2013) ¡

slide-11
SLIDE 11

PL ¡IS ¡AN ¡ACTIVE ¡FIELD ¡

§ NIPS ¡2001: ¡New ¡Methods ¡for ¡Preference ¡ElicitaGon ¡ § NIPS ¡2002: ¡Beyond ¡ClassificaGon ¡and ¡Regression: ¡Learning ¡Rankings, ¡Preferences, ¡Equality ¡ Predicates, ¡and ¡Other ¡Structures ¡ § KI ¡2003: ¡Preference ¡Learning: ¡Models, ¡Methods, ¡ApplicaGons ¡ § NIPS ¡2004: ¡Learning ¡with ¡Structured ¡Outputs ¡ § NIPS ¡2005: ¡Workshop ¡on ¡Learning ¡to ¡Rank ¡ § IJCAI ¡2005: ¡Advances ¡in ¡Preference ¡Handling ¡ § SIGIR ¡07–10: ¡Workshop ¡on ¡Learning ¡to ¡Rank ¡for ¡InformaGon ¡Retrieval ¡ § ECML/PDKK ¡08–10: ¡Workshop ¡on ¡Preference ¡Learning ¡ § NIPS ¡2009: ¡Workshop ¡on ¡Advances ¡in ¡Ranking ¡ § American ¡InsGtute ¡of ¡MathemaGcs ¡Workshop ¡in ¡Summer ¡2010: ¡The ¡MathemaGcs ¡of ¡Ranking ¡ § NIPS ¡2011: ¡Workshop ¡on ¡Choice ¡Models ¡and ¡Preference ¡Learning ¡ § EURO ¡2009-­‑12: ¡Special ¡Track ¡on ¡Preference ¡Learning ¡ § ECAI ¡2012: ¡Workshop ¡on ¡Preference ¡Learning: ¡Problems ¡and ¡ApplicaGons ¡in ¡AI ¡ § DA2PL ¡2012: ¡From ¡Decision ¡Analysis ¡to ¡Preference ¡Learning ¡ § Dagstuhl ¡Seminar ¡on ¡Preference ¡Learning ¡(2014) ¡ § NIPS ¡2014: ¡Analysis ¡of ¡Rank ¡Data: ¡Confluence ¡of ¡Social ¡Choice, ¡OperaGons ¡Research, ¡and ¡ Machine ¡Learning ¡

11

slide-12
SLIDE 12

CONNECTIONS ¡TO ¡OTHER ¡FIELDS ¡

12

Preference ¡ Learning ¡

Recommender ¡ Systems ¡ Learning ¡with ¡ weak ¡supervision ¡ Learning ¡ Monotone ¡Models ¡ Structured ¡Output ¡ PredicGon ¡ InformaGon ¡ Retrieval ¡ ClassificaGon ¡(ordinal, ¡ mulGlabel, ¡...) ¡ OperaGons ¡ Research ¡ MulGple ¡Criteria ¡ Decision ¡Making ¡ Social ¡Choice ¡ Economics ¡& ¡ Decison ¡Science ¡ StaGsGcs ¡ OpGmizaGon ¡ Graph ¡theory ¡

slide-13
SLIDE 13

MANY ¡TYPES ¡OF ¡PREFERENCES ¡

  • binary ¡vs. ¡graded ¡(e.g., ¡relevance ¡judgements ¡vs. ¡raGngs) ¡ ¡
  • absolute ¡vs. ¡relaFve ¡(e.g., ¡assessing ¡single ¡alternaGves ¡vs. ¡comparing ¡pairs) ¡
  • explicit ¡vs. ¡implicit ¡(e.g., ¡direct ¡feedback ¡vs. ¡click-­‑through ¡data) ¡
  • structured ¡vs. ¡unstructured ¡(e.g., ¡raGngs ¡on ¡a ¡given ¡scale ¡vs. ¡free ¡text) ¡
  • single ¡user ¡vs. ¡mulFple ¡users ¡(e.g., ¡document ¡keywords ¡vs. ¡social ¡tagging) ¡
  • single ¡vs. ¡mulF-­‑dimensional ¡ ¡
  • ... ¡

A ¡ wi d e ¡ s p ec t ru m ¡ o f ¡ l earn i n g ¡ p ro b l ems ! ¡

13

slide-14
SLIDE 14

SUBSET ¡RANKING ¡

TRAINING ¡

Pairwise ¡ preferences ¡ between ¡objects ¡

14

à ¡i n d u cG o n ¡ o f ¡ a ¡ R ANKI NG ¡ F UNC T I O N ¡

slide-15
SLIDE 15

SUBSET ¡RANKING ¡

PREDICTION ¡(ranking ¡a ¡new ¡set ¡of ¡objects) ¡

15

slide-16
SLIDE 16

COLLABORATIVE ¡FILTERING ¡

16

P1 ¡ P2 ¡ P3 ¡ … ¡ P38 ¡ … ¡ P88 ¡ P89 ¡ P90 ¡ U1 ¡ … ¡ … ¡ U2 ¡ … ¡ … ¡ … ¡ … ¡ … ¡ U46 ¡ ? ¡ ? ¡ … ¡ ? ¡ … ¡ ? ¡ ? ¡ … ¡ … ¡ … ¡ U98 ¡ … ¡ … ¡ U99 ¡ … ¡ … ¡

U ¡S ¡E ¡R ¡S ¡ ¡P ¡R ¡O ¡D ¡U ¡C ¡T ¡S ¡

slide-17
SLIDE 17

PREFERENCE ¡LEARNING ¡TASKS ¡

17

OBJECT ¡RANKING ¡ COLLABORATIVE ¡FILTERING ¡ descripGon ¡of ¡alternaGves ¡ ¡ ¡ features ¡ idenGfier ¡ representaGon ¡of ¡preference ¡ relaGve ¡ absolute ¡ predicGons ¡ ranking ¡ uGlity ¡degrees ¡ number ¡of ¡users/models ¡ single ¡ many ¡

slide-18
SLIDE 18

PREFERENCE ¡LEARNING ¡TASKS ¡

task ¡ context ¡ (input) ¡ alternaGve ¡ (output) ¡ training ¡ informaGon ¡ predicGon ¡ ground ¡truth ¡

collaboraGve ¡ filtering ¡ ID ¡ ID ¡ absolute ¡

  • rdinal ¡

absolute ¡

  • rdinal ¡

absolute ¡

  • rdinal ¡

dyadic ¡ ¡ predicGon ¡ feature ¡ feature ¡ absolute ¡

  • rdinal ¡

absolute ¡

  • rdinal ¡

absolute ¡

  • rdinal ¡

mulGlabel ¡ classificaGon ¡ feature ¡ ID ¡ absolute ¡ binary ¡ absolute ¡ binary ¡ absolute ¡ binary ¡ mulGlabel ¡ ¡ ranking ¡ feature ¡ ID ¡ absolute ¡ binary ¡ ranking ¡ absolute ¡ binary ¡ label ¡ ¡ ranking ¡ feature ¡ ID ¡ relaGve ¡ binary ¡ ranking ¡ ranking ¡ subset ¡ ¡ ranking ¡

  • ­‑-­‑-­‑ ¡

feature ¡ ¡ relaGve ¡ binary ¡ ranking ¡ ranking ¡or ¡subset ¡ instance ¡ ¡ ranking ¡

  • ­‑-­‑-­‑ ¡

feature ¡ ¡ absolute ¡

  • rdinal ¡

ranking ¡ absolute ¡

  • rdinal ¡

representaGon ¡ type ¡of ¡preference ¡informaGon ¡

18

slide-19
SLIDE 19

OUTLINE ¡

19

PART ¡ 1 ¡ ¡ Preference ¡ ¡ learning ¡ ¡ ¡ PART ¡ 2 ¡ ¡ Label ¡ ranking ¡ ¡ ¡ PART ¡ 3 ¡ ¡ Preference-­‑based ¡ bandit ¡algorithms ¡ ¡ ¡

slide-20
SLIDE 20

20

§ What ¡kind ¡of ¡training ¡data ¡is ¡offered ¡to ¡the ¡learning ¡algorithm? ¡ ¡

SUPERVISED ¡LEARNING ¡

§ What ¡type ¡of ¡model ¡(predicGon) ¡is ¡the ¡learner ¡supposed ¡to ¡produce? ¡ ¡ § What ¡is ¡the ¡nature ¡of ¡the ¡ground ¡truth, ¡and ¡how ¡is ¡a ¡model ¡assessed? ¡ ¡ ¡

LOSS ¡ FUNCTION ¡

slide-21
SLIDE 21

21

unknown ¡data-­‑ generaGng ¡process ¡

SUPERVISED ¡LEARNING ¡

risk ¡¼ ¡average ¡ penalty ¡caused ¡by ¡the ¡ model‘s ¡predicGons ¡

§ What ¡kind ¡of ¡training ¡data ¡is ¡offered ¡to ¡the ¡learning ¡algorithm? ¡ ¡ § What ¡type ¡of ¡model ¡(predicGon) ¡is ¡the ¡learner ¡supposed ¡to ¡produce? ¡ ¡ § What ¡is ¡the ¡nature ¡of ¡the ¡ground ¡truth, ¡and ¡how ¡is ¡a ¡model ¡assessed? ¡ ¡

slide-22
SLIDE 22

PREFERENCE ¡LEARNING ¡TASKS ¡

22

Preference ¡learning ¡problems ¡are ¡challenging, ¡because ¡

  • sought ¡predicGons ¡are ¡complex/structured, ¡
  • supervision ¡is ¡weak ¡(parGal, ¡noisy, ¡...), ¡
  • performance ¡metrics ¡are ¡hard ¡to ¡opGmize, ¡
  • ... ¡

top-­‑K ¡ranking ¡ clickthrough ¡data ¡ NDCG@K ¡

slide-23
SLIDE 23

LABEL ¡RANKING ¡

23

(35,0,...,325)

... ¡mapping ¡instances ¡to ¡TOTAL ¡ORDERS ¡over ¡a ¡fixed ¡set ¡of ¡alternaGves/labels: ¡ ¡

 ¡  ¡  ¡

... ¡likes ¡more ¡ ... ¡reads ¡more ¡ ... ¡publishes ¡more ¡in ¡ ... ¡ ¡

slide-24
SLIDE 24

LABEL ¡RANKING: ¡TRAINING ¡DATA ¡ ¡

X1 X2 X3 X4

preferences ¡

0.34 10 174

A ¡Â ¡B, ¡C ¡Â ¡D ¡

1.45 32 277

B ¡Â ¡C ¡Â ¡A ¡

1.22 1 46 421

B ¡Â ¡D, ¡A ¡Â ¡D, ¡C ¡Â ¡D, ¡A ¡Â ¡C ¡

0.74 1 25 165

C ¡Â ¡A ¡Â ¡D, ¡A ¡Â ¡B ¡

0.95 1 72 273

B ¡Â ¡D, ¡A ¡Â ¡D ¡

1.04 33 158

D ¡Â ¡A ¡Â ¡B, ¡C ¡Â ¡B, ¡A ¡Â ¡C ¡

TRAINING ¡

Instances ¡are ¡ associated ¡with ¡ preferences ¡ between ¡labels ¡

... ¡no ¡demand ¡for ¡full ¡rankings! ¡

24

slide-25
SLIDE 25

LABEL ¡RANKING: ¡PREDICTION ¡ ¡

0.92 1 81 382 ? ? ? ?

PREDICTION ¡

25

new ¡instance ¡ ranking ¡? ¡

A B C D

slide-26
SLIDE 26

LABEL ¡RANKING: ¡PREDICTION ¡ ¡

26

new ¡instance ¡

A ¡ranking ¡of ¡ all ¡labels ¡ 0.92 1 81 382 4 1 3 2

PREDICTION ¡ A B C D

slide-27
SLIDE 27

LABEL ¡RANKING: ¡PREDICTION ¡ ¡

0.92 1 81 382 4 1 3 2

PREDICTION ¡

0.92 1 81 382 2 1 3 4

GROUND ¡TRUTH ¡

A ¡ranking ¡of ¡ all ¡labels ¡

LOSS ¡

27

S PE ARMAN ¡ LOSS ¡ RANK ¡CORRELATION ¡

slide-28
SLIDE 28

LABEL ¡RANKING: ¡PREDICTION ¡ ¡

0.92 1 81 382 4 1 3 2

PREDICTION ¡

0.92 1 81 382 2 1 3 4

GROUND ¡TRUTH ¡

A ¡ranking ¡of ¡ all ¡labels ¡

LOSS ¡

28

KE ND AL L ¡ LOSS ¡ RANK ¡CORRELATION ¡

slide-29
SLIDE 29

LEARNING ¡TECHNIQUES ¡

DIFFERENT ¡APPROACHES: ¡

  • ReducGon ¡to ¡simpler ¡problems ¡(binary ¡classificaGon) ¡

¡

  • Extension ¡of ¡(classificaGon) ¡algorithms ¡

¡

  • ProbabilisGc ¡modeling ¡and ¡staGsGcal ¡inference ¡

29

Transform ¡the ¡problem, ¡so ¡as ¡to ¡make ¡it ¡amenable ¡to ¡standard ¡ ML ¡algorithms. ¡ Generalize ¡standard ¡ML ¡algorithms, ¡so ¡as ¡to ¡make ¡them ¡applicable ¡ to ¡label ¡ranking ¡data. ¡ Make ¡use ¡of ¡sta@s@cal ¡models ¡for ¡rank ¡data ¡and ¡parameter ¡ es@ma@on ¡methods. ¡

slide-30
SLIDE 30

RANKING ¡BY ¡PAIRWISE ¡COMPARISON ¡ ¡

30

T R AI N ¡

DECOM-­‑ ¡ POSITION ¡ BINARY ¡ CLASSIFICATION ¡

slide-31
SLIDE 31

RANKING ¡BY ¡PAIRWISE ¡COMPARISON ¡ ¡

31

slide-32
SLIDE 32

X1 ¡ X2 ¡ X3 ¡ X4 ¡ preferences ¡ class ¡

0.34 ¡ 0 ¡ 10 ¡ 174 ¡ A ¡Â ¡B, ¡B ¡Â ¡C, ¡C ¡Â ¡D ¡

1 ¡

1.45 ¡ 0 ¡ 32 ¡ 277 ¡ B ¡Â ¡C ¡

  • ­‑-­‑-­‑ ¡

1.22 ¡ 1 ¡ 46 ¡ 421 ¡ B ¡Â ¡D, ¡B ¡Â ¡A, ¡C ¡Â ¡D, ¡A ¡Â ¡C ¡

0 ¡

0.74 ¡ 1 ¡ 25 ¡ 165 ¡ C ¡Â ¡A, ¡C ¡Â ¡D, ¡A ¡Â ¡B ¡

1 ¡

0.95 ¡ 1 ¡ 72 ¡ 273 ¡ B ¡Â ¡D, ¡A ¡Â ¡D, ¡ ¡

  • ­‑-­‑-­‑ ¡

1.04 ¡ 0 ¡ 33 ¡ 158 ¡ D ¡Â ¡A, ¡A ¡Â ¡B, ¡C ¡Â ¡B, ¡A ¡Â ¡C ¡ 1 ¡

Training ¡data ¡(for ¡the ¡label ¡pair ¡A ¡and ¡B): ¡

RANKING ¡BY ¡PAIRWISE ¡COMPARISON ¡ ¡

32

slide-33
SLIDE 33

Training ¡data ¡(for ¡the ¡label ¡pair ¡A ¡and ¡B): ¡

X1 ¡ X2 ¡ X3 ¡ X4 ¡ class ¡

0.34 ¡ 0 ¡ 10 ¡ 174 ¡

1 ¡

1.22 ¡ 1 ¡ 46 ¡ 421 ¡

0 ¡

0.74 ¡ 1 ¡ 25 ¡ 165 ¡

1 ¡

1.04 ¡ 0 ¡ 33 ¡ 158 ¡ 1 ¡

RANKING ¡BY ¡PAIRWISE ¡COMPARISON ¡ ¡

33

slide-34
SLIDE 34

At ¡predicGon ¡Gme, ¡a ¡query ¡instance ¡is ¡submiwed ¡to ¡all ¡models, ¡and ¡the ¡ predicGons ¡are ¡combined ¡into ¡a ¡binary ¡preference ¡relaGon: ¡

A ¡ B ¡ C ¡ D ¡ A ¡ 0.3 ¡ 0.8 ¡ 0.4 ¡ B ¡ 0.7 ¡ 0.7 ¡ 0.9 ¡ C ¡ 0.2 ¡ 0.3 ¡ 0.3 ¡ D ¡ 0.6 ¡ 0.1 ¡ 0.7 ¡

How ¡to ¡produce ¡a ¡ranking ¡on ¡the ¡basis ¡of ¡this ¡preference ¡rela@on? ¡

RANKING ¡BY ¡PAIRWISE ¡COMPARISON ¡ ¡

34

slide-35
SLIDE 35

RANKING ¡BY ¡PAIRWISE ¡COMPARISON ¡ ¡

35

T R AI N ¡ T E S T ¡

DECOM-­‑ ¡ POSITION ¡ BINARY ¡ CLASSIFICATION ¡ BINARY ¡ PREDICTION ¡ RANKING ¡

slide-36
SLIDE 36

LOSS ¡DECOMPOSITION ¡

36

Recall ¡our ¡original ¡goal ¡ ¡ ¡ ¡ ¡ and ¡our ¡representaGon: ¡

slide-37
SLIDE 37

A ¡ B ¡ C ¡ D ¡ A ¡ 0.3 ¡ 0.8 ¡ 0.4 ¡ 1.5 ¡ B ¡ 0.7 ¡ 0.7 ¡ 0.9 ¡ 2.3 ¡ C ¡ 0.2 ¡ 0.3 ¡ 0.3 ¡ 0.8 ¡ D ¡ 0.6 ¡ 0.1 ¡ 0.7 ¡ 1.4 ¡ B Â A ¡Â D ¡Â C

MINIMIZING ¡SPEARMAN ¡LOSS ¡

37

slide-38
SLIDE 38

MINIMIZING ¡SPEARMAN ¡LOSS ¡

38

slide-39
SLIDE 39

LIMITATIONS ¡OF ¡RPC ¡

39

slide-40
SLIDE 40

OUTLINE ¡

40

PART ¡ 1 ¡ ¡ Preference ¡ learning ¡ ¡ ¡ PART ¡ 2 ¡ ¡ Label ¡ ranking ¡ ¡ ¡ ¡ PART ¡ 3 ¡ ¡ Preference-­‑based ¡ bandit ¡algorithms ¡ ¡ ¡

slide-41
SLIDE 41

MULTI-­‑ARMED ¡BANDITS ¡

41

„pulling ¡an ¡arm“ ¡ choosing ¡an ¡opGon ¡ par@al ¡informa@on ¡online ¡learning ¡ sequen@al ¡decision ¡process ¡

slide-42
SLIDE 42

MULTI-­‑ARMED ¡BANDITS ¡

42

„pulling ¡an ¡arm“ ¡ puyng ¡an ¡adverGsement ¡

  • n ¡a ¡website ¡

choice ¡of ¡an ¡opGon/strategy ¡ ¡(arm) ¡yields ¡a ¡random ¡reward ¡ par@al ¡informa@on ¡online ¡learning ¡ sequen@al ¡decision ¡process ¡

slide-43
SLIDE 43

MULTI-­‑ARMED ¡BANDITS ¡

43

choice ¡of ¡an ¡opGon/strategy ¡ ¡(arm) ¡yields ¡a ¡random ¡reward ¡ „pulling ¡an ¡arm“ ¡ picking ¡a ¡traffic ¡route ¡ from ¡source ¡to ¡target ¡ par@al ¡informa@on ¡online ¡learning ¡ sequen@al ¡decision ¡process ¡

slide-44
SLIDE 44

MULTI-­‑ARMED ¡BANDITS ¡

44

„pulling ¡an ¡arm“ ¡ choosing ¡an ¡opGon ¡ choice ¡of ¡an ¡opGon/strategy ¡ ¡(arm) ¡yields ¡a ¡random ¡reward ¡ par@al ¡informa@on ¡online ¡learning ¡ sequen@al ¡decision ¡process ¡

slide-45
SLIDE 45

MULTI-­‑ARMED ¡BANDITS ¡

45

Immediate ¡reward: ¡ CumulaGve ¡reward: ¡ 2.5 2.5

slide-46
SLIDE 46

MULTI-­‑ARMED ¡BANDITS ¡

46

Immediate ¡reward: ¡ CumulaGve ¡reward: ¡ 2.5 3.1 2.5 5.6

slide-47
SLIDE 47

MULTI-­‑ARMED ¡BANDITS ¡

47

Immediate ¡reward: ¡ CumulaGve ¡reward: ¡ 2.5 3.1 1.7 2.5 5.6 7.3

slide-48
SLIDE 48

MULTI-­‑ARMED ¡BANDITS ¡

48

Immediate ¡reward: ¡ CumulaGve ¡reward: ¡ 2.5 3.1 1.7 3.7 ... 2.5 5.6 7.3 11.0 ... maximize ¡cumulaGve ¡reward ¡à ¡explore ¡and ¡exploit ¡(tradeoff) ¡ find ¡best ¡opGon ¡à ¡pure ¡explora@on ¡(effort ¡vs. ¡certainty) ¡

slide-49
SLIDE 49

PREFERENCE-­‑BASED ¡BANDITS ¡

49

In ¡many ¡applicaGons, ¡ ¡

  • the ¡assignment ¡of ¡(numeric) ¡rewards ¡to ¡single ¡outcomes ¡(and ¡hence ¡

the ¡assessment ¡of ¡individual ¡opGons ¡on ¡an ¡absolute ¡scale) ¡is ¡difficult, ¡ ¡

  • while ¡the ¡qualitaFve ¡comparison ¡between ¡pairs ¡of ¡outcomes ¡(arms/
  • pGons) ¡is ¡more ¡feasible. ¡ ¡
slide-50
SLIDE 50

PREFERENCE-­‑BASED ¡BANDITS ¡

50

RETRIEVAL ¡ FUNCTION ¡ ¡ 1 ¡ The ¡result ¡returned ¡by ¡the ¡third ¡retrieval ¡ func@on, ¡for ¡a ¡given ¡query, ¡is ¡preferred ¡to ¡the ¡ result ¡returned ¡by ¡the ¡first ¡search ¡engine. ¡ RETRIEVAL ¡ FUNCTION ¡ ¡ 2 ¡ RETRIEVAL ¡ FUNCTION ¡ ¡ 3 ¡ RETRIEVAL ¡ FUNCTION ¡ ¡ 4 ¡ RETRIEVAL ¡ FUNCTION ¡ ¡ 5 ¡ Noisy ¡preferences ¡can ¡ be ¡inferred ¡from ¡how ¡ a ¡user ¡clicks ¡through ¡ an ¡interleaved ¡list ¡of ¡ documents ¡[Radlinski ¡ et ¡al., ¡2008]. ¡

slide-51
SLIDE 51

PREFERENCE-­‑BASED ¡BANDITS ¡

51

PLAYER ¡ 1 ¡ PLAYER ¡ 2 ¡ PLAYER ¡ 3 ¡ PLAYER ¡ 4 ¡ PLAYER ¡ 5 ¡

Third ¡player ¡has ¡beaten ¡first ¡player ¡in ¡a ¡match. ¡

slide-52
SLIDE 52

PREFERENCE-­‑BASED ¡BANDITS ¡

52

PLAYER ¡ 1 ¡ PLAYER ¡ 2 ¡ PLAYER ¡ 3 ¡ PLAYER ¡ 4 ¡ PLAYER ¡ 5 ¡

  • This ¡seSng ¡has ¡first ¡been ¡introduced ¡as ¡the ¡dueling ¡bandits ¡problem ¡(Yue ¡and ¡

Joachims, ¡2009). ¡

  • More ¡generally, ¡we ¡speak ¡of ¡preference-­‑based ¡mul:-­‑armed ¡bandits ¡(PB-­‑MAB). ¡
slide-53
SLIDE 53

FORMAL ¡SETTING ¡

53

slide-54
SLIDE 54

THE ¡PREFERENCE ¡RELATION ¡

54

slide-55
SLIDE 55

PROPERTIES ¡OF ¡PREFERENCE ¡RELATION ¡

55

GROUND ¡ TRUTH ¡ ... ¡the ¡preference ¡rela@on ¡ is ¡derived ¡from, ¡or ¡at ¡ least ¡strongly ¡restricted ¡ by ¡the ¡target! ¡ COHERENCE ¡ ranking ¡ best ¡arm ¡ top-­‑k ¡subset ¡

slide-56
SLIDE 56

OVERVIEW ¡OF ¡METHODS ¡

56

preference-­‑based ¡ (stochasGc) ¡MAB ¡ consistent ¡ preferences ¡ axiomaGcs ¡ interleaved ¡filter ¡ possibly ¡ inonsistent ¡ preferences ¡ uGlity ¡funcGons ¡ staGsGcal ¡models ¡ beat-­‑the-­‑mean ¡ RUCB ¡ gradient ¡descent ¡ reducGon ¡ Mallows ¡ voGng ¡bandits ¡ preference-­‑based ¡ racing ¡ PAC ¡rank ¡ elicitaGon ¡ [Busa-­‑Fekete ¡and ¡E.H., ¡ALT ¡2014] ¡

slide-57
SLIDE 57

PROPERTIES ¡OF ¡PREFERENCE ¡RELATION ¡

57

Sta@s@cal ¡approach ¡

slide-58
SLIDE 58

PAIRWISE ¡SAMPLING ¡

58 1 1 1 1 1 1 1 1 1 1 1 1

uncertainty ¡about ¡pairwise ¡ preferences ¡ uncertainty ¡ about ¡ranking ¡ translates ¡ into ¡

slide-59
SLIDE 59

PREFERENCE-­‑BASED ¡RANK ¡ELICITATION ¡

59

slide-60
SLIDE 60

PREFERENCE-­‑BASED ¡RANK ¡ELICITATION ¡

60

slide-61
SLIDE 61

EMPIRICAL ¡VALIDATION ¡

61

Bayern ¡München ¡ Werder ¡Bremen ¡ Schalke ¡04 ¡ Hannover ¡96 ¡ Dortmund ¡ Leverkusen ¡ VFB ¡Stuwgart ¡ § In ¡general, ¡the ¡approach ¡performs ¡ quite ¡well ¡compared ¡to ¡baselines. ¡ § However, ¡it ¡may ¡fail ¡if ¡the ¡ underlying ¡data ¡is ¡not ¡enough ¡ „Mallowsian“ ¡... ¡

slide-62
SLIDE 62

SUMMARY ¡

§ Preference-­‑based ¡online ¡learning ¡with ¡mulG-­‑armed ¡bandits ¡(PB-­‑MAB): ¡

  • emerging ¡research ¡topic, ¡
  • no ¡complete ¡and ¡coherent ¡framework ¡so ¡far, ¡
  • many ¡open ¡quesFons ¡and ¡problems ¡(e.g., ¡necessary ¡condiGons ¡for ¡bounds ¡
  • n ¡regret ¡or ¡sample ¡complexity, ¡lower ¡bounds, ¡verifying ¡model ¡

assumpGons, ¡generalizaGons ¡to ¡large ¡(structured) ¡set ¡of ¡arms, ¡contextual ¡ bandits, ¡adversarial ¡seyng, ¡etc., ¡...) ¡

62

§ Growing ¡interest ¡in ¡preferences ¡in ¡AI ¡and ¡preference ¡learning ¡ § Focus ¡so ¡far ¡on ¡rank-­‑based ¡preference ¡models ¡(„learning-­‑to-­‑rank“) ¡ § Online ¡preference ¡learning ¡not ¡yet ¡strongly ¡developed ¡ ¡

slide-63
SLIDE 63

SELECTED ¡REFERENCES ¡

  • J. ¡Fürnkranz ¡and ¡E. ¡H. ¡(eds.). ¡Preference ¡Learning, ¡Springer, ¡2011. ¡

General ¡introduc@on ¡to ¡preference ¡learning ¡

  • E. ¡Hüllermeier, ¡J. ¡Fürnkranz, ¡W. ¡Cheng, ¡K. ¡Brinker. ¡Label ¡ranking ¡by ¡learning ¡pairwise ¡
  • preferences. ¡ArGf. ¡Intell., ¡172, ¡2008. ¡

The ¡LPC ¡approach ¡presented ¡in ¡this ¡talk. ¡

  • R. ¡Busa-­‑Fekete, ¡B. ¡Szorenyi, ¡E. ¡H. ¡Preference-­‑Based ¡Rank ¡ElicitaFon ¡using ¡StaFsFcal ¡

Models: ¡The ¡Case ¡of ¡Mallows. ¡Proc. ¡ICML-­‑2014, ¡Int. ¡Conf. ¡Machine ¡Learning, ¡2014. ¡ PB-­‑MAB ¡method ¡briefly ¡sketched ¡in ¡this ¡talk. ¡ ¡

  • R. ¡Busa-­‑Fekete ¡and ¡E. ¡H. ¡A ¡Survey ¡of ¡Preference-­‑based ¡Online ¡Learning ¡with ¡Bandit ¡
  • Algorithms. ¡Proc. ¡ALT-­‑2014, ¡Int. ¡Conf. ¡Algorithmic ¡Learning ¡Theory, ¡Bled, ¡2014. ¡

Survey ¡paper ¡on ¡preference-­‑based ¡bandits. ¡

63

slide-64
SLIDE 64

SELECTED ¡LITERATURE ¡(PB-­‑MAB) ¡

  • N. ¡Ailon, ¡K. ¡Hatano, ¡and ¡E. ¡Takimoto. ¡Bandit ¡online ¡opGmizaGon ¡over ¡the ¡permutahedron. ¡CoRR, ¡abs/1312.1530, ¡2014. ¡
  • N. ¡Ailon, ¡Z. ¡Karnin, ¡and ¡T. ¡Joachims. ¡Reducing ¡dueling ¡bandits ¡to ¡cardinal ¡bandits. ¡ICML ¡2014. ¡
  • P. ¡Auer, ¡N. ¡Cesa-­‑Bianchi, ¡and ¡P. ¡Fischer. ¡Finite-­‑Gme ¡analysis ¡of ¡the ¡mulGarmed ¡bandit ¡problem. ¡Machine ¡Learning, ¡

47:235-­‑256, ¡2002. ¡

  • R. ¡Busa-­‑Fekete ¡and ¡E. ¡Hüllermeier. ¡A ¡Survey ¡of ¡Preference-­‑based ¡Online ¡Learning ¡with ¡Bandit ¡Algorithms. ¡Proc. ¡

ALT-­‑2014, ¡Int. ¡Conf. ¡Algorithmic ¡Learning ¡Theory, ¡Bled, ¡2014. ¡

  • R. ¡Busa-­‑Fekete, ¡E. ¡Hüllermeier, ¡and ¡B. ¡Szorenyi. ¡Preference-­‑based ¡rank ¡elicitaFon ¡using ¡staFsFcal ¡models: ¡The ¡case ¡of ¡
  • Mallows. ¡ICML ¡2014. ¡
  • R. ¡Busa-­‑Fekete, ¡B. ¡Szorenyi, ¡and ¡E. ¡Hüllermeier. ¡PAC ¡rank ¡elicitaGon ¡through ¡adapGve ¡sampling ¡of ¡stochasGc ¡pairwise ¡
  • preferences. ¡AAAI ¡2014. ¡
  • R. ¡Busa-­‑Fekete, ¡B. ¡Szorenyi, ¡P. ¡Weng, ¡W. ¡Cheng, ¡and ¡E. ¡Hüllermeier. ¡Top-­‑k ¡selecGon ¡based ¡on ¡adapGve ¡sampling ¡of ¡noisy ¡
  • preferences. ¡ICML ¡2013. ¡
  • W.W. ¡Cohen, ¡R.E. ¡Schapire ¡and ¡Y. ¡Singer. ¡Learning ¡to ¡order ¡things. ¡J. ¡of ¡ArGf. ¡Intelligence ¡Res., ¡10:243–270, ¡1999. ¡
  • J. ¡Duchi, ¡L. ¡Mackey, ¡and ¡M. ¡Jordan. ¡On ¡the ¡consistency ¡of ¡ranking ¡algorithms. ¡ICML ¡2010. ¡
  • J. ¡Fürnkranz ¡and ¡E. ¡Hüllermeier, ¡editors. ¡Preference ¡Learning. ¡Springer-­‑Verlag, ¡2011. ¡
  • E. ¡Hüllermeier, ¡J. ¡Fürnkranz, ¡W. ¡Cheng, ¡K. ¡Brinker. ¡Label ¡ranking ¡by ¡learning ¡pairwise ¡preferences. ¡ArGf. ¡Intell., ¡172, ¡2008. ¡
  • F. ¡Radlinski, ¡M. ¡Kurup, ¡and ¡T. ¡Joachims. ¡How ¡does ¡clickthrough ¡data ¡reflect ¡retrieval ¡quality? ¡CIKM ¡2008. ¡
  • T. ¡Urvoy, ¡F. ¡Clerot, ¡R. ¡Feraud, ¡and ¡S. ¡Naamane. ¡Generic ¡exploraGon ¡and ¡k-­‑armed ¡voGng ¡bandits. ¡ICML ¡2013. ¡
  • Y. ¡Yue, ¡J. ¡Broder, ¡R. ¡Kleinberg, ¡and ¡T. ¡Joachims. ¡The ¡K-­‑armed ¡dueling ¡bandits ¡problem. ¡Journal ¡of ¡Computer ¡and ¡System ¡

Sciences, ¡78(5):1538-­‑1556, ¡2012. ¡

  • Y. ¡Yue ¡and ¡T. ¡Joachims. ¡InteracGvely ¡opGmizing ¡informaGon ¡retrieval ¡systems ¡as ¡a ¡dueling ¡bandits ¡problem. ¡ICML ¡2009. ¡
  • Y. ¡Yue ¡and ¡T. ¡Joachims. ¡Beat ¡the ¡mean ¡bandit. ¡ICML ¡2011. ¡
  • M. ¡Zoghi, ¡S. ¡Whiteson, ¡R. ¡Munos, ¡and ¡M. ¡de ¡Rijke. ¡RelaGve ¡upper ¡confidence ¡bound ¡for ¡the ¡k-­‑armed ¡dueling ¡bandit ¡
  • problem. ¡ICML ¡2014. ¡ ¡

64

slide-65
SLIDE 65

SELECTED ¡LITERATURE ¡(PL) ¡

  • E. ¡Hüllermeier, ¡J. ¡Fürnkranz, ¡W. ¡Cheng ¡and ¡K. ¡Brinker. ¡Label ¡ranking ¡by ¡learning ¡pairwise ¡preferences. ¡ArGficial ¡Intelligence, ¡

172, ¡2008. ¡

  • W. ¡Cheng, ¡J. ¡Hühn ¡and ¡E. ¡Hüllermeier. ¡Decision ¡tree ¡and ¡instance-­‑based ¡learning ¡for ¡label ¡ranking, ¡ICML-­‑09, ¡Montreal, ¡2009. ¡ ¡
  • W. ¡Cheng, ¡K. ¡Dembczynski ¡and ¡E. ¡Hüllermeier. ¡Label ¡ranking ¡using ¡the ¡Plackew-­‑Luce ¡model. ¡ICML-­‑10, ¡Haifa, ¡Israel, ¡2010. ¡
  • W. ¡Cheng, ¡W. ¡Waegeman, ¡V. ¡Welker ¡and ¡E. ¡Hüllermeier. ¡Label ¡ranking ¡with ¡parGal ¡abstenGon ¡based ¡on ¡thresholded ¡

probabilisGc ¡models. ¡NIPS ¡2012. ¡

  • J. ¡Fürnkranz, ¡E. ¡Hüllermeier, ¡W. ¡Cheng, ¡S.H. ¡Park. ¡Preference-­‑Based ¡Reinforcement ¡Learning: ¡A ¡Formal ¡Framework ¡and ¡a ¡Policy ¡

IteraGon ¡Algorithm. ¡Machine ¡Learning, ¡89, ¡2012. ¡

  • E. ¡Hüllermeier ¡and ¡J. ¡Fürnkranz. ¡On ¡predicGve ¡accuracy ¡and ¡risk ¡minimizaGon ¡in ¡pairwise ¡label ¡ranking. ¡J. ¡Computer ¡and ¡

System ¡Sciences ¡, ¡76, ¡2010. ¡

  • E. ¡Hüllermeier ¡ ¡and ¡P. ¡Schlegel. ¡Preference-­‑based ¡CBR: ¡First ¡steps ¡toward ¡a ¡methodological ¡framework. ¡ICCBR-­‑11, ¡London, ¡
  • 2011. ¡
  • R. ¡Akrour, ¡M. ¡Schoenauer, ¡M. ¡Sebag. ¡Preference-­‑Based ¡Policy ¡Learning, ¡ECML ¡2011. ¡
  • W.W. ¡Cohen, ¡R.E. ¡Schapire ¡and ¡Y. ¡Singer. ¡Learning ¡to ¡order ¡things. ¡Journal ¡of ¡ArGficial ¡Intelligence ¡Research, ¡10:243–270, ¡
  • 1999. ¡
  • O. ¡Dekel, ¡C.D. ¡Manning, ¡Y. ¡Singer. ¡Log-­‑Linear ¡Models ¡for ¡Label ¡Ranking. ¡NIPS-­‑2003. ¡ ¡
  • D. ¡Goldberg, ¡D. ¡Nichols, ¡B.M. ¡Oki ¡and ¡D. ¡Terry. ¡Using ¡collaboraGve ¡filtering ¡to ¡weave ¡and ¡informaGon ¡tapestry. ¡

CommunicaGons ¡of ¡the ¡ACM, ¡35(12):61–70, ¡1992. ¡

  • S. ¡Har-­‑Peled, ¡D. ¡Roth ¡and ¡D. ¡Zimak. ¡Constraint ¡classifica@on: ¡A ¡new ¡approach ¡to ¡mul@class ¡classifica@on. ¡Proc. ¡ALT-­‑2002. ¡
  • ¡D.R. ¡Hunter. ¡MM ¡algorithms ¡for ¡generalized ¡Bradley-­‑Terry ¡models. ¡The ¡Annals ¡of ¡StaGsGcs ¡, ¡32(1):384–406, ¡2004. ¡
  • S. ¡Vembu ¡and ¡T. ¡Gärtner. ¡Label ¡ranking: ¡a ¡survey. ¡In: ¡Preference ¡Learning. ¡J. ¡Fürnkranz ¡and ¡E. ¡Hüllermeier ¡(eds.), ¡Springer-­‑

Verlag, ¡2011. ¡ 65