Mul$modal Interfaces Shiri Azenkot May 29, 2013 LNG 575 - - PowerPoint PPT Presentation

mul modal interfaces
SMART_READER_LITE
LIVE PREVIEW

Mul$modal Interfaces Shiri Azenkot May 29, 2013 LNG 575 - - PowerPoint PPT Presentation

Mul$modal Interfaces Shiri Azenkot May 29, 2013 LNG 575 Mul$modal Interface Papers Ovia%. 2012. Mul$modal Interfaces Feng et al. 2011. Speech and


slide-1
SLIDE 1

Mul$modal ¡Interfaces ¡

Shiri ¡Azenkot ¡ May ¡29, ¡2013 ¡ LNG ¡575 ¡

slide-2
SLIDE 2

Mul$modal ¡Interface ¡Papers ¡

Ovia%. ¡2012. ¡ Mul$modal ¡Interfaces ¡ Feng ¡et ¡al. ¡2011. ¡ Speech ¡and ¡Mul$modal ¡Interac$on ¡in ¡Mobile ¡Search ¡ Ovia%, ¡Gent. ¡1996. ¡ Error ¡Resolu$on ¡During ¡Mul$modal ¡Human-­‑Computer ¡Interac$on ¡ Paek ¡et ¡al. ¡2008. ¡ Search ¡Vox: ¡Leveraging ¡Mul$modal ¡Refinement ¡and ¡ ¡ Par$al ¡Knowledge ¡for ¡Voice ¡Search ¡ Suhm ¡et ¡al. ¡2001. ¡ Mul$modal ¡Error ¡Correc$on ¡for ¡Speech ¡User ¡Interfaces ¡

slide-3
SLIDE 3

Mul$modal ¡Interface ¡Papers ¡

Suhm ¡et ¡al. ¡2001. ¡ Mul$modal ¡Error ¡Correc$on ¡for ¡Speech ¡User ¡Interfaces ¡ Paek ¡et ¡al. ¡2008. ¡ Search ¡Vox: ¡Leveraging ¡Mul$modal ¡Refinement ¡and ¡ ¡ Par$al ¡Knowledge ¡for ¡Voice ¡Search ¡ Feng ¡et ¡al. ¡2011. ¡ Speech ¡and ¡Mul$modal ¡Interac$on ¡in ¡Mobile ¡Search ¡ Ovia%, ¡Gent. ¡1996. ¡ Error ¡Resolu$on ¡During ¡Mul$modal ¡Human-­‑Computer ¡Interac$on ¡ Ovia%. ¡2012. ¡ Mul$modal ¡Interfaces ¡ ¡

slide-4
SLIDE 4

What ¡is ¡a ¡ ¡ mul$modal ¡Interface? ¡

slide-5
SLIDE 5
slide-6
SLIDE 6
slide-7
SLIDE 7

Suhm ¡et ¡al. ¡2001. ¡

Mul$modal ¡Error ¡Correc$on ¡for ¡ Speech ¡User ¡Interfaces ¡

slide-8
SLIDE 8

The ¡Problem ¡

  • Speech ¡recogni$on ¡systems ¡are ¡limited ¡
  • Correc$ng ¡errors ¡is ¡challenging ¡

¡“repair ¡problem” ¡

slide-9
SLIDE 9

Mul$modal ¡Dicta$on ¡System ¡

Dicta$on ¡recognizer ¡+ ¡ ¡ mul$modal ¡error ¡correc$on ¡

slide-10
SLIDE 10
slide-11
SLIDE 11
slide-12
SLIDE 12
slide-13
SLIDE 13

Gesture ¡ ¡ Recogni$on ¡

slide-14
SLIDE 14

Evalua$on ¡

  • Hypotheses: ¡

– Mul$modal ¡correc$on ¡is ¡faster ¡ – Detec$ng ¡poten$al ¡errors ¡automa$cally ¡speeds ¡ up ¡correc$on ¡process ¡ – Users ¡prefer ¡fastest ¡modality ¡

slide-15
SLIDE 15

Evalua$on ¡

  • Tasks: ¡par$cipants ¡read ¡newspapers ¡
  • Factors: ¡

– Correc$on ¡modality ¡

  • Measures: ¡

– Input ¡rate ¡(WPM) ¡ – System ¡response ¡$me ¡ – Recogni$on ¡accuracy ¡ – Correc$on ¡accuracy ¡ – Correc$on ¡speed ¡

slide-16
SLIDE 16

Correc$on ¡accuracy ¡for ¡modality ¡

slide-17
SLIDE 17

Use ¡of ¡different ¡modali$es ¡

slide-18
SLIDE 18

Paek ¡et ¡al. ¡2008. ¡

Search ¡Vox: ¡Leveraging ¡Mul$modal ¡ Refinement ¡and ¡ ¡Par$al ¡Knowledge ¡ for ¡Voice ¡Search ¡

slide-19
SLIDE 19

The ¡Problem ¡

Voice ¡search ¡is ¡common ¡ ¡ Challenges ¡of ¡voice ¡search ¡on ¡mobile ¡devices ¡

  • 1. Noisy ¡environments ¡
  • 2. User ¡compensate ¡in ¡unhelpful ¡ways ¡
slide-20
SLIDE 20
slide-21
SLIDE 21

Text ¡hints ¡

slide-22
SLIDE 22

Using ¡par$al ¡knowledge ¡

slide-23
SLIDE 23

Evalua$on ¡

  • Simula$on ¡using ¡DB ¡of ¡voice ¡search ¡u^erances ¡
  • Experiments ¡with ¡cases ¡where ¡ASR ¡failed ¡
slide-24
SLIDE 24

Recovery ¡Rate ¡with ¡Mul$modal ¡ ¡ Word ¡Pale^e ¡

slide-25
SLIDE 25

Feng ¡et ¡al. ¡2011. ¡

Speech ¡and ¡Mul$modal ¡ Interac$on ¡in ¡Mobile ¡Search ¡

slide-26
SLIDE 26

Challenges ¡for ¡Mul$modal ¡Interfaces ¡ for ¡Voice ¡Search ¡

  • Mul$modal ¡microphone ¡ac$va$on ¡
  • Mul$modal ¡confirma$on ¡and ¡error ¡correc$on ¡
  • Mul$modal ¡input ¡and ¡integra$on ¡
slide-27
SLIDE 27

Speak4It ¡

slide-28
SLIDE 28
slide-29
SLIDE 29

Ovia%, ¡Gent. ¡1996. ¡

Error ¡Resolu$on ¡During ¡Mul$modal ¡ Human-­‑Computer ¡Interac$on ¡

slide-30
SLIDE 30

Ques$on ¡

How ¡do ¡users ¡use ¡different ¡modali$es ¡in ¡ mul$modal ¡error ¡correc$on? ¡

slide-31
SLIDE 31

Ques$on ¡

How ¡do ¡users ¡use ¡different ¡modali$es ¡in ¡ mul$modal ¡error ¡correc$on? ¡ ¡ Hypothesis: ¡ Users ¡will ¡switch ¡modali$es ¡and ¡use ¡different ¡ words ¡making ¡correc$ons. ¡They ¡are ¡more ¡likely ¡ to ¡do ¡this ¡as ¡their ¡a^empts ¡to ¡correct ¡errors ¡fail. ¡

slide-32
SLIDE 32

Study ¡

  • Par$cipants: ¡20 ¡na$ve ¡English ¡speakers ¡
  • Apparatus: ¡car ¡rental, ¡conference ¡registra$on ¡

assistant ¡system. ¡

– pen ¡+ ¡speech ¡input ¡ – Simulated ¡speech ¡rec ¡w/errors ¡ – “Spiral ¡depth”: ¡ ¡1 ¡– ¡6 ¡

  • Procedure: ¡par$cipants ¡completed ¡

transac$ons ¡as ¡accurately ¡as ¡possible. ¡

¡

slide-33
SLIDE 33

Prototype ¡system ¡

System ¡asks: ¡where ¡would ¡you ¡like ¡to ¡pick ¡up ¡your ¡car? ¡ Users ¡speaks: ¡“san ¡francisco” ¡ System ¡displays ¡simulated ¡error: ¡“???” ¡

slide-34
SLIDE 34

Results ¡

  • Modality ¡preference ¡– ¡Speech ¡over ¡wri^en ¡
  • Simultaneous ¡use ¡of ¡modes ¡

Barely ¡– ¡only ¡0.7% ¡of ¡all ¡words ¡

  • Modality ¡alterna$ves ¡

Increased ¡when ¡people ¡corrected ¡errors ¡ Peaked ¡at ¡spiral ¡depth ¡5 ¡(40% ¡probability) ¡

  • Lexical ¡alterna$on ¡

Probability ¡fluctuated ¡

slide-35
SLIDE 35

Probability ¡of ¡ ¡ spiral ¡depth ¡and ¡ ¡lexical ¡altera$on ¡

slide-36
SLIDE 36

Ovia%. ¡2012. ¡

Mul$modal ¡Interfaces ¡

slide-37
SLIDE 37

Goals ¡of ¡mul$modal ¡interfaces ¡

  • Accommodate ¡ ¡

– User ¡skill ¡& ¡preference ¡ – Different ¡situa$ons ¡

  • Increase ¡efficiency ¡
  • Be^er ¡error ¡handling ¡