Measuring and Using Speech Production Information ... : Some New - - PowerPoint PPT Presentation

measuring and using speech production information
SMART_READER_LITE
LIVE PREVIEW

Measuring and Using Speech Production Information ... : Some New - - PowerPoint PPT Presentation

Measuring and Using Speech Production Information ... : Some New Opportunities Shrikanth (Shri) Narayanan SAIL: Signal Analysis and Interpretation Laboratory http://sail.usc.edu Prof. Ken Stevens, 1924-2013 To whom we


slide-1
SLIDE 1

Measuring and Using Speech Production Information

...: Some New Opportunities

Shrikanth (Shri) Narayanan

SAIL: Signal Analysis and Interpretation Laboratory http://sail.usc.edu

  • Prof. ¡Ken ¡Stevens, ¡1924-­‑2013

To ¡whom ¡we ¡owe ¡a ¡lot... SPASR, ¡Aug ¡2013

2 Friday, August 30, 13

slide-2
SLIDE 2

Speech Production and Articulation kNowledge Group

http://sail.usc.edu/span

Diverse Corpora

  • Multilingual
  • Ling. Material
  • MOCHA-TIMIT
  • Audio Books
  • North Wind
  • Spontaneous

Speech

RT-MRI 3d MRI Audio EMA

Multimodal Phonetic Data Acquisition

  • dynamics of production
  • 3d vocal tract shaping
  • articulatory coordination
  • source-filter interaction
  • encoding of emotive

factors

  • realization of prosody
  • speaker-specific

phonetics New Insights Into

  • direct image analysis
  • forced alignment
  • articulator tracking
  • acoustic feature extraction
  • cross-modal registration
  • airway segmentation
  • morphological characterization
  • task-dynamic modeling
  • dynamic 3d vocaltract modeling
  • HM Modelling of articulatory states

Multimodal Analysis & Modeling TECHNOLOGY APPLICATIONS

3 Friday, August 30, 13

slide-3
SLIDE 3

ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES”

4 4 Friday, August 30, 13

slide-4
SLIDE 4

ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES”

4

Gestural ¡hypothesis: Act ¡of ¡speaking ¡can ¡be ¡decomposed ¡into ¡atomic ¡units ¡of ¡acCon, ¡or ¡gestures. Gestures ¡are ¡dynamically-­‑controlled ¡constricCon ¡acCons ¡of ¡ ¡disCnct ¡vocal ¡tract ¡

  • rgans. ¡(e.g., ¡lips, ¡tongue ¡Cp, ¡tongue ¡body, ¡velum, ¡gloHs)
  • C. ¡Browman ¡and ¡L. ¡Goldstein, ¡“Dynamics ¡and ¡ar9culatory ¡phonology,” ¡Mind ¡as ¡mo9on: ¡Explora9ons ¡in ¡the ¡dynamics ¡of ¡cogni9on, ¡1995.

4 Friday, August 30, 13

slide-5
SLIDE 5

ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES”

4 4 Friday, August 30, 13

slide-6
SLIDE 6

ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES”

Gestural ¡scores ¡(Browman ¡and ¡Goldstein, ¡1992, ¡1995) ¡represent ¡latent ¡ ac9va9on ¡intervals ¡for ¡dynamical ¡systems ¡controlling ¡constric9ons. ¡

4 4 Friday, August 30, 13

slide-7
SLIDE 7

Theore&cal ¡themes

  • composi'onality ¡in ¡'me: ¡
  • diphthong ¡produc.on
  • nasal ¡coordina.on
  • prosody ¡of ¡read/spontaneous ¡speech
  • geminate ¡ ¡vs. ¡singleton ¡consonants
  • composi'onality ¡in ¡space:
  • ‘complex ¡consonant’ ¡ ¡produc.on: ¡liquids, ¡coronals, ¡frica.ves
  • characteriza.on ¡of ¡retroflexion
  • structure ¡and ¡realiza.on ¡of ¡consonant ¡clusters
  • composi'onality ¡in ¡cogni'on:
  • speech ¡errors
  • human ¡beatboxing
  • velic ¡coordina.on

5 5 Friday, August 30, 13

slide-8
SLIDE 8

USC ¡SPAN ¡CoreTeam

6

Alums

6 Friday, August 30, 13

slide-9
SLIDE 9

Talk ¡Premise ¡& ¡Layout

  • Understanding ¡the ¡system ¡that ¡produces ¡speech ¡is ¡essen&al ¡to ¡

improving ¡the ¡performance ¡of ¡speech ¡technology ¡systems

– ScienCfic ¡studies: ¡Empirical ¡analyses, ¡Direct ¡system ¡(forward) ¡modeling – Technology ¡studies: ¡Feature ¡engineering, ¡Inverse ¡modeling, ¡ApplicaCons ¡to ¡ ASR, ¡Speaker ¡Modeling, ¡Synthesis, ¡Clinical ¡problems

✓ Measuring ¡speech ¡produc9on

– MulCmodal ¡approaches: ¡EMA, ¡Ultrasound, ¡MRI,..

✓ Extrac9ng ¡features ¡(representa9ons)

– Direct ¡& ¡EsCmated ¡(inversion)

✓ Modeling ¡speech ¡produc9on

– TheoreCcally ¡inspired ¡& ¡Data-­‑driven

✓ Applica9ons

– ASR, ¡Speaker ¡modeling

7 7 Friday, August 30, 13

slide-10
SLIDE 10
  • Observe, ¡measure, ¡visualize ¡ar.culatory ¡details ¡during ¡speech
  • Long ¡history ¡of ¡instrumenta9on ¡and ¡imaging ¡applica9ons
  • Number ¡of ¡techniques, ¡each ¡with ¡its ¡own ¡strengths ¡and ¡limita9ons ¡

– SpaCal ¡and ¡temporal ¡resoluCon – Subject ¡safety ¡ ¡ – Flexibility, ¡ease ¡of ¡use, ¡portability – Data ¡interpretability – Specific ¡research ¡and ¡applicaCon ¡needs

8

Speech ¡Produc&on ¡Studies: ¡ Data ¡Is ¡Integral

8 Friday, August 30, 13

slide-11
SLIDE 11

Classic ¡Speech ¡Produc&on ¡Data

X-­‑ray ¡(Stevens, ¡1962)

http://psyc.queensu.ca/~munhallk/05_database.htm

Electropalatography

(courtesy: ¡UCLA ¡PhoneCcs ¡Lab)

Ultrasound ¡(Stone, ¡1980)

http://www.speech.umaryland.edu

9 Friday, August 30, 13

slide-12
SLIDE 12

Classic ¡Speech ¡Produc&on ¡Data

X-­‑ray ¡(Stevens, ¡1962)

http://psyc.queensu.ca/~munhallk/05_database.htm

Electropalatography

(courtesy: ¡UCLA ¡PhoneCcs ¡Lab)

Ultrasound ¡(Stone, ¡1980)

http://www.speech.umaryland.edu

9 Friday, August 30, 13

slide-13
SLIDE 13

Classic ¡Speech ¡Produc&on ¡Data

X-­‑ray ¡(Stevens, ¡1962)

http://psyc.queensu.ca/~munhallk/05_database.htm

Electropalatography

(courtesy: ¡UCLA ¡PhoneCcs ¡Lab)

Ultrasound ¡(Stone, ¡1980)

http://www.speech.umaryland.edu

9 Friday, August 30, 13

slide-14
SLIDE 14

ELECTROMAGNETIC ¡ARTICULOGRAPHY ¡(EMA)

10

Wrench ¡(2000)

  • A. ¡Wrench, ¡A ¡mul.channel ¡ar.culatory ¡database ¡and ¡its ¡applica.on ¡for ¡automa.c ¡speech ¡recogni.on

Proceedings ¡5th ¡Seminar ¡of ¡Speech ¡Produc.on, ¡2000

10 Friday, August 30, 13

slide-15
SLIDE 15

ELECTROMAGNETIC ¡ARTICULOGRAPHY ¡(EMA ¡CORPUS, ¡USC ¡2007)

11 11 Friday, August 30, 13

slide-16
SLIDE 16

ELECTROMAGNETIC ¡ARTICULOGRAPHY ¡(EMA ¡CORPUS, ¡USC ¡2007)

11 11 Friday, August 30, 13

slide-17
SLIDE 17

REAL-­‑TIME ¡MRI ¡(rt-­‑MRI)

Offers ¡full ¡midsaggital ¡view ¡of ¡all ¡supragloUal ¡vocal ¡tract ¡ar9culators ¡

(cf. ¡to ¡x-­‑ray ¡microbeam, ¡EMA, ¡ultrasound.) ¡ VELUM LIPS

12

  • S. ¡Narayanan, ¡K. ¡Nayak, ¡S. ¡Lee, ¡A. ¡Sethy, ¡and ¡D. ¡Byrd, ¡“An ¡approach ¡to ¡real-­‑.me ¡magne.c ¡resonance ¡imaging ¡for ¡

speech ¡produc.on,” ¡JASA, ¡vol. ¡115, ¡p. ¡1771, ¡2004. ¡

12 Friday, August 30, 13

slide-18
SLIDE 18

REAL-­‑TIME ¡MRI ¡(rt-­‑MRI)

Offers ¡full ¡midsaggital ¡view ¡of ¡all ¡supragloUal ¡vocal ¡tract ¡ar9culators ¡

(cf. ¡to ¡x-­‑ray ¡microbeam, ¡EMA, ¡ultrasound.) ¡ VELUM LIPS

12

  • S. ¡Narayanan, ¡K. ¡Nayak, ¡S. ¡Lee, ¡A. ¡Sethy, ¡and ¡D. ¡Byrd, ¡“An ¡approach ¡to ¡real-­‑.me ¡magne.c ¡resonance ¡imaging ¡for ¡

speech ¡produc.on,” ¡JASA, ¡vol. ¡115, ¡p. ¡1771, ¡2004. ¡

12 Friday, August 30, 13

slide-19
SLIDE 19

REAL-­‑TIME ¡MRI ¡(rt-­‑MRI)

Offers ¡full ¡midsaggital ¡view ¡of ¡all ¡supragloUal ¡vocal ¡tract ¡ar9culators ¡

(cf. ¡to ¡x-­‑ray ¡microbeam, ¡EMA, ¡ultrasound.) ¡ VELUM LIPS

12

  • S. ¡Narayanan, ¡K. ¡Nayak, ¡S. ¡Lee, ¡A. ¡Sethy, ¡and ¡D. ¡Byrd, ¡“An ¡approach ¡to ¡real-­‑.me ¡magne.c ¡resonance ¡imaging ¡for ¡

speech ¡produc.on,” ¡JASA, ¡vol. ¡115, ¡p. ¡1771, ¡2004. ¡

12 Friday, August 30, 13

slide-20
SLIDE 20

HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡

13 13 Friday, August 30, 13

slide-21
SLIDE 21

HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡

13

Ultrasound

(Stone ¡1980; ¡Whalen ¡2005)

EMA ¡(Wrench ¡2000) ¡ ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡

(Westbury ¡1994)

(rt) ¡Magne&c ¡Resonance ¡ Imaging, ¡MRI ¡

(Narayanan ¡2004)

13 Friday, August 30, 13

slide-22
SLIDE 22

HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡

13

Ultrasound

(Stone ¡1980; ¡Whalen ¡2005)

EMA ¡(Wrench ¡2000) ¡ ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡

(Westbury ¡1994)

(rt) ¡Magne&c ¡Resonance ¡ Imaging, ¡MRI ¡

(Narayanan ¡2004)

Tongue ¡(par&al, ¡ surface ¡view) ¡ Fleshpoints Full ¡mid-­‑sagi]al ¡(or ¡any ¡ sec&on) ¡view; ¡3D

13 Friday, August 30, 13

slide-23
SLIDE 23

HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡

13

Ultrasound

(Stone ¡1980; ¡Whalen ¡2005)

EMA ¡(Wrench ¡2000) ¡ ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡

(Westbury ¡1994)

(rt) ¡Magne&c ¡Resonance ¡ Imaging, ¡MRI ¡

(Narayanan ¡2004)

Tongue ¡(par&al, ¡ surface ¡view) ¡ Fleshpoints Full ¡mid-­‑sagi]al ¡(or ¡any ¡ sec&on) ¡view; ¡3D Minimally ¡invasive Portable, ¡Easy Invasive Cumbersome Non-­‑invasive Cumbersome

13 Friday, August 30, 13

slide-24
SLIDE 24

HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡

13

Ultrasound

(Stone ¡1980; ¡Whalen ¡2005)

EMA ¡(Wrench ¡2000) ¡ ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡

(Westbury ¡1994)

(rt) ¡Magne&c ¡Resonance ¡ Imaging, ¡MRI ¡

(Narayanan ¡2004)

Tongue ¡(par&al, ¡ surface ¡view) ¡ Fleshpoints Full ¡mid-­‑sagi]al ¡(or ¡any ¡ sec&on) ¡view; ¡3D Minimally ¡invasive Portable, ¡Easy Invasive Cumbersome Non-­‑invasive Cumbersome ~50-­‑300 ¡Hz ~100-­‑500 ¡Hz ~20-­‑30 ¡Hz

13 Friday, August 30, 13

slide-25
SLIDE 25

SOME ¡DATA ¡SUITABLE ¡FOR ¡“TECHNOLOGY” ¡STUDIES

XRMB ¡(Univ. ¡of ¡Wisconsin) ¡[1] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡www.uni-­‑jena.de/~x1siad/uwxrmbdb.html

  • 32 ¡F, ¡25 ¡M; ¡118 ¡different ¡tasks ¡incl. ¡read ¡sentences, ¡paragraphs ¡ ¡

17

[1] ¡J. ¡Westbury. ¡X-­‑RAY ¡MICROBEAM ¡SPEECH ¡PRODUCTION ¡DATABASE ¡USER'S ¡HANDBOOK, ¡1994. [2] ¡A.A. ¡Wrench. ¡A ¡new ¡resource ¡for ¡produc9on ¡modelling ¡in ¡speech ¡technology. ¡In ¡Proc. ¡Inst. ¡of ¡Acoust. ¡(WISP), ¡Strahord-­‑upon-­‑Avon, ¡UK, ¡ volume ¡23 ¡(3), ¡pages ¡207-­‑217, ¡2001. [3] ¡Jorge ¡Silva, ¡Vivek ¡Rangarajan, ¡Viktor ¡Rozgic ¡and ¡Shrikanth ¡S. ¡Narayanan, ¡Informa9on ¡theore9c ¡analysis ¡of ¡direct ¡ar9culatory ¡measurements ¡ for ¡phone9c ¡discrimina9on, ¡in: ¡Proceedings ¡ICASSP, ¡pages ¡457-­‑460, ¡2007

EMA ¡Database@MURI ¡ ¡(Univ. ¡of ¡Southern ¡California)[3] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hbp://sail.usc.edu/data.php

  • One ¡male ¡American; ¡Spontaneous ¡conversaCons ¡of ¡14 ¡sessions ¡(each ¡~5min)
  • Pre-­‑processing ¡of ¡six ¡arCculatory ¡trajectories ¡(200Hz)

MOCHA-­‑TIMIT ¡(Univ. ¡of ¡Edinburgh)[2] ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hbp://www.cstr.ed.ac.uk/research/projects/arCc/mocha.html

  • One ¡male ¡and ¡one ¡female ¡subject, ¡each ¡reading ¡460 ¡TIMIT ¡uberances
  • Pre-­‑processing ¡of ¡seven ¡arCculatory ¡trajectories ¡(500Hz)

14 Friday, August 30, 13

slide-26
SLIDE 26

The ¡mngu0 ¡database

  • EMA, ¡MRI, ¡Dental ¡Casts ¡Audio ¡

(from ¡Edinburgh, ¡LMU, ¡ Saarland) – EMA: ¡Ar9culators: ¡Upper ¡ and ¡lower ¡lips, ¡jaw, ¡and ¡ three ¡tongue ¡points; ¡1,300 ¡ uUerances – MRI: ¡3D ¡volume ¡13 ¡vowels, ¡ 16 ¡consonants ¡& ¡MidsagiUal ¡ “dynamic” ¡scans ¡CVCs, ¡ (C=16,V=3)

15

http://www.mngu0.org

15 Friday, August 30, 13

slide-27
SLIDE 27

USC-­‑TIMIT: ¡A ¡MULTIMODAL ¡ARTICULATORY ¡ DATA ¡CORPUS ¡FOR ¡SPEECH ¡RESEARCH

  • 10 ¡American ¡English ¡talkers ¡(5M, ¡5F).
  • Real ¡Cme ¡MRI ¡(5 ¡speakers ¡also ¡with ¡EMA) ¡

and ¡synchronized ¡audio.

  • 460 ¡sentences ¡each ¡(>20 ¡minutes)
  • Freely ¡available ¡for ¡speech ¡research.

Narayanan et al. (2011). A Multimodal Real-Time MRI Articulatory Corpus for Speech Research. InterSpeech.

WEB-LINK (with download info): http://sail.usc.edu/span/usc-timit/

SAIL homepage: http://sail.usc.edu 16 Friday, August 30, 13

slide-28
SLIDE 28

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-29
SLIDE 29

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-30
SLIDE 30

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-31
SLIDE 31

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-32
SLIDE 32

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-33
SLIDE 33

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-34
SLIDE 34

Some ¡USC-­‑TIMIT ¡examples

17

M1 M2 F1 F2

17 Friday, August 30, 13

slide-35
SLIDE 35

Dynamic ¡3D ¡visualiza&on

18

Coronal ¡ movie Aligned Unaligned

Yinghua ¡Zhu, ¡Yoon-­‑Chul ¡Kim, ¡Michael ¡Proctor, ¡Shrikanth ¡Narayanan, ¡Krishna ¡S. ¡Nayak. ¡Dynamic ¡3D ¡Visualiza.on ¡of ¡ Vocal ¡Tract ¡Shaping ¡during ¡Speech. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡32(5): ¡838 ¡-­‑ ¡848, ¡May ¡2013.

18 Friday, August 30, 13

slide-36
SLIDE 36

Dynamic ¡3D ¡visualiza&on

18

Coronal ¡ movie Aligned Unaligned

Yinghua ¡Zhu, ¡Yoon-­‑Chul ¡Kim, ¡Michael ¡Proctor, ¡Shrikanth ¡Narayanan, ¡Krishna ¡S. ¡Nayak. ¡Dynamic ¡3D ¡Visualiza.on ¡of ¡ Vocal ¡Tract ¡Shaping ¡during ¡Speech. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡32(5): ¡838 ¡-­‑ ¡848, ¡May ¡2013.

18 Friday, August 30, 13

slide-37
SLIDE 37

Dynamic ¡3D ¡visualiza&on

18

Coronal ¡ movie Aligned Unaligned

Yinghua ¡Zhu, ¡Yoon-­‑Chul ¡Kim, ¡Michael ¡Proctor, ¡Shrikanth ¡Narayanan, ¡Krishna ¡S. ¡Nayak. ¡Dynamic ¡3D ¡Visualiza.on ¡of ¡ Vocal ¡Tract ¡Shaping ¡during ¡Speech. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡32(5): ¡838 ¡-­‑ ¡848, ¡May ¡2013.

18 Friday, August 30, 13

slide-38
SLIDE 38

Dynamic ¡3D ¡visualiza&on

18

Coronal ¡ movie Aligned Unaligned

Yinghua ¡Zhu, ¡Yoon-­‑Chul ¡Kim, ¡Michael ¡Proctor, ¡Shrikanth ¡Narayanan, ¡Krishna ¡S. ¡Nayak. ¡Dynamic ¡3D ¡Visualiza.on ¡of ¡ Vocal ¡Tract ¡Shaping ¡during ¡Speech. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡32(5): ¡838 ¡-­‑ ¡848, ¡May ¡2013.

18 Friday, August 30, 13

slide-39
SLIDE 39

Dynamic ¡3D ¡visualiza&on

18

Coronal ¡ movie Aligned Unaligned

Yinghua ¡Zhu, ¡Yoon-­‑Chul ¡Kim, ¡Michael ¡Proctor, ¡Shrikanth ¡Narayanan, ¡Krishna ¡S. ¡Nayak. ¡Dynamic ¡3D ¡Visualiza.on ¡of ¡ Vocal ¡Tract ¡Shaping ¡during ¡Speech. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡32(5): ¡838 ¡-­‑ ¡848, ¡May ¡2013.

18 Friday, August 30, 13

slide-40
SLIDE 40

constric&on ¡tasks postural ¡variables

Contains: ¡ Morphological ¡and ¡kinema.cal ¡descrip.ons, ¡ dynamical ¡systems ¡parameters, ¡control ¡signals Useful ¡for: ¡ ¡ Valida.on, ¡development, ¡comparison

TADA-­‑TIMIT: ¡A ¡SIMULATED ¡ ARTICULATORY ¡CORPUS

  • H. ¡Nam, ¡L. ¡Goldstein, ¡E. ¡Saltzman, ¡and ¡D. ¡Byrd. ¡TADA: ¡An ¡enhanced, ¡portable ¡task ¡dynamics ¡model ¡in ¡Matlab. ¡

Journal ¡of ¡the ¡Acous.cal ¡Society ¡of ¡America, ¡115(5):2430–2430, ¡2004.

19 Friday, August 30, 13

slide-41
SLIDE 41

What ¡can ¡we ¡do ¡with ¡all ¡these ¡data?

20 20 Friday, August 30, 13

slide-42
SLIDE 42

Seek ¡confirmatory/deeper/newer ¡insights ¡into ¡ well ¡known ¡quesOons ¡in ¡linguisOcs, ¡speech ¡science ¡ with ¡tradiOonal ¡methods

21 21 Friday, August 30, 13

slide-43
SLIDE 43

Segmental ¡speech ¡characterisLcs

Tongue shaping of English sibilant fricatives /s/ and /sh/ in various vowel contexts

“Go pasop ok. Go pashop ok.” There are more stimuli in corpus: “paseep”, “peesop”, “peeseep” etc.

Sagibal Coronal

Tongue Groove

22 22 Friday, August 30, 13

slide-44
SLIDE 44

Segmental ¡speech ¡characterisLcs

Tongue shaping of English sibilant fricatives /s/ and /sh/ in various vowel contexts

“Go pasop ok. Go pashop ok.” There are more stimuli in corpus: “paseep”, “peesop”, “peeseep” etc.

Sagibal Coronal

Tongue Groove

22 22 Friday, August 30, 13

slide-45
SLIDE 45

Segmental ¡speech ¡characterisLcs

Tongue shaping of English sibilant fricatives /s/ and /sh/ in various vowel contexts

“Go pasop ok. Go pashop ok.” There are more stimuli in corpus: “paseep”, “peesop”, “peeseep” etc.

Sagibal Coronal

Tongue Groove

22 22 Friday, August 30, 13

slide-46
SLIDE 46

Research ¡studies ¡– ¡quasi-­‑staLc

Tongue surface for /sh/ is more parallel to the palate than for /s/.

Tongue ¡shaping ¡of ¡English ¡sibilant ¡fricaLves ¡/s/ ¡and ¡/sh/ ¡in ¡various ¡vowel ¡contexts

Some findings:

/s/ has a deeper tongue groove than /sh/.

Erik ¡Bresch, ¡Daylen ¡Riggs, ¡Louis ¡Goldstein, ¡Dani ¡Byrd, ¡Sungbok ¡Lee, ¡Shrikanth ¡Narayanan. ¡ An ¡analysis ¡of ¡vocal ¡tract ¡shaping ¡in ¡ English ¡sibilant ¡frica.ves ¡using ¡real-­‑.me ¡magne.c ¡resonance ¡imaging. ¡Proceedings ¡of ¡ ¡Interspeech ¡2008. ¡

23 23 Friday, August 30, 13

slide-47
SLIDE 47

Dynamic ¡characteris&cs

coordina&on ¡between ¡adjacent ¡segments ¡and ¡linguis&c ¡structure..?

Velum-oral coordination of English nasals

“I can type bone-know five times.”

  • Systematic timing differences between tongue

and velum constriction forming events?

  • Direct observation of tongue and velum tract

variables TTCD, VEL

  • Nasal position
  • Onset: /bow-know/, /toe-node/
  • Coda: /bone-oh/, /tone-ode/
  • Juncture geminate: /bone-know/, /tone-node/

24

❖ Data processing

  • Segment stimuli from carrier
  • Trace vocal tract
  • Measure VEL, TTCD constriction degree time series

❖ Define timing criteria

  • Time lag, e.g., w.r.t. 95% threshold

❖ Evaluate statistical significance of lag measures

24 Friday, August 30, 13

slide-48
SLIDE 48

Dynamic ¡characteris&cs

coordina&on ¡between ¡adjacent ¡segments ¡and ¡linguis&c ¡structure..?

Velum-oral coordination of English nasals

“I can type bone-know five times.”

  • Systematic timing differences between tongue

and velum constriction forming events?

  • Direct observation of tongue and velum tract

variables TTCD, VEL

  • Nasal position
  • Onset: /bow-know/, /toe-node/
  • Coda: /bone-oh/, /tone-ode/
  • Juncture geminate: /bone-know/, /tone-node/

24

❖ Data processing

  • Segment stimuli from carrier
  • Trace vocal tract
  • Measure VEL, TTCD constriction degree time series

❖ Define timing criteria

  • Time lag, e.g., w.r.t. 95% threshold

❖ Evaluate statistical significance of lag measures

24 Friday, August 30, 13

slide-49
SLIDE 49

Results

The ¡velum ¡opening ¡lags ¡behind ¡tongue ¡Cp ¡closure ¡if ¡the ¡nasal ¡is ¡in ¡onset ¡posiCon. ¡ Intergestural ¡Cming ¡paberns ¡sensiCve ¡to ¡local ¡stress ¡context ¡==> ¡ Underlying ¡Cming ¡specificaCon ¡that ¡can ¡yield ¡flexibly

25

Velum-­‑oral ¡coordina&on ¡of ¡English ¡nasals

  • D. ¡Byrd, ¡S. ¡Tobin, ¡E. ¡Bresch, ¡and ¡S. ¡Narayanan. ¡Timing ¡effects ¡of ¡syllable ¡structure ¡and ¡stress ¡on ¡nasals: ¡a ¡real-­‑.me ¡

MRI ¡examina.on. ¡J. ¡Phone.cs. ¡37: ¡97–110, ¡2009. ¡

25 Friday, August 30, 13

slide-50
SLIDE 50

Allows ¡exploraOon ¡of ¡novel ¡data-­‑driven ¡and ¡hybrid ¡ knowledge-­‑inspired ¡approaches ¡& ¡models

26 26 Friday, August 30, 13

slide-51
SLIDE 51

Rest ¡of ¡the ¡talk

Deriving ¡ar&culatory ¡representa&ons Direct ¡methods ¡ Raw ¡measures ¡ Derived ¡task ¡measures Inverse ¡methods Some ¡case ¡studies ¡ ¡ ¡Vocal ¡tract ¡morphology ¡ ¡ ¡Ar.culatory ¡sejng ¡ ¡ ¡Rela.on ¡between ¡ar.culatory ¡& ¡acous.c ¡representa.ons ¡ ¡ ¡ASR ¡and ¡Speaker ¡Verifica.on ¡ ¡ ¡Back ¡to ¡basics: ¡learning ¡from ¡data

27 27 Friday, August 30, 13

slide-52
SLIDE 52

DIRECT ¡MEASURES ¡FROM ¡DATA

28 Friday, August 30, 13

slide-53
SLIDE 53

ARTICULATORY ¡POSTURE ¡& CONSTRICTION ¡TASK ¡VARIABLES

29

These ¡feature ¡sets ¡are ¡useful ¡for ¡modeling ¡speech ¡producCon ¡dynamics ¡

Adam ¡Lammert, ¡Louis ¡Goldstein, ¡Shrikanth ¡Narayanan ¡and ¡Khalil ¡Iskarous. ¡Sta.s.cal ¡Methods ¡for ¡Es.ma.on ¡of ¡ Direct ¡and ¡Differen.al ¡Kinema.cs ¡of ¡the ¡Vocal ¡Tract. ¡Speech ¡Communica.on. ¡55: ¡147–161, ¡2013. Vikram ¡Ramanarayanan, ¡Adam ¡Lammert, ¡Louis ¡Goldstein ¡and ¡Shrikanth ¡Narayanan. ¡Ar.culatory ¡sejngs ¡facilitate ¡ mechanically ¡advantageous ¡motor ¡control ¡of ¡vocal ¡tract ¡ar.culators. ¡In ¡Proceedings ¡of ¡Interspeech, ¡ ¡2013

29 Friday, August 30, 13

slide-54
SLIDE 54

RAW ¡MEASUREMENT ¡FEATURES

30 30 Friday, August 30, 13

slide-55
SLIDE 55

VOCAL ¡TRACT ¡CONTOURS ¡

31

Erik ¡Bresch ¡and ¡Shrikanth ¡Narayanan. ¡ ¡Region ¡segmenta.on ¡in ¡the ¡frequency ¡domain ¡applied ¡to ¡upper ¡airway ¡real-­‑.me ¡ magne.c ¡resonance ¡images. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡28(3): ¡ ¡323-­‑-­‑338, ¡March ¡2009.

MODEL-­‑BASED ¡IMAGE ¡SEGMENTATION ¡IN ¡THE ¡FOURIER ¡DOMAIN

31 Friday, August 30, 13

slide-56
SLIDE 56

VOCAL ¡TRACT ¡CONTOURS ¡

31

First ¡define ¡a ¡contour ¡model ¡segmentaCon ¡ manually ¡: ¡each ¡arCculator ¡in ¡a ¡different ¡color

Erik ¡Bresch ¡and ¡Shrikanth ¡Narayanan. ¡ ¡Region ¡segmenta.on ¡in ¡the ¡frequency ¡domain ¡applied ¡to ¡upper ¡airway ¡real-­‑.me ¡ magne.c ¡resonance ¡images. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡28(3): ¡ ¡323-­‑-­‑338, ¡March ¡2009.

MODEL-­‑BASED ¡IMAGE ¡SEGMENTATION ¡IN ¡THE ¡FOURIER ¡DOMAIN

31 Friday, August 30, 13

slide-57
SLIDE 57

VOCAL ¡TRACT ¡CONTOURS ¡

31

First ¡define ¡a ¡contour ¡model ¡segmentaCon ¡ manually ¡: ¡each ¡arCculator ¡in ¡a ¡different ¡color Now ¡hierarchically ¡opLmize ¡the ¡model ¡fit ¡to ¡the ¡image ¡ in ¡the ¡Fourier ¡domain ¡using ¡gradient ¡descent!

Erik ¡Bresch ¡and ¡Shrikanth ¡Narayanan. ¡ ¡Region ¡segmenta.on ¡in ¡the ¡frequency ¡domain ¡applied ¡to ¡upper ¡airway ¡real-­‑.me ¡ magne.c ¡resonance ¡images. ¡IEEE ¡Transac.ons ¡on ¡Medical ¡Imaging. ¡28(3): ¡ ¡323-­‑-­‑338, ¡March ¡2009.

MODEL-­‑BASED ¡IMAGE ¡SEGMENTATION ¡IN ¡THE ¡FOURIER ¡DOMAIN

31 Friday, August 30, 13

slide-58
SLIDE 58

PARAMETRIZATION: ¡WHAT ¡HAS ¡BEEN ¡DONE?

32 32 Friday, August 30, 13

slide-59
SLIDE 59

PARAMETRIZATION: ¡WHAT ¡HAS ¡BEEN ¡DONE?

Ohman ¡(1966), ¡ Mermelstein ¡(1973) ¡and ¡ Maeda ¡(1990) ¡proposed ¡ the ¡use ¡of ¡semi-­‑polar ¡ grids ¡superimposed ¡on ¡ the ¡vocal ¡tract ¡

32 32 Friday, August 30, 13

slide-60
SLIDE 60

PARAMETRIZATION: ¡WHAT ¡HAS ¡BEEN ¡DONE?

Ohman ¡(1966), ¡ Mermelstein ¡(1973) ¡and ¡ Maeda ¡(1990) ¡proposed ¡ the ¡use ¡of ¡semi-­‑polar ¡ grids ¡superimposed ¡on ¡ the ¡vocal ¡tract ¡

32

But ¡these ¡require ¡manual ¡ interven9on ¡and ¡are ¡not ¡ comparable ¡across ¡subjects.

32 Friday, August 30, 13

slide-61
SLIDE 61

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33 33 Friday, August 30, 13

slide-62
SLIDE 62

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33 33 Friday, August 30, 13

slide-63
SLIDE 63

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure

33 Friday, August 30, 13

slide-64
SLIDE 64

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure 2. they ¡should ¡sufficiently ¡ characterize ¡vocal ¡tract ¡postures

33 Friday, August 30, 13

slide-65
SLIDE 65

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

Cri2cal ¡arCculator ¡behavior ¡– ¡constrained Dependent ¡and ¡redundant ¡arCculators ¡– ¡NOT ¡ constrained!

P.J.B. ¡Jackson ¡and ¡V.D. ¡Singampalli, ¡"Sta9s9cal ¡iden9fica9on ¡of ¡cri9cal ¡ar9culators ¡in ¡the ¡produc9on ¡of ¡ speech", ¡Speech ¡Comm., ¡51(8): ¡695-­‑710, ¡August ¡2009.

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure 2. they ¡should ¡sufficiently ¡ characterize ¡vocal ¡tract ¡postures

33 Friday, August 30, 13

slide-66
SLIDE 66

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

Idea: ¡In ¡addiCon ¡to ¡constricCon ¡task ¡variables, ¡ incorporate ¡informaCon ¡about ¡vocal ¡tract ¡areas ¡! ¡

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure 2. they ¡should ¡sufficiently ¡ characterize ¡vocal ¡tract ¡postures

33 Friday, August 30, 13

slide-67
SLIDE 67

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure 2. they ¡should ¡sufficiently ¡ characterize ¡vocal ¡tract ¡postures 3. should ¡allow ¡for ¡meaningful ¡ comparison ¡across ¡speakers

33 Friday, August 30, 13

slide-68
SLIDE 68

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure 2. they ¡should ¡sufficiently ¡ characterize ¡vocal ¡tract ¡postures 3. should ¡allow ¡for ¡meaningful ¡ comparison ¡across ¡speakers 4. they ¡should ¡involve ¡as ¡liUle ¡manual ¡ interven9on ¡as ¡possible

33 Friday, August 30, 13

slide-69
SLIDE 69

WHAT ¡ARE ¡DESIRABLE ¡PROPERTIES?

33

Idea: ¡First ¡compute ¡meaningful ¡ cross-­‑distances, ¡then ¡the ¡areas ¡ bounded ¡by ¡them! ¡ ¡

1. robust ¡to ¡rota9on ¡and ¡transla9on, ¡ and ¡inaccuracies ¡introduced ¡by ¡the ¡ contour ¡extrac9on ¡procedure 2. they ¡should ¡sufficiently ¡ characterize ¡vocal ¡tract ¡postures 3. should ¡allow ¡for ¡meaningful ¡ comparison ¡across ¡speakers 4. they ¡should ¡involve ¡as ¡liUle ¡manual ¡ interven9on ¡as ¡possible

33 Friday, August 30, 13