measuring and using speech production information
play

Measuring and Using Speech Production Information ... : Some New - PowerPoint PPT Presentation

Measuring and Using Speech Production Information ... : Some New Opportunities Shrikanth (Shri) Narayanan SAIL: Signal Analysis and Interpretation Laboratory http://sail.usc.edu Prof. Ken Stevens, 1924-2013 To whom we


  1. Measuring and Using Speech Production Information ... : Some New Opportunities Shrikanth (Shri) Narayanan SAIL: Signal Analysis and Interpretation Laboratory http://sail.usc.edu Prof. ¡Ken ¡Stevens, ¡1924-­‑2013 To ¡whom ¡we ¡owe ¡a ¡lot... SPASR, ¡Aug ¡2013 Friday, August 30, 13 2

  2. Speech Production and Articulation kNowledge Group http://sail.usc.edu/span Multimodal Phonetic Data Acquisition Diverse Corpora RT-MRI 3d MRI Audio EMA • Multilingual Ling. Material • MOCHA-TIMIT • Audio Books • North Wind • Spontaneous Speech Multimodal Analysis & Modeling New Insights Into • direct image analysis APPLICATIONS TECHNOLOGY • dynamics of production • forced alignment • 3d vocal tract shaping • articulator tracking • articulatory coordination • acoustic feature extraction • source-filter interaction • cross-modal registration • encoding of emotive • airway segmentation factors • morphological characterization • realization of prosody • task-dynamic modeling • speaker-specific • dynamic 3d vocaltract modeling phonetics • HM Modelling of articulatory states Friday, August 30, 13 3

  3. ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES” 4 Friday, August 30, 13 4

  4. ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES” Gestural ¡hypothesis : Act ¡of ¡speaking ¡can ¡be ¡decomposed ¡into ¡atomic ¡units ¡of ¡acCon, ¡or ¡ gestures . Gestures ¡are ¡dynamically-­‑controlled ¡constricCon ¡acCons ¡of ¡ ¡disCnct ¡vocal ¡tract ¡ organs. ¡(e.g., ¡lips, ¡tongue ¡Cp, ¡tongue ¡body, ¡velum, ¡gloHs) C. ¡Browman ¡and ¡L. ¡Goldstein, ¡“Dynamics ¡and ¡ar9culatory ¡phonology,” ¡Mind ¡as ¡mo9on: ¡Explora9ons ¡in ¡the ¡dynamics ¡of ¡cogni9on, ¡1995. 4 Friday, August 30, 13 4

  5. ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES” 4 Friday, August 30, 13 4

  6. ARTICULATORY ¡PHONOLOGY-­‑BASED ¡“GESTURES” Gestural ¡scores ¡( Browman ¡and ¡Goldstein, ¡1992, ¡1995 ) ¡represent ¡latent ¡ ac9va9on ¡intervals ¡for ¡dynamical ¡systems ¡controlling ¡constric9ons. ¡ 4 Friday, August 30, 13 4

  7. Theore&cal ¡themes • composi'onality ¡in ¡'me : ¡ • diphthong ¡produc.on • nasal ¡coordina.on • prosody ¡of ¡read/spontaneous ¡speech • geminate ¡ ¡vs. ¡singleton ¡consonants • composi'onality ¡in ¡space : • ‘complex ¡consonant’ ¡ ¡produc.on: ¡liquids, ¡coronals, ¡frica.ves • characteriza.on ¡of ¡retroflexion • structure ¡and ¡realiza.on ¡of ¡consonant ¡clusters • composi'onality ¡in ¡cogni'on : • speech ¡errors • human ¡beatboxing • velic ¡coordina.on 5 Friday, August 30, 13 5

  8. USC ¡SPAN ¡CoreTeam Alums 6 Friday, August 30, 13 6

  9. Talk ¡Premise ¡& ¡Layout Understanding ¡the ¡system ¡that ¡produces ¡speech ¡is ¡essen&al ¡to ¡ • improving ¡the ¡performance ¡of ¡speech ¡technology ¡systems – ScienCfic ¡studies: ¡Empirical ¡analyses, ¡Direct ¡system ¡(forward) ¡modeling – Technology ¡studies: ¡Feature ¡engineering, ¡Inverse ¡modeling, ¡ApplicaCons ¡to ¡ ASR, ¡Speaker ¡Modeling, ¡Synthesis, ¡Clinical ¡problems ✓ Measuring ¡speech ¡produc9on – MulCmodal ¡approaches: ¡EMA, ¡Ultrasound, ¡MRI,.. ✓ Extrac9ng ¡features ¡(representa9ons) – Direct ¡& ¡EsCmated ¡(inversion) ✓ Modeling ¡speech ¡produc9on – TheoreCcally ¡inspired ¡& ¡Data-­‑driven ✓ Applica9ons – ASR, ¡Speaker ¡modeling 7 Friday, August 30, 13 7

  10. Speech ¡Produc&on ¡Studies: ¡ Data ¡Is ¡Integral • Observe, ¡measure, ¡visualize ¡ar.culatory ¡details ¡during ¡speech • Long ¡history ¡of ¡instrumenta9on ¡and ¡imaging ¡applica9ons • Number ¡of ¡techniques, ¡each ¡with ¡its ¡own ¡strengths ¡and ¡limita9ons ¡ – SpaCal ¡and ¡temporal ¡resoluCon – Subject ¡safety ¡ ¡ – Flexibility, ¡ease ¡of ¡use, ¡portability – Data ¡interpretability – Specific ¡research ¡and ¡applicaCon ¡needs 8 Friday, August 30, 13 8

  11. Classic ¡Speech ¡Produc&on ¡Data X-­‑ray ¡(Stevens, ¡1962) Ultrasound ¡(Stone, ¡1980) http://www.speech.umaryland.edu http://psyc.queensu.ca/~munhallk/05_database.htm Electropalatography (courtesy: ¡UCLA ¡PhoneCcs ¡Lab) Friday, August 30, 13 9

  12. Classic ¡Speech ¡Produc&on ¡Data X-­‑ray ¡(Stevens, ¡1962) Ultrasound ¡(Stone, ¡1980) http://www.speech.umaryland.edu http://psyc.queensu.ca/~munhallk/05_database.htm Electropalatography (courtesy: ¡UCLA ¡PhoneCcs ¡Lab) Friday, August 30, 13 9

  13. Classic ¡Speech ¡Produc&on ¡Data X-­‑ray ¡(Stevens, ¡1962) Ultrasound ¡(Stone, ¡1980) http://www.speech.umaryland.edu http://psyc.queensu.ca/~munhallk/05_database.htm Electropalatography (courtesy: ¡UCLA ¡PhoneCcs ¡Lab) Friday, August 30, 13 9

  14. ELECTROMAGNETIC ¡ARTICULOGRAPHY ¡(EMA) Wrench ¡(2000) A. ¡Wrench, ¡A ¡mul.channel ¡ar.culatory ¡database ¡and ¡its ¡applica.on ¡for ¡automa.c ¡speech ¡recogni.on Proceedings ¡5th ¡Seminar ¡of ¡Speech ¡Produc.on, ¡2000 10 Friday, August 30, 13 10

  15. ELECTROMAGNETIC ¡ARTICULOGRAPHY ¡(EMA ¡CORPUS, ¡USC ¡2007 ) 11 Friday, August 30, 13 11

  16. ELECTROMAGNETIC ¡ARTICULOGRAPHY ¡(EMA ¡CORPUS, ¡USC ¡2007 ) 11 Friday, August 30, 13 11

  17. REAL-­‑TIME ¡MRI ¡(rt-­‑MRI) VELUM LIPS Offers ¡full ¡midsaggital ¡view ¡of ¡all ¡supragloUal ¡vocal ¡tract ¡ar9culators ¡ (cf. ¡to ¡x-­‑ray ¡microbeam, ¡EMA, ¡ultrasound.) ¡ S. ¡Narayanan, ¡K. ¡Nayak, ¡S. ¡Lee, ¡A. ¡Sethy, ¡and ¡D. ¡Byrd, ¡“An ¡approach ¡to ¡real-­‑.me ¡magne.c ¡resonance ¡imaging ¡for ¡ speech ¡produc.on,” ¡JASA, ¡vol. ¡115, ¡p. ¡1771, ¡2004. ¡ 12 Friday, August 30, 13 12

  18. REAL-­‑TIME ¡MRI ¡(rt-­‑MRI) VELUM LIPS Offers ¡full ¡midsaggital ¡view ¡of ¡all ¡supragloUal ¡vocal ¡tract ¡ar9culators ¡ (cf. ¡to ¡x-­‑ray ¡microbeam, ¡EMA, ¡ultrasound.) ¡ S. ¡Narayanan, ¡K. ¡Nayak, ¡S. ¡Lee, ¡A. ¡Sethy, ¡and ¡D. ¡Byrd, ¡“An ¡approach ¡to ¡real-­‑.me ¡magne.c ¡resonance ¡imaging ¡for ¡ speech ¡produc.on,” ¡JASA, ¡vol. ¡115, ¡p. ¡1771, ¡2004. ¡ 12 Friday, August 30, 13 12

  19. REAL-­‑TIME ¡MRI ¡(rt-­‑MRI) VELUM LIPS Offers ¡full ¡midsaggital ¡view ¡of ¡all ¡supragloUal ¡vocal ¡tract ¡ar9culators ¡ (cf. ¡to ¡x-­‑ray ¡microbeam, ¡EMA, ¡ultrasound.) ¡ S. ¡Narayanan, ¡K. ¡Nayak, ¡S. ¡Lee, ¡A. ¡Sethy, ¡and ¡D. ¡Byrd, ¡“An ¡approach ¡to ¡real-­‑.me ¡magne.c ¡resonance ¡imaging ¡for ¡ speech ¡produc.on,” ¡JASA, ¡vol. ¡115, ¡p. ¡1771, ¡2004. ¡ 12 Friday, August 30, 13 12

  20. HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡ 13 Friday, August 30, 13 13

  21. HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡ EMA ¡ (Wrench ¡2000) ¡ ¡ (rt) ¡Magne&c ¡Resonance ¡ Ultrasound Imaging, ¡MRI ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡ (Stone ¡1980; ¡Whalen ¡2005) (Westbury ¡1994) (Narayanan ¡2004) 13 Friday, August 30, 13 13

  22. HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡ EMA ¡ (Wrench ¡2000) ¡ ¡ (rt) ¡Magne&c ¡Resonance ¡ Ultrasound Imaging, ¡MRI ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡ (Stone ¡1980; ¡Whalen ¡2005) (Westbury ¡1994) (Narayanan ¡2004) Full ¡mid-­‑sagi]al ¡(or ¡any ¡ Tongue ¡(par&al, ¡ Fleshpoints sec&on) ¡view; ¡3D surface ¡view) ¡ 13 Friday, August 30, 13 13

  23. HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡ EMA ¡ (Wrench ¡2000) ¡ ¡ (rt) ¡Magne&c ¡Resonance ¡ Ultrasound Imaging, ¡MRI ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡ (Stone ¡1980; ¡Whalen ¡2005) (Westbury ¡1994) (Narayanan ¡2004) Full ¡mid-­‑sagi]al ¡(or ¡any ¡ Tongue ¡(par&al, ¡ Fleshpoints sec&on) ¡view; ¡3D surface ¡view) ¡ Invasive Minimally ¡invasive Non-­‑invasive Cumbersome Portable, ¡Easy Cumbersome 13 Friday, August 30, 13 13

  24. HOW ¡DO ¡DIFFERENT ¡TECHNIQUES ¡COMPARE? ¡ EMA ¡ (Wrench ¡2000) ¡ ¡ (rt) ¡Magne&c ¡Resonance ¡ Ultrasound Imaging, ¡MRI ¡ X-­‑Ray ¡Microbeam, ¡XRMB ¡ (Stone ¡1980; ¡Whalen ¡2005) (Westbury ¡1994) (Narayanan ¡2004) Full ¡mid-­‑sagi]al ¡(or ¡any ¡ Tongue ¡(par&al, ¡ Fleshpoints sec&on) ¡view; ¡3D surface ¡view) ¡ Invasive Minimally ¡invasive Non-­‑invasive Cumbersome Portable, ¡Easy Cumbersome ~100-­‑500 ¡Hz ~20-­‑30 ¡Hz ~50-­‑300 ¡Hz 13 Friday, August 30, 13 13

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend