speech audio coding
play

Speech & Audio Coding TSBK01 Image Coding and Data Compression - PowerPoint PPT Presentation

Speech & Audio Coding TSBK01 Image Coding and Data Compression Lecture 11, 2003 Jrgen Ahlberg Outline Part I - Speech Speech History of speech synthesis & coding Speech coding methods Part II Audio


  1. Speech & Audio Coding TSBK01 Image Coding and Data Compression Lecture 11, 2003 Jörgen Ahlberg

  2. Outline • Part I - Speech – Speech – History of speech synthesis & coding – Speech coding methods • Part II – Audio – Psychoacoustic models – MPEG-4 Audio

  3. Speech Production • The human’s vocal apparatus consists of: – lungs – trachea (wind pipe) – larynx • contains 2 folds of skin called vocal cords which blow apart and flap together as air is forced through – oral tract – nasal tract

  4. The Speech Signal �

  5. The Speech Signal

  6. The Speech Signal ������������������������������ � ������������������������������������� � ������������������������������������������������������ � ������������������������������������������������� � �������������������������������� � �������������������������������������������� � ������

  7. The Speech Signal ������ � ���������������� ������������������������������������������ � ���������������������������������������������������������������������������� ������������������������� ������������������������������������������ ������������������������������������������������������������������� ����������������������������������������������� ����������� �����������������

  8. History of Speech Coding � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ��������������������������� ������ ��������� �� ������������ �������������� ������ ������� ����������������

  9. History of Speech Coding � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ���������������� ���� ��������������������������� ������������������������������ ������

  10. ����������������������������������� ����������

  11. ������������������� ������ � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ���������������� ���� ������������������������� ��������������������� ������ � ������ ������������������������������������������������������ � ������ µ ����������������������������������������������������������� ���������������� � ������ ��������������� � ������ ��������������������������������������������������������������� �������������������������������������

  12. Source-filter Model of Speech Production � ����������������������������������������������������������������������������������� ����������������������������������� � ������������������� Y ����� 1 ����������������������������������������������� ����������� � ���������������������������������������������������������������������������� ����������������������������� � ���������������������������������������������������������������� ����������������� ������������������������������������������������

  13. Speech Coding Strategies 1. PCM • Invented 1926, deployed 1962. • The speech signal is sampled at 8 kHz. • Uniform quantization requires >10 bits/sample. • Non-uniform quantization (G.711, 1972) • Quantizing y to 8 bits -> 64 kbit/s.

  14. Speech Coding Strategies 2. Adaptive DPCM • Example: G.726 (1974) • Adaptive predictor based on six previous differences. • Gain-adaptive quantizer with 15 levels � 32 kbit/s.

  15. Speech Coding Strategies 3. Model-based Speech Coding • Advanced speech coders are based on models of how speech is produced: Excitation Vocal source tract

  16. An Excitation Source Noise generator Pitch Pulse generator

  17. Vocal Tract Filter 1: A Fixed Filter Bank g 1 BP g 2 BP g n BP

  18. Vocal Tract Filter 2: A Controllable Filter

  19. Linear Predictive Coding (LPC) • The controllable filter is modelled as y n = ∑ a i y n-i + G ε n where ε n is the input signal and y n is the output. • We need to estimate the vocal tract parameters (a i and G) and the exciatation parameters (pitch, v/uv). • Typically the source signal is divided in short segments and the parameters are estimated for each segment. • Example: The speech signal is sampled at 8 kHz and divided in segments of 180 samples (22.5 ms/segment).

  20. Typical Scheme of an LPC Coder Noise generator Vocal tract filter Pulse generator Pitch v/uv Gain Filter coeffs

  21. Estimating the Parameters • v/uv estimation – Based on energy and frequency spectrum. • Pitch-period estimation – Look for periodicity, either via the a.c.f our some other measure, for example that gives you a minimum value when p equals the pitch period. – Typical pitch-periods: 20 - 160 samples.

  22. Estimating the Parameters • Vocal tract filter estimation – Find the filter coefficients that minimize the error ε 2 = ( y n - ∑ a i y n-i + G ε n ) 2 – Compare to the computation of optimal predictors (Lecture 7).

  23. Estimating the Parameters • Assuming a stationary signal: where R and p contain acf values. • This is called the autocorrelation method .

  24. Estimating the Parameters • Alternatively, in case of a non-stationary signal: where • This is called the autocovariance method .

  25. Example • Coding of parameters using LPC10 (1984): v/uv 1 bit Pitch 6 bits Voiced filter 46 bits Unvoiced filter 46 bits Synchronization 1 bit 54 bits � 2.4 kbit/s Sum:

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend