Características de tiempo-frecuencia para la estimación de la posición de los órganos articuladores en consonantes explosivas

Alexander Sepulveda-Sepulveda; German Castellanos-Domínguez

doi:10.17230/ingciencia.8.16.2

Alexander Sepulveda-Sepulveda

Universidad Nacional de Colombia

https://orcid.org/0000-0002-9643-5193
German Castellanos-Domínguez

Universidad Nacional de Colombia, sede Manizales

Keywords

inversión articulatoria, modelos de mezclas Gaussianas, fonética articulatoria, características de tiempo-frecuencia.

Resumen

La inversión articulatoria ofrece nuevas perspectivas y aplicaciones interesantes en el campo de la voz; sin embargo, es aún un problema por resolver. El presente trabajo ofrece un método para la estimación de la distribución de la información articulatoria contenida en la acústica de consonantes explosivas, cuya parametrización se realiza mediante la transformada wavelet packet. El trabajo se centra principalmente en estimar la información acústica relevante, en términos de asociación estadística, para la inferencia de la posición de los órganos articuladores críticos involucrados en la producción de consonantes explosivas. Se usa el coeﬁciente de Kendall a modo de medida de relevancia. Los mapas de relevancia de tiempo-frecuencia se calculan para la base de datos MOCHA–TIMIT; de la cual, las zonas correspondientes a las consonantes explosivas son analizados. El método propuesto entrega un conjunto de componentes de tiempo-frecuencia intimamente relacionados al fenómeno articulatorio, lo cual ofrece un entendimiento más profundo de la relación existente entre los fenómenos articulatorio y acústico. Los mapas de relevancia se prueban en un sistema de inversión articulatoria basado en modelos de mezclas gausianas, donde se muestra que mejoran el desempeño de los mencionados sistemas aplicados sobre consonantes explosivas. El método se puede extender a otras categorías articulatorias, p.e. fricativas, con el ﬁn de adaptar el presente método a sistemas de inversión articulatoria sobre voz continua

PACS: 87.85Ng

MSC: 68T10

Descargas

Los datos de descargas todavía no están disponibles.

Abstract 901 | PDF (English) Downloads 500 HTML (English) Downloads 1273

Referencias

[1] P. Badin, Y. Tarabalka, F. Elisei, G. Bailly, “Can you ’read’ tongue movements? Evaluation of the contribution of tongue display to speech understanding”, Speech Communication, vol. 52, n.o 6, pp. 493-503, jun. 2010. Referenced in 37

[2] J. Schroeter, M. Sondhi, “Speech coding based on physiological models of speech production,” in Advances in Speech Signal Processing, S. Furui and M. M. Sondhi, Eds. NewYork: Marcel Dekker Inc, 1992, ch. 8. Referenced in 37

[3] S. King, J. Frankel, K. Livescu, E. McDermott, K. Richmond, M.Wester, “Speech production knowledge in automatic speech recognition”, The Journal of the Acoustical Society of America, vol. 121, n.o 2, pp. 723-742, 2007. Referenced in 37

[4] P. Jackson, V. Singampalli, “Statistical identification of articulation constraints in the production of speech”, Speech Communication, vol. 51, n.o 8, pp. 695-710, ago. 2009. Referenciado en 37, 45

[5] H. H. Yang, S. V. Vuuren, S. Sharma, H. Hermansky, “Relevance of time-frequency features for phonetic and speaker-channel classification”, Speech Communication, vol. 31, n.o 1, pp. 35-50, may 2000. Referenced in 37

[6] Mark Hasegawa-Johnson. Time-frequency distribution of partial phonetic information measured using mutual information. Beijing, 2000. [Online] Available: http://www.isle.illinois.edu/sst/pubs/2000/hasegawa-johnson00interspeech.pdf, In InterSpeech, pp. 133-136. Referenced in 37

[7] J. Schroeter, M. Sondhi, “Techniques for estimating vocal-tract shapes from the speech signal”, IEEE Trans. on Speech and Audio Processing, vol. 2, pp. 133-150, 1994. Referenced in 37

[8] V. Sorokin, A. Leonov, A. Trushkin, “Estimation of stability and accuracy of inverse problem solution for the vocal tract”, Speech Communication, vol. 30, n.o 1, pp. 55-74, 2000. Referenced in 37

[9] G. Papcun, et. al., “Inferring articulation and recognizing gestures from acoustics with a neural network trained on x-ray microbeam data”, J. Acoust. Soc. Am., vol. 92 n.o 2, pp. 688-700, 1992. Referenced in 37

[10] Gh. Choueiter, J. Glass, “An Implementation of Rational Wavelets and Filter Design for Phonetic Classi cation”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15 n.o 3, pp. 939-948, 2007. Referenced in 38

[11] J. Silva, Shrikanth Narayanan, “Discriminative Wavelet Packet Filter Bank Selection for Pattern Recognition”, IEEE Transactions on Signal Processing, vol. 57, n.o 5, pp. 1796-1810 ,2009. Referenced in 38

[12] P. Addison, The Illustrated Wavelet Transform Handbook, 1st ed. Taylor & Francis, 2002. Referenced in 38

[13] S. Mallat, A Wavelet Tour of Signal Processing, Third Edition: The SparseWay, Academic Press, 1998. Referenced in 38

[14] A. Akansu, P. Haddad, Multiresolution Signal Decomposition, Second Edition: Transforms, Subbands, and Wavelets, 2.a ed. Academic Press, 2000. Referenced in 39

[15] O. Farooq, S. Datta, “Mel filter-like admissible wavelet packet structure for speech recognition”, Signal Processing Letters, IEEE, vol. 8, n.o 7, pp. 196 -198, jul. 2001. Referenced in 39, 40

[16] K. Richmond, S. King, P. Taylor, “Modelling the uncertainty in recovering articulation from acoustics”, Computer Speech & Language, vol. 17, n.o 2-3, pp. 153-172, abr. 2003. Referenced in 40, 44

[17] J. Gibbons, S. Chakraborti, G. Gibbons, Nonparametric Statistical Inference, Marcel Dekker Inc., 2003. Referenced in 42, 43

[18] Alan Wrench. “MOCHA-TIMIT”, The Centre for Speech TechnologyResearch. [Online]. Available: http://www.cstr.ed.ac.uk/research/projects/artic/mocha.html. Referenced in 44

[19] Korin Richmond, Articulatory feature recognition from the acoustic speech signal. PhD. thesis, University of Edinburgh. [Online]. Available: http://www.cstr.ed.ac.uk/publications/users/korin.html. Referenced in 45

[20] Tomoki Toda, Alan Black, Keiichi Tokuda, “Statistical Mapping between Articulatory Movements and Acoustic Spectrum using Gaussian Mixture Models”, Speech Communication, vol. 50 n.o3, pp. 215-227, 2008. Referenced in 48, 51
[21] C. Bishop, Pattern Recognition and Machine Learning, 1st ed. 2006. Corr. 2nd printing. Springer, 2007. Referenced in 48

[22] R. Kent, Charles Read, Acoustic Analysis of Speech, Thomson Learning, 2002. Referenced in 50

PDF (English) HTML (English)

Publicado

nov 30, 2012

DOI https://doi.org/10.17230/ingciencia.8.16.2

Cómo citar

Sepulveda-Sepulveda, A., & Castellanos-Domínguez, G. (2012). Características de tiempo-frecuencia para la estimación de la posición de los órganos articuladores en consonantes explosivas. Ingeniería Y Ciencia, 8(16), 37–56. https://doi.org/10.17230/ingciencia.8.16.2

Número

Vol. 8 Núm. 16 (2012)

Sección

Artículos

Agencias de apoyo

Universidad Nacional de Colombia y COLCIENCIAS

Biografía del autor/a

Alexander Sepulveda-Sepulveda, Universidad Nacional de Colombia

Magíster en Automatización

German Castellanos-Domínguez, Universidad Nacional de Colombia, sede Manizales

PhD en Telecomunicaciones

Los autores que publican en esta revista están de acuerdo con los siguientes términos:

Los autores conservan los derechos de autor y garantizan a la revista el derecho de ser la primera publicación del trabajo al igual que licenciado bajo una Creative Commons Attribution License que permite a otros compartir el trabajo con un reconocimiento de la autoría del trabajo y la publicación inicial en esta revista.
Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en esta revista.
Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados (Véase The Effect of Open Access) (en inglés).

Main Article Content