0% encontró este documento útil (0 votos)
42 vistas118 páginas

Reduccion de Ruido en Audios

Reducción de Riudo en Audios

Cargado por

Marvin Morales
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
42 vistas118 páginas

Reduccion de Ruido en Audios

Reducción de Riudo en Audios

Cargado por

Marvin Morales
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 118

UNIVERSIDAD AUTNOMA DE MADRID

ESCUELA POLITCNICA SUPERIOR

PROYECTO FIN DE CARRERA

REDUCCIN DE RUIDO EN
GRABACIONES DE AUDIO

Ingeniera de Telecomunicacin

Guillermo Gonzlez Caravaca


Julio 2011
II
REDUCCIN DE RUIDO EN
GRABACIONES DE AUDIO

AUTOR: Guillermo Gonzlez Caravaca

TUTOR: Doroteo Torre Toledano

Grupo de Reconocimiento Biomtrico - ATVS


Dpto. de Ingeniera Informtica
Escuela Politcnica Superior
Universidad Autnoma de Madrid
JULIO 2011

III
IV
Reduccin de ruido en grabaciones de audio Resumen

Resumen

El contexto de este proyecto es el conjunto de tcnicas orientadas a la reduccin de


ruido en grabaciones de voz, tomadas en entornos embarcados, como es un vehculo en
marcha. El estudio comienza con el anlisis de uno de los filtros de audio ms
utilizados, el filtro de Wiener, desgranando todas sus particularidades. Se probar una
implementacin del mismo y se estudiaran los resultados para comprobar su eficacia,
con objeto de determinar posible mejoras que sern sometidas a prueba.

Su objetivo es lograr una mejora sustancial de las implementaciones del filtro de


Wiener ya existentes, poniendo a prueba la hiptesis que se plantea al inicio; lograr una
versin del filtro de Wiener con dependencia fontica, que consiga mejores resultados
en la reduccin de ruido.

Palabras Clave

Filtro de Wiener, reduccin de ruido, distorsin de voz, clase amplia fontica,


detector de actividad de voz, adaptabilidad.
Reduccin de ruido en grabaciones de audio Abstract

Abstract

The context of this project is a set of techniques aimed at reducing noise in voice
recordings, taken on board environments, such as a moving vehicle. The study begins
with the analysis of one of the most used filters in noise reduction, the Wiener filter,
reeling off all its peculiarities. It will test an implementation of it and study the results
for effectiveness, to determine possible improvements to be tested.

Its aim is to achieve a substantial improvement of the Wiener filter implementations


already exist, testing the hypothesis posed at the beginning, a phone-conditioned Wiener
filter that can get better results in noise reduction.

Key Words

Wiener filter, noise reduction, speech distortion, broad phonetic classes, voice activity
detector, adaptability.

VI
Reduccin de ruido en grabaciones de audio Agradecimientos

Agradecimientos

En primer lugar quiero agradecer a mi tutor, Doroteo Torre, la oportunidad que me


ha brindado de poder realizar este proyecto bajo su consejo. Su paciencia y
determinacin son dignas de elogio.

Asimismo, quisiera agradecer a todos los miembros del ATVS por el buen ambiente
dentro de este y por la ayuda prestada ante cualquier problema que ha podido surgir.

En el plano personal, me gustara comenzar dando las gracias a mis padres, sin
ellos, no sera la persona que soy hoy. A mi hermana por animarme siempre a realizar
nuevos proyectos, y a terminar este, y a mi hermano, por haberme inculcado desde
pequeo la pasin por la ciencia y la tecnologa.

Gracias a Laura por haberme apoyado durante todos estos aos y haber hecho que
los buenos momentos lo fueran an mejor. Este proyecto y lo que ello culmina tambin
te pertenece.

Gracias a Alberto y Pablo por haber hecho de mi estancia en la universidad, una de


las mejores pocas de mi vida. Y en especial a Bruno, porque sin l, los laboratorios no
habran sido lo mismo.

Por ltimo, gracias a mis amigos de toda la vida, que han sabido compartir conmigo
lo mejor de s. Este proyecto tambin va dedicado a vosotros.
VIII
Reduccin de ruido en grabaciones de audio ndice general

ndice general
Agradecimientos ....................................................................................................................... VII
ndice de Figuras ....................................................................................................................... XI
ndice de Tablas...................................................................................................................... XIII
Captulo 1. Introduccin............................................................................................................. 1
1.1. Motivacin del proyecto................................................................................................ 2
1.2. Objetivos ....................................................................................................................... 2
1.3. Estructura de la memoria............................................................................................... 3
Captulo 2. Estado del arte ......................................................................................................... 5
2.1. El Ruido ........................................................................................................................ 6
2.1.1. Ruido Aditivo ........................................................................................................ 7
2.2. Modelo de seal empleado ............................................................................................ 9
2.3. Evaluacin de la reduccin de ruido ........................................................................... 10
2.3.1. Conceptos previos ............................................................................................... 12
2.4. Reduccin de ruido a travs del filtrado ...................................................................... 16
2.4.1. Filtro de Wiener en el dominio temporal ............................................................ 16
2.4.2. Filtro de Wiener subptimo ................................................................................. 23
2.4.3. Filtro de Wiener definido en el dominio de la frecuencia .................................. 26
2.4.4. Filtro de Wiener Paramtrico .............................................................................. 29
2.5. Deteccin de actividad de voz ..................................................................................... 30
2.5.1. Fundamentos de un detector de actividad de voz ................................................ 30
2.5.2. Esquema bsico de funcionamiento .................................................................... 31
2.5.3. Evaluacin de un VAD ....................................................................................... 32
2.5.4. Evolucin hasta la actualidad .............................................................................. 33
Captulo 3. Diseo y Desarrollo ............................................................................................... 35
3.1. Estructura bsica del filtro de Wiener ......................................................................... 37
3.1.1. Estimacin de ruido ............................................................................................. 38
3.2. Posibilidades de mejora del filtro de Wiener .............................................................. 38
3.2.1. Sustitucin del VAD por un reconocedor fontico ............................................. 40
3.2.2. Efectos negativos del filtrado: la distorsin ........................................................ 41
3.3 Estudio de la distorsin a nivel fontico ..................................................................... 43
3.3.1. El Alfabeto Fontico Internacional ..................................................................... 44
3.3.2. Agrupacin de los fonemas en clases amplias fonticas ..................................... 46
3.3.3. Correspondencia IPA-SAMPA ........................................................................... 48

IX
Reduccin de ruido en grabaciones de audio ndice general

3.4. Aplicacin del condicionamiento fontico .................................................................. 49


3.4.1. Clculo de AFD a nivel de clase amplia fontica................................................ 49
3.5. Entorno Experimental ................................................................................................. 51
3.5.1. Implementacin del filtro de Wiener utilizada .................................................... 51
3.5.2. Base de datos sonora utilizada............................................................................. 53
3.5.3. Reconocedor de voz empleado como VAD ........................................................ 59
Captulo 4. Pruebas y Resultados ............................................................................................ 61
4.1. Pruebas Iniciales.......................................................................................................... 62
4.1.1. Evaluacin de la SNR ......................................................................................... 62
4.1.2. Evaluacin con HTK ........................................................................................... 64
4.2. Sustitucin del VAD ................................................................................................... 66
4.2.1. Evaluacin de la SNR ......................................................................................... 67
4.2.2. Evaluacin con HTK ........................................................................................... 68
4.3. Filtro de Wiener ETSI standard v1.1.3........................................................................ 69
4.3.1. Evaluacin con HTK ........................................................................................... 71
4.4. Sustitucin del VAD por un reconocedor ................................................................... 72
4.4.1. Evaluacin de la SNR ......................................................................................... 72
4.4.2. Evaluacin con HTK ........................................................................................... 74
4.5. Filtro de Wiener subptimo con dependencia fontica ............................................... 75
4.5.1. Aplicacin del condicionamiento fontico .......................................................... 75
4.5.2. Evaluacin con HTK ........................................................................................... 77
4.6. Discusin de resultados ............................................................................................... 78
Captulo 5. Conclusiones y trabajo futuro .............................................................................. 81
5.1. Conclusiones ............................................................................................................... 82
5.2. Trabajo futuro.............................................................................................................. 82
Bibliografa ................................................................................................................................ 85
Anexo A Lema ........................................................................................................................... 87
Anexo B Presupuesto ................................................................................................................ 91
Anexo C Publicaciones .............................................................................................................. 93
Anexo D Pliego de condiciones ................................................................................................. 99

X
Reduccin de ruido en grabaciones de audio ndice de figuras

ndice de Figuras
Figura 1. Ejemplo de grafica de resultados de SNR. La recta diagonal representa los
puntos en los que la es igual a la . ....................................... 13
Figura 2. Representacin de los parmetros de evaluacin de un VAD sobre una
muestra de audio de ejemplo.......................................................................... 32
Figura 3. Esquema bsico del sistema de reduccin de ruido basado en VAD. ............. 38
Figura 4. Espectrograma, transcripcin, forma de onda, y segmentacin voz/no-voz de
un audio de ejemplo ........................................................................................................ 40
Figura 5. Diagrama del punto de articulacin de los sonidos voclicos definidos por el
IPA. ................................................................................................................ 45
Figura 6. Diagrama de correspondencia de sonidos vocalicos entre el diccionario de
Phnrec e IPA. En verde los fonemas de Phnrec. ............................................ 48
Figura 7. Obtencin del AFD de las distintas clases amplias fonticas a partir de los
conjutnos de locuciones CT y HF. ................................................................. 50
Figura 8. Valor del factor de sobreestimacin de ruido en funcin de la SNR calculada
para QIO. ........................................................................................................ 52
Figura 9. Ubicacin de los micrfonos en el interior del vehculo................................. 54
Figura 10. Funcionamiento general de HTK .................................................................. 56
Figura 11. Esquema bsico de reconocimiento de HTK ................................................ 58
Figura 12. Comparacin de y del experimento I. .................................. 63
Figura 13. Histograma de SNR diferencial entre y del experimento I . 64
Figura 14. Comparacin de y del experimento II .................................. 67
Figura 15. Histograma de SNR diferencial entre y del experimento II 68
Figura 16. Diagrama de bloques del doble filtro de Wiener propuesto en el ETSI
standard v1.1.3 ............................................................................................... 70
Figura 17. Comparacin de y del experimento IV ................................ 73
Figura 18. Forma de onda, espectrograma, energa, transcripcin fontica y valor de
AFD instantneo para una grabacin filtrada. ............................................... 76
XII
Reduccin de ruido en grabaciones de audio ndice de tablas

ndice de Tablas
Tabla 1. Tabla fontica del Alfabeto Fontico Internacional, indicando el modo de
articulacin y el punto de articulacin de cada fonema de carcter
consonntico. ................................................................................................. 44
Tabla 2. Tabla fontica del Alfabeto Fontico Internacional con los sonidos
consonnticos no pulmonares. ....................................................................... 44
Tabla 3. Diccionario de fonemas reconocibles por el reconocedor hngaro Phnrec. .... 48
Tabla 4. Tablas de correspondencia de sonidos consonnticos entre el diccionario de
Phnrec e IPA. ................................................................................................. 49
Tabla 5. Valor medio obtenido del AFD y su correspondiente desviacin estndar para
cada clase fontica. ........................................................................................ 50
Tabla 6. Lista de dgitos y pronunciacin utilizados en CENSREC-2. .......................... 54
Tabla 7. Combinacin de velocidades y condiciones acsticas en el vehculo. ............. 55
Tabla 8. Datos entrenamiento para cada condicin de evaluacin. ................................ 56
Tabla 9. Datos test para cada condicin de evaluacin. ................................................. 56
Tabla 10. Resultados de referencia proporcionados por CENSREC-2. ......................... 58
Tabla 11. Resultados obtenidos en el reconocimiento de las muestras originales de la
base de datos. ................................................................................................. 59
Tabla 12. Conjunto de fonemas del diccionario del reconocedor para el hngaro. Los
fonemas estn presentados en formato SAMPA, para uso con computadores.
........................................................................................................................ 60
Tabla 13. Resumen del experimento I ............................................................................ 62
Tabla 14. Resultados de reconocimiento con HTK del experimento I. .......................... 65
Tabla 15. Tabla resumen del experimento II .................................................................. 66
Tabla 16. Parmetros estadsticos de la evaluacin SNR ............................................... 68
Tabla 17. Resultados de reconocimiento con HTK del experimento II. ........................ 68
Tabla 18. Tabla resumen del experimento III................................................................. 69
Tabla 19. Resultados de reconocimiento con HTK del experimento III. ....................... 71
Tabla 20. Tabla resumen del experimento IV ................................................................ 72
Tabla 21. Parmetros estadsticos de la evaluacin SNR ............................................... 73
Tabla 22. Comparativa de los experimentos II y IV. Las cifras de y de
estn referidos a sus respectivos valores medios. .......................................... 74

XIII
Reduccin de ruido en grabaciones de audio ndice de tablas

Tabla 23. Resultados de reconocimiento con HTK del experimento IV. ....................... 74
Tabla 24. Tabla resumen del experimento V .................................................................. 75
Tabla 25. Resultados de reconocimiento con HTK del experimento V. ........................ 77
Tabla 26. Resumen de los resultados de la condicin de test 1 de la evaluacin HTK.. 78
Tabla 27. Resumen de los resultados de la condicin de test 2 de la evaluacin HTK.. 79
Tabla 28. Resumen de los resultados de la condicin de test 3 de la evaluacin HTK.. 79
Tabla 29. Resumen de los resultados de la condicin de test 4 de la evaluacin HTK.. 80

XIV
Captulo 1

Introduccin
Reduccin de ruido en grabaciones de audio Captulo 1. Introduccin

1.1. Motivacin del proyecto

La penetracin de las tecnologas del habla en la sociedad actual es cada vez mayor.
Un claro ejemplo de ello es el creciente uso de la telefona mvil, que permite que
millones de usuarios a la vez, puedan mantenerse en contacto desde prcticamente,
cualquier lugar. La domtica es otro referente de este hecho, desde hace varios aos,
una persona es capaz de subir y bajar las persianas de su casa, con una sola orden vocal.
Con la proliferacin de este tipo de sistemas, la necesidad de que el intercambio de
informacin sea fiable y sin distorsiones es cada vez mayor. Para mantener la integridad
de la seal que se desea transmitir, almacenar o procesar, es necesario dotar a estos
sistemas de mecanismos de defensa frente al ruido, distorsiones u otro tipo de seales
interferentes que hagan, que la calidad de la seal vocal de origen se vea mermada, y
por tanto, de lugar a un fallo en la transmisin del mensaje.

A causa de la gran diversidad de aplicaciones que se le puede dar a este tipo de


sistemas, es necesario un anlisis ms especfico, en funcin del entorno donde se desee
aplicar, dado que tanto la naturaleza de las fuentes de ruido y las seales vocales, como
la posterior aplicacin que se les pueda dar, van a requerir unas condiciones optimas de
filtrado distintas, y por tanto necesitan algoritmos y mtodos de reduccin de ruido
adaptados a cada entorno.

1.2. Objetivos

El objetivo de este proyecto es estudiar y analizar el comportamiento de los distintos


mtodos de reduccin de ruido aplicado a seales de voz que ms se utilizan en la
actualidad, para poder utilizarlos sobre locuciones obtenidas a bordo de vehculos, y en
el caso de ser posible, proponer y desarrollar las mejoras que sean necesarias para
optimizar el proceso de reduccin de ruido.

Asimismo, se ahondar en la temtica de los sistemas de reconocimiento automtico


del habla, que dependen directamente de la reduccin de ruido, y en la tecnologa de
deteccin de actividad de voz. Ambos elementos juegan un papel trascendental en el
procesado de voz, y veremos cmo pueden afectar en la mejora de los sistemas de
reduccin de ruido.

2
Reduccin de ruido en grabaciones de audio Captulo 1. Introduccin

1.3. Estructura de la memoria

La estructura de este PFC se organiza como sigue:

En el captulo 2 se presenta una revisin de los conceptos bsicos necesarios para


abordar con soltura los mtodos de reduccin de ruido y su evaluacin, como son los
modelos de seales empleados, o los factores de definen la calidad del filtrado.
Asimismo, se profundiza en el rea de la reduccin de ruido con el filtro de Wiener y
sus posibles aplicaciones. Tambin se introduce la notacin que se utilizar durante todo
el proyecto.

En el captulo 3 se desarrolla la idea central de este proyecto, la propuesta de los


cambios necesarios para mejorar los resultados del filtro de reduccin de ruido
estudiado en el captulo 2. Con el planteamiento de dichas mejoras, se realiza el diseo
detallado de los sistemas de reduccin de ruido que van a ser sometidos a test y
posteriormente evaluados. Al final del captulo 3, podremos encontrar una descripcin
de las herramientas software utilizadas para la consecucin de todas las pruebas.

En el captulo 4 se detallan las distintas pruebas que se han llevado a cabo para la
evaluacin de las propuestas de mejora, y se presentan los resultados obtenidos a partir
de las mismas.

En el captulo 5 se detallan las conclusiones del proyecto y las posibles lneas de


trabajo futuro.

3
4
Captulo 2

Estado del arte

5
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

En este captulo vamos a familiarizarnos con los conceptos bsicos necesarios para
abordar la temtica de reduccin de ruido. Comenzaremos revisando las definiciones de
ruido, y como ste afecta a las seales de informacin, como podemos modelarlo
matemticamente y cuantificarlo.

Con los modelos de seal planteados, y unos breves conceptos previos, ahondaremos
en las tcnicas de reduccin de ruido, en concreto con el Filtro de Wiener, y su
desarrollo matemtico, para hacernos una idea de cmo funciona y que aplicaciones
tiene.

Finalizaremos el captulo profundizando en la teora de deteccin de voz aplicada al


filtro de Wiener, y sobre su importancia en la reduccin de ruido.

2.1. El Ruido

En el mbito de las comunicaciones, existen dos tipos de elementos perturbadores de


una seal, estos son el ruido y la distorsin. Mientras que la distorsin es una
modificacin de la seal producida, por ejemplo, por las no linealidades del canal, el
ruido es un elemento independiente de la seal, pero que como consecuencia puede
acarrear la degradacin de la calidad y la inteligibilidad de la misma, o en su caso, al
procesamiento y/o almacenamiento de dicha seal. Si esto lo aplicamos en el campo de
las seales de voz, los efectos del ruido pueden llegar a ser muy perjudiciales. Para
intentar reducir al mximo dichos efectos, y mejorar la calidad de las comunicaciones,
se han desarrollado diversas tcnicas de procesamiento de seal, que ayudan a mejorar
la calidad de la voz, eliminando de la manera ms ptima todo el ruido que sea posible.

Antes de abordar el problema de cmo reducir o eliminar ese ruido, es necesario


definirlo, caracterizarlo y clasificarlo. En este contexto podemos definir el ruido como
toda seal no deseada, que interfiere en la comunicacin, procesamiento o medida de
otra seal portadora de informacin [1]. La simplicidad de esta idea nos puede ayudar
a acercarnos al problema desde una perspectiva general, no obstante, no es una
definicin que permita abordar el problema de una forma tcnica, por lo que es
necesario realizar una clasificacin menos generalista de los distintos tipos de ruido, y
su procedencia. Hay que destacar adems que con esta definicin no estamos

6
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

excluyendo los efectos provenientes de la distorsin, que aun no siendo ruido, se


consideran como tal al tratarse de parte de seal no deseable.

De este modo, podemos definir lo siguientes tipos de ruido/distorsin:

Ruido aditivo
En este caso, el ruido aditivo se puede considerar todo aquel ruido procedente de
distintas fuentes que coexisten en el mismo entorno acstico.

Seales interferentes
En el caso de seales de voz, se considera seal interferente a toda aquella que
proceda de otros locutores, que no sean objeto de inters.

Reverberacin
Producida por la propagacin multitrayecto que se da en los entornos acsticos
cerrados o semi cerrados. No se trata exactamente de ruido, sino de una forma de
distorsin.

Eco
Producido generalmente por el acoplamiento entre los micrfonos y los altavoces.
Al igual que en el caso anterior, se trata de una forma de distorsin.

Cada una de estas subclases de ruido/distorsin representa un campo de investigacin


distinto, y es por ello que en los ltimos aos se han desarrollado avanzadas tcnicas de
procesamiento de seal de voz, cada una de estas tcnicas orientada a suprimir los
efectos negativos antes mencionados. En el caso de este proyecto, vamos a ahondar en
el rea de la reduccin de ruido aditivo, y suponer que no nos vemos afectados por el
resto de casos.

2.1.1. Ruido Aditivo

Para precisar en la definicin de ruido aditivo, podemos considerar que una seal de
voz est formada por la superposicin de la voz limpia y del ruido. De esta manera, la
reduccin de ruido llevar a cabo la tarea de separar ambas partes de la forma ms
ptima posible.

7
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Una de la propuestas iniciales que se plantean a la hora de abordar el filtrado, es


plantear la eliminacin del ruido como un problema de estimacin de parmetros, donde
la estimacin optima de la voz limpia puede llevarse a cabo bajo el criterio de
optimizacin de, por ejemplo, el factor MSE (Mean Squared Error) o de la SNR (Signal
to Noise Ratio) de la estimacin de la voz limpia frente al audio original.

Desafortunadamente, este criterio de optimizacin, en algunos casos, no coincide en


la realidad con lo que el odo humano percibe como la mejor calidad, y es que tenemos
enfrentados parmetros subjetivos y parmetros objetivos a la hora de evaluar las
tcnicas de filtrado. Es por ello que se hace necesario replantear el problema del ruido
aditivo, estableciendo nuevos objetivos, que tengan en cuenta esta nueva situacin:

Mejorar criterios objetivos, MSE, SNR, etc.


Mejorar la calidad que se percibe de la seal restaurada.
Como paso previo a otros procesamientos de seal de voz, aumentar la
robustez de otros sistemas (codificacin de voz, reconocimiento de voz, etc.)
frente al ruido.

Dependiendo de qu objetivo deseemos cumplir, la complejidad y la dificultad del


filtrado puede variar tremendamente, pero en general, el nmero de micrfonos (o
canales) utilizados para obtener las grabaciones, ser determinante. En este caso,
cuantos ms canales haya disponible, ms opciones se abren para mejorar la calidad de
la voz. Por ejemplo, supongamos que tenemos varios micrfonos disponibles, situados
uno de ellos cerca del locutor, y el resto a cierta distancia, captando el sonido ambiente.
Si consideramos los ltimos micrfonos como nuestra referencia de ruido, la obtencin
del canal de voz limpio se simplifica, dado que no es necesario aplicar complejos
algoritmos al estimar el ruido. En base a esto, podemos afirmar que cuantos ms
micrfonos estn disponibles, mayores posibilidades hay para el filtrado de la voz.

En la realidad, esta situacin de un array de micrfonos no es la ms comn. Un


ejemplo muy sencillo de esto sera el telfono mvil, el cual slo dispone de un
micrfono, por el cual son captados voz y ruido ambiente por igual. En este caso,
estaramos hablando de un sistema mono canal, y la reduccin de ruido se complica,
dado que no tenemos ninguna referencia de ruido, y por tanto, tendremos que hacer uso
de tcnicas ms complejas para realizar el filtrado.

8
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Los trabajos en el filtrado de seales de voz en sistemas mono canal comenzaron


hacia 1958, por el profesor Manfred R. Schroeder, en el que propona por vez primera
una implementacin analgica de la substraccin espectral. Quince aos ms tarde, se
hara lo mismo pero en el campo de las seales digitales. En el ao 1979, los
investigadores Jae S. Lim y Alan V. Oppenheim, en sus trabajos sobre voz ruidosa,
realizaron un anlisis de las tcnicas existentes hasta el momento en el campo de la
mejora de las seales de voz, y concluyeron que la reduccin de ruido no solo tena
efectos beneficiosos sobre la calidad de la voz recuperada, sino tambin sobre la calidad
e inteligibilidad de la codificacin lineal predictiva (sus siglas en ingls LPC), til en
los sistemas de codificacin y reconocimiento de voz.

Las tcnicas desarrolladas hasta ahora pueden englobarse en tres grandes grupos,
en funcin de cmo se realice la reduccin de ruido:
1. Filtrado lineal adaptativo.
2. Substraccin espectral.
3. Basado en modelo.

La base del filtrado lineal adaptativo, como su propio nombre indica, es hacer pasar
a la seal ruidosa a travs de un filtro lineal que se adapta al ruido a eliminar, atenuando
as la componente de ruido, dejando la seal de voz sin distorsionar, en la medida de lo
posible. Los filtros de Wiener estaran dentro de esta categora. En su lugar, los mtodos
de substraccin espectral, realizan la reduccin de ruido a travs de una estimacin del
espectro de la seal de voz, a partir de la seal original ruidosa. El algoritmo ms
conocido de esta categora seria MMSE (Minimum-Mean-Squared-Error). Los mtodos
de reduccin basados en modelos, tratan la reduccin de ruido como un problema de
estimacin de parmetros, donde se hace uso de diversos modelos matemticos de la
generacin de la voz. Tcnicas como LP-Kalman (Linear Prediction) son
representativas de este grupo.

2.2. Modelo de seal empleado

La reduccin de ruido que se pretende llevar a cabo, est basada en recuperar la seal
de voz de inters x(n) de la seal ruidosa observada

9
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

(1)

donde v(n) es la seal de ruido que se pretende eliminar, asumiendo que es un proceso
aleatorio de media cero e incorrelado con la seal de voz. Podemos considerar la seal
y(n) como un vector de la forma

(2)

que incluye las L muestras ms recientes, donde x(n) y v(n) estn definidas de forma
similar. De esta manera, el problema de la reduccin de ruido se basa en la estimacin
de x(n) a partir de la seal y(n) original.

Aplicando una transformada de Fourier discreta (DFT) sobre los L puntos definidos,
podemos decir que la seal observada y(n), en el dominio de la frecuencia quedara de la
forma

(3)
donde tenemos que

(4)

es la DFT de la seal y(n) ruidosa en el instante n-simo, w(l) es la funcin de


enventanado escogida (por ejemplo, ventana de Hamming), y son
las seales de voz y ruido respectivamente, definidas de la misma manera que
. Ahora en el dominio de la frecuencia, podemos decir que la reduccin de
ruido se basa en la estimacin de a partir de .

2.3. Evaluacin de la reduccin de ruido

El principal objetivo de la reduccin de ruido, en nuestro caso, es eliminar el ruido


de fondo de la muestra de audio, e intentar evitar que la seal de voz se vea afectada,
distorsionndola o produciendo algn otro efecto no deseado. Para verificar esto ltimo,
cuando hemos llevado a cabo un filtrado, necesitamos algn criterio en el que basarnos
para comprobar el rendimiento de la operacin.

10
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Existen dos categoras en las que clasificar estos criterios, y son:

Medidas subjetivas

Las medidas subjetivas hacen referencia a un test realizado por un grupo de


personas, escuchando la muestra de audio, y asignando una calificacin a ste, o
realizando una comparacin con otros audios de las mismas caractersticas. Se podra
decir que en este caso se realiza un examen cualitativo del resultado del filtrado.
Existen varios test en este sentido, como pueden los test MOS (Mean Opinion Score) o
los test CE (Categorical Estimation).

Medidas objetivas.

Al contrario que las medidas subjetivas, las medidas objetivas se obtienen a partir
de los resultados del filtrado, atendiendo as a aspectos cuantitativos de la seal, siendo
independientes de criterio humano alguno.

Atendiendo a estas dos categoras a la hora de comprobar los resultados obtenidos,


siendo coherentes con los objetivos propuestos al principio, deberamos dar ms
importancia a las medidas subjetivas, ya que stas estn basadas en el juicio de la
persona que escucha, y por tanto, el usuario final. En la prctica, realizar este tipo de
medidas es de una gran complejidad y coste, por el tiempo empleado en realizar las
medidas y la escasa uniformidad, dependiendo siempre del criterio de una persona. Es
por ello que gracias a su simplicidad y rapidez en los clculos, las medidas objetivas son
las ms usadas en esta rea. En esta lnea, varios algoritmos de medidas objetivas han
sido desarrollados, siendo las ms comunes la medida de SNR o la medida de la
distancia Itakura-Saito [2].

Medidas objetivas de calidad subjetiva: son intentos de aproximacin de las


medidas subjetivas mediante medidas objetivas, y que por tanto tienen las
ventajas de ambos mtodos, aunque no son tan fiables como las medidas
subjetivas si el experimento est correctamente diseado y cuenta con un
nmero suficiente de personas. Ejemplo de este tipo de medidas son las
definidas en la serie de recomendaciones UIT-T P.800 [3].

11
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

2.3.1. Conceptos previos

Relacin Seal a Ruido (Signal To Noise Ratio)

La relacin seal a ruido (SNR Signal to Noise Ratio) es uno de las medidas ms
utilizadas en el campo de la reduccin de ruido, cuantificando como de ruidosa es una
seal en referencia a los niveles de voz y ruido. Esta relacin est definida como la
intensidad de la seal de inters (en nuestro caso, la voz) relativo a la intensidad de
seal del ruido de fondo, y generalmente se representa en decibelios (dB). Con el
modelo de seal de y(n) presentado anteriormente, podemos definir la SNR como:

(5)

donde el operador E[] representa la esperanza estadstica de una seal dada.


Podemos definir, como hemos realizado anteriormente con otras seales, la SNR en
el dominio de la frecuencia, haciendo uso del Teorema de Parseval de la forma

(6)

donde y son, respectivamente, las densidades espectrales de potencia de


las seales temporales x(n) y v(n), y donde es la frecuencia angular.

En el mbito de reduccin de ruido, esta medida se suele utilizar como SNR a priori
( ) y SNR a posteriori ( ), y se suele considerar que cuanto ms alto sea el
valor de SNR, mejor es la calidad del audio. En este sentido, para establecer la calidad
de un filtrado, se pueden comparar ambas SNR definidas anteriormente ( y
). La diferencia de ambas se le denomina SNR de mejora, y cuanto ms alta sea
sta, podemos decir que mejor son los resultados de la reduccin de ruido.

12
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Figura 1. Ejemplo de grafica de resultados de SNR. La recta diagonal


representa los puntos en los que la es igual a la .

Factor de reduccin de ruido

Antes de definir otros parmetros que pueden ser objeto de medida en el rea de la
reduccin de ruido, tenemos que definir un trmino que haga referencia a cuanto ruido
es eliminado o atenuado en una determinada muestra, y para ello hacemos uso del factor
de reduccin de ruido. Este se obtiene a partir de la relacin entre la intensidad de ruido
inicial en la muestra, y la intensidad del ruido remanente tras el filtrado. Teniendo en
cuenta la seal y(n) definida anteriormente, llamamos al ruido residual, siendo el
factor de reduccin de ruido tal que

(7)

Si el resultado del filtrado es satisfactorio, este factor ser mayor que la unidad.
Tambin se puede comprobar que cuanto ms alto sea , mejor ser la calidad de la
reduccin de ruido.

13
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

A la hora de evaluar este tipo de medidas, hay que tener en cuenta que las seales
acsticas suelen tener gran cantidad de fluctuaciones, y esto es igual para las seales de
voz y de ruido. Es por ello que no se debe entender el factor de reduccin de ruido como
un valor absoluto, de forma que este ha de ser calculado como una ponderacin media
de la reduccin de ruido en todos los instantes de la seal acstica (esperanza
matemtica). Adems de las variaciones temporales, hay que tener en cuenta las que se
dan en el dominio de la frecuencia, las cuales, generalmente, no son uniformes, por lo
que habra que hacer medidas en cada banda para saber exactamente como se ha
comportado el ruido tras el filtrado.

Para hacernos una idea ms general del comportamiento del ruido en frecuencia,
podemos hacer uso nuevamente del factor de reduccin de ruido definido para
densidades espectrales, de forma que

(8)

donde , , y son los espectros de Fourier y las densidades


espectrales de potencia de v(n) y (n) respectivamente. De esta forma, la funcin de
ganancia de reduccin de ruido es dependiente de la frecuencia.

ndice de distorsin del habla

Hasta ahora, solo se ha tenido en cuenta los efectos del filtrado sobre la seal de
ruido, pero no se ha comprobado el resultado sobre la seal de voz. Es posible que esta
se vea afectada, y es un factor que habr que tener en cuenta, dado que cuanto ms
agresivo es el filtrado, es lgico pensar que mayor ser la distorsin generada en la seal
de voz. Es vital entonces, realizar la operacin de reduccin de ruido con toda la
informacin de la que dispongamos a priori de la seal, para intentar disminuir la
degradacin de la voz. Por este motivo, definimos el ndice de distorsin de la voz
(SDI, speech distortion index) como una medida para cuantificar la distorsin que
genera el algoritmo de reduccin de ruido utilizado.

A partir de los modelos de seal definidos anteriormente, si tenemos que es


la componente estimada de la voz limpia en el algoritmo, podemos decir que el ndice
de distorsin de la voz es

14
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

(9)

El rango de valores de es de cero a uno, correspondiendo cero con un valor de


distorsin nula, y uno como un valor alto con gran distorsin. Por tanto, nuestro
objetivo para mantener un compromiso de calidad con la seal de voz ser mantener
tan bajo como nos sea posible. Es importante remarcar que para calcular el ndice
de distorsin de la voz es necesario disponer de una referencia de la voz sin ruido ,
lo que limita en gran medida sus posibilidades de aplicacin.

Para medir la distorsin de la voz en el espacio de la frecuencia, tenemos que hacer


uso del concepto de distorsin de atenuacin de frecuencias o simplemente
distorsin de atenuacin usado en teora de comunicacin. La distorsin de atenuacin
es una medida que fue desarrollada para evaluar como un canal telefnico es capaz de
mantener la fidelidad de una seal de voz. Est definida a partir de la variacin de
amplitud de la seal transmitida sobre la banda de frecuencias de voz.

Adaptando este concepto, podemos definir la distorsin de atenuacin de


frecuencias como

(10)

donde y son el espectro y la densidad espectral de potencia de la seal


limpia x(n), y son respectivamente, el espectro y la densidad espectral
de potencia de la componente de voz de la seal filtrada. No se puede decir que
sea el equivalente en frecuencia de , ya que no existe una correspondencia directa
entre ellas, aunque si estn relacionadas con respecto a lo que cuantifican. Al igual que
con la medida anterior, esta medida requiere tambin disponer de la voz limpia, lo que
tambin limita sus posibilidades de aplicacin.

15
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

2.4. Reduccin de ruido a travs del filtrado

Una vez revisados los conceptos bsicos sobre la reduccin de ruido, vamos a pasar a
ver las tcnicas y algoritmos ms utilizados. Para empezar, vamos a analizar las
tcnicas de filtrado. Estas se basan en el diseo de un filtro lineal o transformacin de
forma que, cuando hacemos pasar la seal ruidosa (voz y ruido aditivo) a travs del
filtro, la componente de ruido es atenuada. Los algoritmos ms representativos en esta
categora (en el dominio temporal y frecuencial) son el filtro de Wiener, y el filtro de
Wiener paramtrico.

2.4.1. Filtro de Wiener en el dominio temporal

El filtro de Wiener es una de las aproximaciones bsicas a la reduccin de ruido y


tiene la particularidad de que es ptimo de acuerdo con el error cuadrtico medio (MSE)
entre la seal limpia y la seal obtenida por el proceso de filtrado.

El filtro de Wiener se puede formular en el dominio del tiempo y en el de la


frecuencia. La formulacin del filtro en el tiempo se obtiene minimizando el error
cuadrtico medio (MSE) entre una seal de inters y su estimacin. Con los modelos de
seal planteados anteriormente, la estimacin de la componente de voz limpia se puede
obtener haciendo que la seal y(n) pase a travs de un filtro FIR especificado en el
dominio temporal de la forma

(11)

donde

(12)

representa la respuesta al impulso finita de longitud L. La seal de error entre la seal de


voz limpia y su estimacin en el instante n es definida como

(13)

Segn lo expuesto antes, nuestro objetivo es minimizar el MSE, por lo que la funcin
MSE del filtro planteado sera

16
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

(14)

Considerando el siguiente filtro

(15)

si hicisemos pasar la seal y(n) sobre este filtro, la salida sera idntica a la entrada (no
hay reduccin de ruido). Para este caso, la funcin MSE correspondiente sera

(16)

La estimacin optima de la seal limpia de voz x(n) tiende a contener menos


ruido que la seal observada y(n), por lo que podemos decir que el filtro ptimo que
forma es un filtro de Wiener ptimo, obtenido de la forma

(17)

En principio, para el filtro ptimo tenemos que

(18)

lo que indica que el filtro ptimo de Wiener debe ser capaz de reducir el nivel de ruido
en la seal ruidosa y(n). De la ecuacin (17), podemos obtener la ecuacin de
Wiener-Hopf

(19)

donde

(20)

es la matriz de correlacin de la seal observada y(n) y

(21)

es el vector de la correlacin cruzada de la seal observada y de la seal de voz limpia.

17
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Se puede comprobar de las ecuaciones anteriores, que para obtener el filtro de


Wiener ptimo es necesario conocer de antemano y . La matriz de correlacin
se puede obtener directamente a partir de la seal y(n), pero dado que no tenemos
acceso directo a la seal x(n), el clculo de complica la tarea de la obtencin del
filtro ideal.

Haciendo uso de la ecuacin (17), obtenemos el valor de

que podemos utilizar para poder calcular utilizando (21) de la siguiente manera

(22)

simplificando y utilizando (1) nuevamente para sustituir tenemos

(23)

Como asumimos al principio del captulo, las seales y estn incorreladas


entre s, de forma que anulando el termino sobrante en la ecuacin anterior podemos
decir que

(24)

Ahora, depende de dos vectores de correlacin, y . El vector no es ms


que la primera columna de la matriz , y puede ser obtenida directamente de y(n). El
vector se puede obtener a travs de la observacin de y(n), en los tramos en los que
la voz no est presente y slo hay ruido. Con esta nueva informacin, podemos
reescribir la ecuacin de Wiener-Hopf

(25)

18
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Si asumimos que la matriz es invertible, como ocurre en la mayora de las


ocasiones, el filtro de Wiener se puede obtener resolviendo las ecuaciones Wiener-Hopf
planteadas

(26)

donde es el filtro definido en (15).

Si ahora definimos dos matrices de correlacin normalizadas

(27)

donde y , son, respectivamente, la matrices de correlacin del habla limpia y del


ruido, y que estn definidas de forma similar que , el filtro de Wiener se puede
expresar de forma

(28)

donde I, representa la matriz identidad y SNR es la relacin seal a ruido de la seal de


voz. Si ahora hacemos que la SNR tienda a infinito (condiciones ptimas), tenemos

(29)

Este hecho era de esperar, ya que en las condiciones de SNR descritas, no sera
necesaria la reduccin de ruido, y por tanto el filtro ptimo sera aquel que no variase la
seal de entrada. Si en lugar de buscar condiciones optimas de SNR de entrada,
hacemos que esta tienda a cero, tenemos que

(30)

donde el vector 0 tiene el mismo tamao en muestras que , y todos sus valores son
cero. En este caso, cuando la seal de entrada al filtro carece de seal de voz
(SNR = 0), el filtro no deja pasar nada, eliminando todo sonido.

Una vez formulado, podemos pasar a analizar como el filtro de Wiener puede reducir
el nivel de ruido, como en un principio se espera. Para ello, vamos a echar un vistazo al

19
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

factor de reduccin de ruido (definido en apartados anteriores). Sustituyendo nuestro


filtro ptimo en las ecuaciones, obtenemos la estimacin ideal de voz

(31)

Se puede observar que los trminos de lado derecho de la ecuacin anterior, son
, siendo esta la componente de voz limpia filtrada con el filtro de Wiener, y
la componente de ruido residual. Por lo tanto, el factor de reduccin de ruido,
segn la ecuacin (7) puede ser descrito como

(32)

Sustituyendo en (32) llegamos a que

(33)

que es una funcin que depende de de las tres matrices de correlacin , y .


Utilizando la descomposicin de autovalores [4], podemos descomponer estas tres
matrices de correlacin de la siguiente manera:

(34)

donde es una matriz cuadrada invertible y

(35)

que es una matriz diagonal que cumple que . Sustituyendo (34)


en la ecuacin (33), se deduce que

(36)

donde es la primera columna de la matriz B y que hace

20
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Nuevamente, a partir de la ecuacin (34), podemos calcular la SNR de la seal


observada de forma

(37)

Usando la ecuacin (36) que acabamos de obtener, podemos recalcular el factor de


reduccin de ruido de la forma

(38)

Teniendo en cuenta que se puede deducir de la ecuacin (38) que

(39)

Teniendo en cuenta las consideraciones realizadas en el Anexo A, si hacemos que


y , podemos obtener la siguiente inecuacin

(40)

que pasa a convertirse en ecuacin si y solo si todos los correspondientes a los


distintos de cero son iguales, donde De esto podemos deducir que

(41)

Por tanto, podemos decir que el factor de reduccin de ruido descrito en (41) ser
siempre mayor que 1, teniendo en cuenta que solo se consideran valores de SNR

21
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

positivos. Esto demuestra que la reduccin de ruido es siempre posible con el filtro de
Wiener. De (41) se puede demostrar que el factor de reduccin de ruido es una funcin
decreciente, acotada inferiormente. Su valor tiende a infinito cuando la SNR se
aproxima a 0, y tiende a 1, cuando el valor de la SNR crece. Esto nos indica que se
producir una mayor reduccin de ruido con valores de SNR bajos, lo cual es preferible
y deseable, puesto que hay ms cantidad de ruido a ser eliminado.

El ndice de distorsin del habla para el filtro de Wiener, teniendo en cuenta su


definicin en (9), se puede reescribir de la siguiente manera

(42)

Como ya se dijo anteriormente, el valor del ndice de distorsin del habla siempre
cumple que

(43)

Sustituyendo (34) en (42) tenemos que

(44)

donde hemos hecho uso de la siguiente inecuacin

(44)

pudiendo ser probada teniendo en cuenta las consideraciones realizadas en el Anexo A.

Podemos concluir entonces que el filtro de Wiener siempre ser capaz de lograr
reduccin de ruido dada una seal de entrada, a costa de distorsionar la seal de voz en
cierta medida.

22
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Llegados a este punto, solo nos queda comprobar cuales sern los efectos del filtro de
Wiener sobre la SNR del audio de entrada, y verificar si a pesar de la distorsin
introducida por el filtro, este es capaz de mantenerla o incluso mejorarla.

De la ecuacin (37) sabemos que la SNR de la seal de entrada se define como

(45)

Tras el filtrado, tenemos que la SNR de la seal de salida es

(46)

Si sustituimos en (46) el filtro tenemos que

(47)

Haciendo uso de la descomposicin matricial vista en (34), podemos deducir que

(48)

Si revisamos la desigualdad vista en (44), podemos comprobar que

(49)

Es decir, en las condiciones planteadas en este desarrollo, el filtro de Wiener siempre


es capaz de aumentar la SNR de la seal de entrada al filtro, o lo que es lo mismo,
siempre es capaz de lograr la reduccin de ruido.

2.4.2. Filtro de Wiener subptimo

Del anlisis anterior, se ha podido concluir que el filtro de Wiener en el dominio del
tiempo logra la reduccin de ruido en todos los casos, en detrimento de la calidad de la
seal de voz limpia, dado que sta se ve distorsionada por el filtro. Este hecho nos hace

23
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

plantearnos los requisitos previos de nuestro filtro, y aadir un parmetro ms, el cual es
lograr la mxima reduccin de ruido, sin poner en peligro la seal de voz, y por tanto,
nuestro diseo ha de cumplir un compromiso de equilibrio entre la reduccin de ruido y
la distorsin del habla. Colocando ambos requisitos en una balanza, si le damos mayor
importancia a uno de ellos, el otro se ver mermado, y viceversa. Por lo tanto es
necesario establecer un control en el filtro, que nos permita inclinar la balanza hacia un
lado u otro. Para ello, vamos a definir un filtro de Wiener subptimo.

El filtro descrito en (26) tiene una interpretacin fsica muy intuitiva: se compone de
la suma de dos filtros, y , donde cada uno de ellos tiene un propsito
distinto. El primer filtro es el encargado de crear una rplica de la seal original de
entrada, mientras que el segundo realiza la estimacin (y supresin) del ruido. En esta
lnea, podramos decir que el filtro de Wiener trabaja en dos pasos: crea una estimacin
ptima del ruido, para luego restarla de la seal de entrada. Si furamos capaces de
introducir un parmetro que sea capaz de controlar la cantidad de ruido a eliminar,
podramos, acudiendo a la metfora anterior, controlar de qu lado se inclina la balanza,
y por tanto, mantener el compromiso entre reduccin de ruido y distorsin de la voz.

Por lo tanto, ahora vamos a crear el siguiente filtro

(50)

donde 0 es un nmero real. Hay que destacar, que el filtro no es una solucin
ptima de acuerdo conel criterio MMSE visto anteriormente, por lo que podemos
llamarlo filtro subptimo.

Sustituyendo en (14) podemos hallar la funcin MSE correspondiente al filtro


subptimo

(51)

Para lograr la reduccin de ruido con este nuevo filtro, el factor ha de ser escogido,
de forma que < , de lo que se deduce que

(52)

24
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

El factor de reduccin de ruido, para el caso del filtro subptimo seria:

(53)

Gracias a la descomposicin matricial vista en (34) , podemos reformular el factor de


reduccin de ruido de manera que

(54)

De forma similar al factor de reduccin de ruido, podemos reescribir el ndice de


distorsin de la voz

(55)

Por lo que la relacin entre los ndices de distorsin de voz correspondientes a los
dos filtros, y solo depende del parmetro .

Para lograr tener menor distorsin de voz en el caso del filtro subptimo que en
el caso del filtro de Wiener , debemos encontrar un valor de que haga que se
cumpla

(56)

A partir de (55) se comprueba que esta condicin se satisface cuando cumple


1< <1. Haciendo uso de (52), podemos determinar finalmente, que para los valores
de que 0 < < 1, el filtro subptimo reduce el nivel de ruido presente en la seal
observada y(n) sin que la seal de voz se vea tan distorsionada como en el caso del filtro
ptimo . Para los casos extremos de , cuando = 0, se tiene que , en el
que no hay reduccin de ruido, pero tampoco hay distorsin de voz. Para el caso que
= 1, se tiene que , donde la reduccin de ruido y la distorsin, son mximas.

La SNR a la salida del filtro subptimo, viene dada por

25
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

(57)

Para el caso de la SNR, mientras que siga cumpliendo 0 < < 1, se tiene que

(58)

lo que quiere decir que el filtro subptimo es capaz de mejorar la SNR de la seal de
entrada al filtro, pero esta ser siempre ms baja o igual que la SNR del filtro de Wiener
ptimo.

2.4.3. Filtro de Wiener definido en el dominio de la frecuencia

El filtro de Wiener tambin puede ser formulado en el dominio de la frecuencia.


Una forma de obtener las ecuaciones correspondientes es aplicando directamente la
transformacin sobre las ecuaciones del filtro de Wiener definido en el tiempo. En ese
caso, ambos filtros (temporal y frecuencial) presentan el mismo rendimiento. En otros
casos, el filtro en el dominio frecuencia puede ser obtenido estimando directamente el
espectro de la voz limpia a partir del espectro de la voz ruidosa.

Si se realiza a partir de este mtodo, aparecen dos diferencias principales con


respecto al filtro en el dominio del tiempo:

El filtro en el dominio temporal es causal, mientras que el correspondiente al


dominio frecuencial, no lo es.
El filtro temporal trabaja sobre toda la banda de una vez, mientras que el
frecuencial lo hace por porciones, haciendo que cada filtro sea independiente
del resto.

Considerando el modelo de seal planteado en (3), podemos derivar el filtro de


Wiener en el dominio de la frecuencia,

(59)
donde

(60)

26
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

es el error cuadrtico medio (MSE) entre el espectro de la voz y su estimacin a la


frecuencia . Sustituyendo con [59,] y despejando, obtenemos que el filtro de Wiener
es:

(61)

donde

(62)

son las densidades espectrales de potencia (PSD) de x(n) e y(n) respectivamente. De esta
expresin cabe destacar que el filtro de Wiener en el dominio de la frecuencia presenta
siempre valores positivos y reales, por lo que mantiene la componente de fase de la
seal intacta.

De (61) podemos ver que para poder obtener el filtro de Wiener, es necesario
conocer las densidades espectrales de potencia de las seales limpia y ruidosa. Para el
caso de la seal ruidosa, el clculo es directo ya que es la seal observada, pero la seal
limpia x(n) no es accesible antes de la salida del filtro, lo que complica el clculo de su
densidad espectral de potencia.

Considerando que la seal de voz x(n) y la seal de ruido vista en (1) estn
incorreladas, podemos relacionar sus densidades espectrales de potencia de forma que

(63)

Con ello, podemos reescribir la ecuacin del filtro, obteniendo

(64)

Ahora si podemos tener acceso a todas las seales involucradas en la ecuacin del
filtro. A partir de la seal y(n) observada obtenemos de forma directa , y
examinando los intervalos en los que no se detecta actividad de voz, obtenemos
.

27
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

La estimacin ptima del espectro de voz limpia haciendo uso del filtro anterior es

(65)

Aplicando la transformada discreta de Fourier inversa sobre la seal anterior, se


obtiene la estimacin ptima de las muestras de voz . La potencia de puede
ser calculada haciendo uso del Teorema de Parseval de forma

(66)

que es la suma de dos trminos, donde el primero es la potencia de la voz limpia filtrada
y el segundo es el ruido residual filtrado.

Si el ruido no es nulo (consideracin inicial), podemos calcular el factor de reduccin


de ruido del filtro de Wiener en el dominio de la frecuencia basndonos en (7), por lo
que

(67)

considerando que , se verifica que

(68)

Lo que nos dice que el filtro de Wiener puede reducir el nivel de ruido siempre que
este no sea nulo. De igual manera se puede demostrar que la potencia de la seal de voz
filtrada es menor que la potencia de la seal de voz original, como pasaba en el caso del
filtro de Wiener definido en el tiempo en (26), por lo que la reduccin de ruido se lleva
a cabo asumiendo la distorsin en la seal de voz.

28
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Tambin se puede demostrar, como en el caso del filtro definido en el dominio


temporal, que en este caso, el filtro de Wiener definido en frecuencia puede mejorar la
SNR de la seal observada.

2.4.4. Filtro de Wiener Paramtrico

Para realizar la implementacin del filtro de Wiener definido en el apartado anterior


(dominio frecuencial), es necesario aplicar una serie de aproximaciones, ya que la
densidad espectral de potencia de la seal ruidosa y el propio ruido han de ser
estimados. Una forma de hacerlo es aplicando el teorema de Parseval , teniendo que

(69)

Con este filtro, la estimacin de la voz limpia se define entonces como

(70)

Para proporcionar mayor flexibilidad al filtro, y poder mantener as el equilibrio


entre reduccin de ruido y distorsin, con lo cual el filtro de Wiener deja de ser ptimo
y vuelve a ser subptimo, la definicin de se modifica de forma que se
obtiene el filtro de Wiener que se suele denominar paramtrico

(71)

donde p y q son ambos nmeros positivos reales no nulos, y es un parmetro


introducido para controlar la cantidad de ruido a ser eliminado. Con valores de
se realiza un filtrado muy agresivo, pero esto provoca mayor distorsin en la seal de
voz. Si por el contrario se pretende que dicha distorsin sea mnima, es necesario
escoger valores tal que Las configuraciones ms tpicas de suelen ser
(1,1,1), (2,1,1) o (2,1/2, 1).

Por ello, la voz limpia estimada con el filtro paramtrico de Wiener se obtiene a
travs de:

(72)

29
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Hay que destacar que las configuraciones ms frecuentes de los parmetros del filtro
detallados anteriormente no representan los valores ptimos de los mismos, aunque ello
no limita las posibilidades del filtro, dada la sencillez de su implementacin y su rpida
adaptacin a travs de los parmetros a las condiciones de filtrado.

2.5. Deteccin de actividad de voz

Un detector de actividad de voz (voice activity detector, VAD) se encarga de


clasificar segmentos de una seal de voz, como fragmentos de voz, si se ha detectado su
presencia, o como fragmentos de no voz, si solo se ha encontrado ruido. Podemos
asumir los mismos modelos de seal vistos hasta ahora, donde la componente de voz
se ha visto afectada por una seal de ruido aditivo , encontrndose ambas
seales incorreladas. De esta manera, forman la seal , que ser con la que se
pretende trabajar, como ya se defini en la ecuacin (1)

2.5.1. Fundamentos de un detector de actividad de voz

Como se ha visto anteriormente, un VAD, o detector de actividad de voz, es el


encargado de segmentar y etiquetar un audio en fragmentos clasificados como voz o no
voz, indicando en cuales de estos fragmentos de la seal se ha detectado voz. Esta
herramienta es de gran utilidad en el procesado de seales de voz, como puede ser
codificacin, reconocimiento, transmisin discontinua, etc. Con este propsito, se han
desarrollado diversos algoritmos, que se adaptan a cada entorno acstico, optimizando
diversos parmetros que definen un VAD como son el retardo, la sensibilidad del VAD,
la precisin o el coste computacional.

El principal problema al que se enfrenta un VAD a la hora de decidir que es voz y


que no lo es, se encuentra en el ruido de fondo presente en la seal observada, donde la
variedad de su naturaleza e intensidad puede dificultar la tarea a la hora de procesar una
seal. Es por ello, que en el momento de decidir qu tipo de algoritmo vamos a utilizar,
debemos de tener en cuenta las condiciones acsticas del medio, para poder escoger la

30
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

opcin que ms se acerque a nuestros requisitos, aunque esta decisin tambin


depender del tipo de procesado al que se vaya a someter la seal de voz.

2.5.2. Esquema bsico de funcionamiento

El funcionamiento de un VAD bsico trata de extraer diversas caractersticas o


medidas realizadas sobre la seal observada y comparar estos valores con una serie de
umbrales preestablecidos, seleccionados normalmente en funcin de las caractersticas
del ruido y de la voz. La decisin sobre que es voz y que no lo es, se realiza cuando las
medidas o caractersticas extradas superan los umbrales anteriormente mencionados.
En muchas ocasiones, en las que el ruido presenta un comportamiento no estacionario,
los valores umbral han de ser actualizados constantemente para que la deteccin sea
correcta.
Aunque este esquema de funcionamiento es el ms habitual por su relacin entre
resultados y coste computacional, tambin hay que indicar que es posible realizar VADs
ms complejos en los que se emplean modelos ms complejos y que pueden dar mejores
resultados (por ejemplo de mezclas de Gaussianas, modelos ocultos de Markov, redes
neuronales, support vector machines (SVM) o cualquier otro paradigma de aprendizaje
automtico).

De forma generalizada, podemos decir que el algoritmo de un VAD bsico puede


descomponerse en dos partes:

1.- Clculo de umbrales y toma de medidas y/o extraccin de caractersticas.


2.- Aplicacin de la regla de decisin en funcin de los umbrales.

Independientemente del mtodo utilizado en cada implementacin de un VAD, el


principal compromiso a mantener es no identificar fragmentos de ruido como voz y
viceversa, o en su caso, reducir al mnimo estos fallos. El poder cumplir los objetivos
planteados por este compromiso de calidad hace que la tarea de deteccin de voz sea
ms compleja en entornos altamente ruidosos, donde las seales presentan valores de
SNR muy bajos, siendo difcil de distinguir la voz frente al ruido.

Para resolver este problema, es necesario que el VAD sea robusto frente al ruido, ya
que de esta forma estamos asegurando su funcionamiento en una amplia variedad de

31
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

condiciones acsticas. Podremos decir que un VAD es robusto frente al ruido cuando
aporta resultados similares, tanto para seales de voz limpia, como con seales de voz
ruidosa. De esta forma cuanto ms robusto sea el VAD, menores sern los errores de
deteccin.

2.5.3. Evaluacin de un VAD

El rendimiento o la calidad de un VAD se puede medir en trminos de la cantidad


de errores cometidos, detectando ruido como voz o viceversa, y en la agresividad a la
hora de decidir la duracin de los fragmentos detectados como voz. Dicho rendimiento
se evala en funcin de cinco parmetros bsicos, comparando los resultados que
proporciona el VAD en estudio con los que nos aportara un VAD ideal (habitualmente
un etiquetado manual). Los parmetros objetivos utilizados en la evaluacin son:

Front End Clipping (FEC): recorte generado al pasar de fragmentos


clasificados como ruido a los que han sido clasificados como voz.
Mid Speech Clipping (MSC): recortes debidos a fragmentos de voz
clasificados errneamente como ruido.
OVER: ruido contiguo a un fragmento de voz que ha sido clasificado como
voz dentro del mismo fragmento.
Noise Detected as Speech (NDS): ruido interpretado como voz en un periodo
de silencio.
Correct VAD decision: Decisiones que han sido realizadas de forma correcta.

Figura 2. Representacin de los parmetros de evaluacin de un VAD sobre una


muestra de audio de ejemplo.

32
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

Aunque con los parmetros expuestos podemos ser capaces de realizar una
evaluacin sobre cualquier VAD, no hay que olvidar que al tratarse de procesado de
voz, tambin tenemos que tener en cuenta parmetros que sean capaces de medir de
forma subjetiva la calidad de la clasificacin. En este caso, el procedimiento es ms
complejo, dado que se necesitan un nmero mnimo de auditores que determinen
aspectos clave del resultado de la clasificacin por parte del VAD. En este caso, las
medidas subjetivas que se lleven a cabo han de tener en cuenta:

Calidad.
Comprensibilidad.
Efecto de los recortes generados

Una vez obtenidos una serie de resultados atendiendo a estos parmetros, y tras haber
sido analizados un conjunto de muestras de audio procesadas con el VAD, las
calificaciones resultantes de la prueba subjetiva son analizadas y ponderadas para
obtener una estimacin global del comportamiento del VAD. Aunque los mtodos de
evaluacin objetivos son de gran utilidad en las fases iniciales de un anlisis, los
mtodos subjetivos son ms significativos. Aunque la aplicacin de los mtodos
subjetivos requiere la participacin de varias personas durante varios das evaluando las
locuciones, solo suelen ser utilizados en los procesos de estandarizacin, como pueden
ser los VADs utilizados en telefona GSM para transmisin discontina.

2.5.4. Evolucin hasta la actualidad


En la actualidad, el desarrollo de los VADs ha estado impulsado por su necesidad en
las fases previas de todo tipo de reconocedores lingsticos, sistemas de mejora de
calidad de voz, as como para los procesos de transmisin discontinua de la voz
utilizados en telefona mvil. Esta variabilidad en cuanto a los entornos de trabajo de los
VADs obliga a adaptar a cada una de estas aplicaciones los algoritmos propuestos.

Diversos tipos de algoritmos han sido propuestos desde que en 1959 los laboratorios
Bell comenzaran a publicar sus trabajos sobre Time-assignment speech interpolation
(TASI) [5], en los que aplicaban la deteccin de voz para realizar una multiplexacin en

33
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte

el tiempo del canal telefnico. La mayora de las tcnicas desarrolladas hasta ahora
hacen uso de alguno de los siguientes parmetros:

Anlisis de energa en cortos periodos de seal.


Cruces de seal por ceros.
Anlisis del tono.
Duracin de la seal.
Codificacin lineal predictiva (Lineal predictive coding, LPC)

Actualmente, estas tcnicas han sido mejoradas, aunque sirven de base para los
desarrollos ms novedosos. El uso de LPC sigue estando muy extendido, y es la base de
muchos de los algoritmos desarrollados en la actualidad. Estos nuevos desarrollos
utilizan tcnicas como

Anlisis de caractersticas cepstrum.


Aplicacin de la transformada wavelet.
Modelos estadsticos de seal.
Anlisis de los coeficientes de verosimilitud (Likelihood ratio test, LRT)

A pesar de la gran cantidad de tcnicas existentes desarrolladas para la deteccin de


voz, existen muy pocos algoritmos que hayan sido estandarizados para su uso
comercial. Un ejemplo de esta estandarizacin es la recomendacin G.729 de la Unin
Internacional de Telecomunicaciones (International Telecommunication Union, ITU),
pensada para codificacin de voz en telefona fija, en la cual, en su anexo B, se describe
el VAD utilizado que da soporte a la transmisin discontinua de la voz [6]. Dicho VAD
se encuentra desactualizado, y trabajos posteriores han tratado de mejorarlo. Otro
organismo, en este caso el Instituto Europeo de normas de Telecomunicacin
(European Telecommunications Standards Institute, ETSI), desarroll y estandariz un
detector de voz pensado para realizar transmisiones de tasa binaria variable adaptativa
sobre canales de trfico de voz (ETSI-AMR) [7]. Posteriormente, este mismo
organismo, estandariz otro VAD para ser aplicado sobre sistemas de reconocimiento
de voz distribuido (ETSI-AFE) [8].

34
Captulo 3
Diseo y Desarrollo

35
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

El principal objetivo de la reduccin de ruido es eliminar la componente de seal


ruidosa en la seal observada, y como ya se ha visto anteriormente, evitar en la medida
de lo posible la degradacin de la calidad de la seal de informacin, en nuestro caso,
una seal de voz. Como se vio en la parte terica, un proceso de filtrado puede
provocar, no solo la reduccin de ruido, sino adems la aparicin de distorsin en la
seal, una distorsin no deseada, y que degrada la calidad de las seales.

En este captulo, vamos a hacer hincapi en este aspecto, tratando de introducir


nuevas tcnicas o parmetros en la reduccin de ruido, que hagan posible reducir al
mximo la distorsin, y mantener el compromiso entre reduccin de ruido y distorsin.

En la actualidad, las tcnicas de filtrado ms comunes ya han sido optimizadas hasta


el lmite, dentro de las posibilidades de cada una de ellas. Estas tienen en comn el
funcionamiento bsico, que trata de observar la seal a filtrar, obtener una serie de
parmetros de la misma, y aplicar el filtrado segn el algoritmo. La informacin
utilizada a la hora de decidir qu tipo de filtrado se va a aplicar es generalmente siempre
la misma, por ejemplo, duracin de la seal, amplitud, frecuencias, y en los casos ms
actuales, valores de SNR.

Por tanto, para lograr mejorar estas tcnicas de filtrado, es necesario la bsqueda de
otras fuentes de informacin, que nos aporten datos para obtener mejores resultados en
la reduccin de ruido. Esta nueva informacin, se transforma en nuevos parmetros que
nos permitirn mejorar las tcnicas y los algoritmos de filtrado actuales.

En concreto, en este captulo vamos a plantear el uso y la mejora de uno de los filtros
adaptativos ms utilizados en el campo del procesamiento de imagen y sonido, el filtro
de Wiener, que como ya hemos visto en el captulo de fundamentos tericos, posee una
serie de caractersticas especiales que hace que pueda modificarse para lograr que la
adaptacin del mismo a la fuente de informacin sea mayor, logrando mejores
resultados a la hora de aplicar la reduccin de ruido.

El planteamiento que vamos a presentar consiste en realizar la adaptacin del filtro


de Wiener en funcin del contenido fontico del audio a tratar. El principal problema al
que nos enfrentamos en la reduccin de ruido es la distorsin provocada. Si logramos
establecer qu fonemas o grupos fonticos tienen una mayor robustez a esta distorsin,

36
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

podremos aplicar esta caracterstica en el filtro de Wiener. Para ello analizaremos el


comportamiento a nivel fontico de las muestras de audio tras el filtrado,
estableceremos una regla de decisin a la hora de aplicar el filtro, y comprobaremos si
los resultados de esta adaptacin mejoran cualitativa y cuantitativamente la seal.

3.1. Estructura bsica del filtro de Wiener

En el apartado introductorio de esta memoria hemos visto las ecuaciones a partir de


las cuales se deriva el filtro de Wiener para procesado de sonido, y las posibles
modificaciones/adaptaciones que pueden llegar a mejorarlo, pasando de la versin del
filtro de Wiener ptimo a la versin subptima. Si observamos con detenimiento la
ecuacin que define el filtro:

podemos comprobar que ste est compuesto por dos partes bien diferenciadas. En la
primera parte se genera una rplica de la seal original, mientras que en la segunda, lo
que se obtiene es una estimacin del ruido presente en dicha seal. De tal forma,
combinando ambas partes obtenemos una versin filtrada del audio de entrada.

Es fcil entender, que la calidad del filtrado en este caso, depender directamente de
la estimacin del ruido que se realice. Si ahora observamos la definicin del filtro
subptimo, el cual se supone una mejora sobre el filtro inicial

lo que pretende es regular por medio del factor de reduccin de ruido la cantidad de
ruido a eliminar en la seal original. Hay que tener en cuenta, que primero es necesario
haber realizado una estimacin de la cantidad de ruido presente en la seal, para
despus poder decidir que nivel de ruido vamos a eliminar.

Es por ello, que la primera fase, y una de las ms importantes, es la estimacin de la


cantidad de ruido presente en el audio. De la calidad y precisin de esta, depender el
resultado final.

37
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

3.1.1. Estimacin de ruido

A partir de una seal de voz afectada por ruido, podemos ser capaces de realizar una
estimacin de la cantidad de ruido que hay presente en dicha seal. Todos los
estimadores de ruido conocidos hasta la actualidad funcionan siguiendo una estructura
bsica:

1.- Uso de un detector de voz/no voz (VAD, voice activity detector).


2.- Estimacin del ruido a partir de los segmentos detectados como no voz por el
VAD.

Este esquema de trabajo para la estimacin de ruido, goza de mucha flexibilidad,


dado que generalmente los resultados arrojados por el VAD, se basan en un etiquetado o
segmentacin de la seal, indicando que fragmentos de la misma contienen informacin
que puede ser considerada como voz. A este modelo de clasificacin se le denomina
comnmente voz/no voz. A partir de esta segmentacin, la estimacin de ruido se
basa en medir la cantidad y caractersticas del ruido que hay presente en los fragmentos
que han sido etiquetados como no voz.

Voice Activity Medidas de Estimacin


Reduccin
Sea Ruidosa Detector segmentos de ruido Seal Filtrada
(VAD) de Ruido
no voz ponderado

Figura 3. Esquema bsico del sistema de reduccin de ruido basado en VAD.

Por tanto, podemos decir que la calidad de la estimacin de ruido, siguiendo este
patrn de trabajo, depende directamente de la robustez de la segmentacin de la voz, y
de la capacidad del VAD de detectar voz en condiciones de ruido elevado.

3.2. Posibilidades de mejora del filtro de Wiener

Segn se ha visto anteriormente, el papel del detector de actividad de voz en


cualquier sistema de procesado de seales de voz es vital para su correcto
funcionamiento, y la mejora de este, conlleva una mejora completa del sistema. Desde
este punto de vista, y teniendo en cuenta el esquema de la Figura 3, para poder mejorar

38
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

un sistema de reduccin de ruido basado en un filtro de Wiener, tenemos, entre otras,


dos opciones:

Mejorar la segmentacin que realiza el VAD.


Mejorar la estimacin de ruido presente en el audio.
Mejorar el proceso de reduccin de ruido.

En la propuesta de mejora que vamos a plantear, estos son los tres aspectos que
vamos a considerar ms importantes. Cada uno de ellos depende directamente del
anterior, por lo que es posible mejorar el rendimiento del sistema completo,
optimizando cualquiera de estos tres puntos.

El primer objetivo que nos planteamos, siguiendo el orden lgico del esquema
propuesto en la Figura 3, es lograr que la segmentacin y clasificacin de la voz
realizada por el VAD se aproxime lo mayor posible a la realidad. Para esto es, es
necesario incrementar la sensibilidad y robustez del VAD, y para ello, vamos a
proponer un cambio sustancial en el mismo: sustituirlo por un reconocedor de voz,
capaz de identificar los fragmentos de la locucin que contienen voz, y discriminar
aquellos en los que no se detecta su presencia. El objetivo de esta primera modificacin
ser por tanto, mejorar la segmentacin que realiza el VAD. Este cambio afecta de
forma directa a la fase de estimacin de ruido, haciendo que sta sea ms precisa.

El segundo punto sobre el cual vamos a basar nuestra propuesta de mejora es en el


proceso de reduccin de ruido. En esta fase, el mayor problema al que nos enfrentamos
es la distorsin de la seal de voz: cuanto ms ruido eliminamos, mayor es la distorsin
provocada. Es por ello que la mejora que vamos a proponer y con la que esperamos
mejores resultados, no se basa solamente en la cantidad de ruido a eliminar, sino
tambin en cmo se elimina ese ruido.

Nos basamos en que la distorsin no afecta de igual manera a todas las seales de
voz, ni siquiera en la misma locucin. Vamos a suponer que sta depende del contenido
fontico de la seal de voz, es decir, que determinados fonemas o grupos de fonemas
son ms sensibles a los efectos de la distorsin, mientras que otro grupo de fonemas
presentan una mayor robustez. Teniendo esto en cuenta, si podemos conseguir aplicar
distintos niveles de reduccin de ruido en funcin del contenido fontico de la seal de

39
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

voz, podremos adaptar el filtro de Wiener, y por tanto, mejorar los resultados finales del
sistema de reduccin de ruido.

A continuacin vamos a analizar en profundidad cada una de estas mejoras, y su


posible aplicacin, as como una propuesta de desarrollo de las mismas.

3.2.1. Sustitucin del VAD por un reconocedor fontico

Uno de los principales inconvenientes que presentan los VADs convencionales es su


escasa robustez al ruido y su mal funcionamiento con valores bajos de SNR. En
condiciones de ruido agresivo, el comportamiento del detector comienza a ser irregular,
perdiendo precisin, y etiquetando fragmentos de ruido como si fueran voz. Para poder
solventar este problema, necesitamos que el VAD disponga de ms informacin de la
seal de voz a partir de las caractersticas de la misma, en lugar de basarse en la medida
de los niveles medios de energa, como ocurre en los VAD bsicos.

Una solucin que vamos a plantear en este PFC es la sustitucin del VAD por un
reconocedor de voz. En este caso, el reconocedor etiqueta cada fonema pronunciado, as
como las pausas, o segmentos no reconocidos. Analizando los resultados obtenidos a
partir del reconocedor, etiquetamos cada fonema reconocido como voz, y el resto de
fragmentos como silencios. De esta forma tendramos un audio analizado y etiquetado
con sus correspondientes fragmentos de voz y no voz, de la forma que hemos descrito
anteriormente, tal como queramos.

Figura 4. Espectrograma, transcripcin, forma de onda, y segmentacin voz/no-voz


de un audio de ejemplo

Atendiendo al tipo de reconocedores que existen, vamos a plantear el uso de un


reconocedor fontico, dado que aporta gran cantidad de informacin para su procesado

40
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

posterior, y adems, permite que el sistema sea razonablemente independiente del


idioma, el principal inconveniente a la hora de utilizar un reconocedor de voz como un
detector de voz.

La informacin obtenida con el reconocedor fontico en el VAD podr ser utilizada


posteriormente, para aplicar la propuesta de mejora en la fase de reduccin de ruido que
se ha planteado en el punto anterior.

3.2.2. Efectos negativos del filtrado: la distorsin

En la definicin del filtro de Wiener que hemos realizado anteriormente, hemos


podido comprobar cmo ste, independientemente de la implementacin que utilicemos,
distorsiona la seal de voz al llevar a cabo la reduccin de ruido. Para poder cuantificar
la distorsin que se genera en la seal de voz, el parmetro denominado distorsin de
atenuacin en frecuencias (AFD, attenuation frequency distortion)

nos permite obtener un valor numrico que indica como de distorsionada est una seal
de voz que previamente ha sido filtrada. Para poder hacer uso del AFD y evaluar cmo
de agresiva es la distorsin para nuestro filtro, tendremos que hacer una serie de
consideraciones prcticas previas a su implementacin.

En primer lugar, si observamos la ecuacin (10) a partir de la cual se obtiene el valor


del AFD para un audio dado, necesitamos disponer de las seales y que
son el espectro y la densidad espectral de potencia del canal de voz limpio x(n) y las
seales y que representan el espectro y la densidad espectral de
potencia de la componente de voz de la seal filtrada. En un entorno real, realizar la
medida del AFD es tarea bastante compleja, dado que no contamos con la seal original,
y por tanto no podemos realizar la comparacin con la seal filtrada.

En un entorno de test, como es el nuestro, la solucin a ese problema es


relativamente sencilla. En este caso, la base de datos de audios con la que vamos a
realizar las pruebas cuenta con grabaciones obtenidas de forma simultnea a travs de

41
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

dos tipos distintos de micrfonos; un micrfono de habla cercana (close talking o CT) y
otro micrfono manos libres (hands free o HF). Podemos aprovechar esta concurrencia
para asumir que las grabaciones obtenidas a travs del micrfono close talking son las
seales originales y las obtenidas a travs del micrfono hands free son las seales
ruidosas, sobre las cuales ser necesario aplicar la reduccin de ruido, para
posteriormente, evaluar el factor AFD.1

La segunda consideracin a tener en cuenta antes de proceder a realizar las medidas


de los factores AFD es cmo vamos a evaluar los audios, de manera que los resultados
aporten informacin significativa a la hora de plantear mejoras. De esta manera se
plantean diversas alternativas, que aportan resultados distintos.

Aplicar el algoritmo de medida sobre la duracin completa del audio.


Segmentar el audio en fonemas, aplicando el algoritmo a cada fonema de
forma independiente.

Cada una de estas alternativas analiza las grabaciones desde un nivel de profundidad
distinto, y sus resultados han de ser interpretados de forma totalmente distinta. Veamos
qu ventajas e inconvenientes presenta cada uno de los mtodos de clculo.

La primera de las opciones nos da una idea general de cmo de distorsionado est un
audio. Este dato no es til para los objetivos que nos hemos planteado, dado que lo que
se pretende es poder estimar un patrn de comportamiento de la distorsin tras el
filtrado y poder predecirlo para contrarrestarlo en todos los audios, no exclusivamente
en uno de ellos, pero si puede ser utilizado para determinar que opcin de filtrado
funciona mejor a nivel global, comparando valores para distintos filtros.

La segunda opcin de clculo del factor de AFD profundiza an ms en el anlisis


del audio, acudiendo directamente al nivel fontico. En este caso, lo que se trata es
comparar los fragmentos del audio fonema a fonema. De esta forma, podemos crear un
diccionario fontico con los valores correspondientes de AFD y ser capaces de predecir
cmo va a ser la distorsin de la seal de voz tras el filtrado. A simple vista, podra

1
Hay que destacar que esta consideracin solo la tendremos en cuenta para el clculo del AFD, dado
que se trata de una medida comparativa. En las pruebas de filtrado, se considera que todos los audios
han sido perturbados en mayor o menor medida por el ruido aditivo, independientemente de que se
traten de grabaciones simultneas.

42
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

parecer que este mtodo no es independiente del idioma, ya que idiomas distintos
presentan un conjunto de fonemas distinto, pero comparten una serie de caractersticas a
nivel fonolgico que es posible explotar para lograr que esta forma de comparar los
audios sea razonablemente independiente del idioma, y que posteriormente
procederemos a estudiar.

3.3 Estudio de la distorsin a nivel fontico

De todas las opciones que hemos planteado anteriormente para analizar los efectos
de distorsin que introduce el filtrado, el estudio del AFD a nivel fontico es el que ms
ventajas nos aporta, dado que ser a partir de este anlisis desde donde podremos
comprobar, segn nuestra hiptesis inicial, que el valor del AFD es distinto para cada
fonema o grupo fontico, y adems detectar que fonemas o grupos de fonemas
presentan mayor sensibilidad a la distorsin. Aparte de esto hay que tener en cuenta que
este mtodo es ms flexible en cuanto al idioma, dadas las similitudes existentes a nivel
fontico entre distintos idiomas.

Para poder calcular el AFD a nivel fontico dentro del sistema de reduccin de ruido
que hemos planteado, lo primero que tenemos que hacer es definir el diccionario de
fonemas sobre el cual vamos a trabajar. Para poder definirlo de forma correcta y
ajustada, tenemos que tener en cuenta dos aspectos muy importantes:

El idioma de las locuciones de origen.


El idioma del reconocedor fontico utilizado.

En este caso, como veremos posteriormente donde se describe el entorno


experimental de este PFC, tenemos que el idioma de las locuciones de origen es el
japons y el idioma del reconocedor fontico es el hngaro. Lograr una compatibilidad
entre ambos idiomas a la hora de calcular el AFD no sera posible sin la segmentacin a
nivel fontico que hemos planteado, y la agrupacin de los distintos fonemas en clases
amplias fonticas, dado que a ese nivel, las diferencias entre idiomas diferentes son
mnimas.

Para poder equiparar a nivel fontico ambos idiomas, vamos a utilizar el alfabeto
fontico internacional, que define de forma independiente al idioma, todos los fonemas

43
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

existentes que se utilizan en la comunicacin oral. De esta manera, y utilizando un nico


alfabeto, podremos comparar el hngaro y el japons de forma bidireccional.

3.3.1. El Alfabeto Fontico Internacional

El Alfabeto Fontico Internacional (o International Phonetic Alphabet, IPA) es una


herramienta creada por la International Phonetic Association (IPA) [9] para promover el
estudio de la ciencia fontica y su uso como apoyo a otras ciencias. Su objetivo es
representar de forma consistente los distintos sonidos que componen el lenguaje
hablado, de forma escrita. Con este alfabeto somos capaces de representar la
pronunciacin de cualquier palabra, y de cualquier idioma.

Tabla 1. Tabla fontica del Alfabeto Fontico Internacional, indicando el modo de


articulacin y el punto de articulacin de cada fonema de carcter consonntico.

Tabla 2. Tabla fontica del Alfabeto Fontico Internacional con los sonidos
consonnticos no pulmonares.

44
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Figura 5. Diagrama del punto de articulacin de los sonidos voclicos definidos por
el IPA.

La clasificacin que establece la IPA en este alfabeto, ordena los distintos fonemas
segn el modo de articulacin y el punto de articulacin de dicho sonido en el tracto
vocal humano. Asimismo, los distintos sonidos existentes se clasifican en funcin de su
naturaleza consonntica o voclica.

Los fonemas consonnticos

En la articulacin de los sonidos consonnticos siempre hay un obstculo ms o


menos grande que impide salir el aire desde los pulmones al exterior. Segn las
circunstancias que rodean esta salida del aire, existen ciertos factores que debemos tener
en cuenta a la hora de clasificarlos:

Zona o punto de articulacin. Es el lugar donde toman contacto los rganos que
intervienen en la produccin del sonido. Por ejemplo, si para producir un sonido
entran en contacto los dos labios, se crearn sonidos bilabiales como es el caso
de las realizaciones de los fonemas /p/, /b/ y /m/.

Modo de articulacin. Es la postura que adoptan los rganos que producen los
sonidos. Por ejemplo, si los rganos cierran total y momentneamente la salida
del aire, los sonidos sern plosivos. Ese es el caso de los sonidos /p/, /t/ y /k/.

45
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Dentro de los fonemas consonnticos, existen dos clases distintas de sonidos, los
denominados pulmonares y los no pulmonares. En el caso de las consonantes
pulmonares, se utilizan los pulmones para impulsar el aire hacia el exterior. En el caso
de las no pulmonares, el aire es impulsado desde la glotis, o son simples chasquidos. En
la mayora de los idiomas, solo se utilizan las consonantes pulmonares, siendo el
japons y el hngaro ejemplos de ello.

Los fonemas voclicos

Cuando articulamos los sonidos voclicos, el aire no encuentra obstculos en su


salida desde los pulmones al exterior. Para clasificar estos fonemas, tendremos en
cuenta los siguientes factores:

La localizacin (punto de articulacin). Se refiere a la parte de la boca donde se


articulan. Pueden ser anteriores (/e/, /i/), medio o central (/a/) o posteriores (/o/,
/u/).

La abertura (modo de articulacin). Se refiere a la abertura de la boca al


pronunciarlos. Pueden ser de abertura mxima o abierto (/a/), de abertura media
o semiabiertos (/e/, /o/) y de abertura mnima o cerrados (i, u).

3.3.2. Agrupacin de los fonemas en clases amplias fonticas

Como hemos comentado anteriormente, para poder realizar una comparacin entre
distintos idiomas a nivel fontico, es necesario que definamos las clases amplias
fonticas. Esta agrupacin de fonemas se basa en la clasificacin de los mismos segn
el modo de articulacin, en el caso de los sonidos consonnticos. Los sonidos voclicos,
dada su gran diversidad, se han agrupado en una sola clase fontica.

Atendiendo a esta forma de agrupar los fonemas, se definen las siguientes clases
fonticas [10]:

Consonantes Oclusivas
El flujo de aire es retenido firmemente por los rganos del habla, hasta que este es
liberado, generando de esta forma el sonido deseado. Ejemplos de estos fonemas en
el castellano son [p] [t] [k]

46
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Consonantes fricativas
El aire ha de atravesar una estrecha obertura formada por los rganos del habla,
generando el sonido gracias a la friccin que se produce en el tracto vocal.
Ejemplos de estos sonidos pueden ser [f] o [s].

Consonantes africadas
Es una combinacin de una consonante oclusiva, seguida de una consonante
fricativa. Para ello, el aire es retenido por los rganos vocales, para ser liberado
posteriormente de forma paulatina. En castellano, un sonido africado se produce
con el fonema [t], utilizado en chubasquero.

Consonantes Aproximantes
En este caso, el sonido es producido por la aproximacin de los rganos vocales sin
llegar a cerrarse (como en el caso de las oclusivas) y sin la existencia de friccin
area (como en las consonantes fricativas). Se encuentran muy relacionadas con los
sonidos voclicos, sin llegar a ser considerados como tal. Un ejemplo de estos
fonemas es [j] utilizado en familia o chirimoya.

Consonantes Aproximantes Laterales


Estas consonantes son un subgrupo de las aproximantes. Se consideran
aproximantes laterales aquellos sonidos que son formados por la aproximacin de
la lengua y el paladar superior o los dientes. Un fonema aproximante lateral es [l].

Consonantes nasales
Este tipo de sonido es generado cuando el flujo de aire, incapaz de atravesar los
orificios orales, es desviado hacia la cavidad nasal, generando ese sonido tan
caracterstico. Ejemplo de consonantes nasales son [m] o [n].

Consonantes vibrantes
Son sonidos generados gracias cuando uno de los rganos vocales golpea de forma
rpida y repetitiva sobre el otro, mientras el flujo de aire atraviesa la cavidad. Un
ejemplo de estos es el fonema [r].

47
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

3.3.3. Correspondencia IPA-SAMPA

El reconocedor hngaro que vamos a utilizar [11] para segmentar los audios dispone
de un diccionario de fonemas, que engloba todos aquellos sonidos que ste va a ser
capaz de reconocer. Dichos fonemas estn expresados en el alfabeto SAMPA [12]
(Speech Assessment Methods Phonetic Alphabet), el ms utilizado en procesamiento
fontico por ser totalmente legible por un ordenador.

Grupo Fontico Fonema


Vocal A: E e: i i: O o o: u u: y y: :2 _2
Oclusiva b b: d d_ d_: g k k: p t t: t1 t1:
Fricativa f h h1 S S: s s: v x Z z z:
Africada dz tS tS_ ts ts_
Nasal F J J: m m: N n n:
Aproximante j j:
Aproximante lateral l l:

Tabla 3. Diccionario de fonemas reconocibles por el reconocedor hngaro Phnrec.

La tabla de fonemas reconocibles equivalente al IPA la podemos obtener hallando la


correlacin de cada uno de los fonemas en los dos estndares SAMPA que se utilizan en
la actualidad (SAMPA y X-SAMPA). En este caso, se ha utilizado el traductor del
Laboratorio de Fontica Experimental Arturo Genre de la Universidad de Turn
conjuntamente con el IPA de la edicin del ao 2005 [13]

En verde SAMPA, en negro IPA

Figura 6. Diagrama de correspondencia de sonidos voclicos entre el diccionario de


Phnrec e IPA. En verde los fonemas de Phnrec.

48
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Oclusivas Fricativas Nasales


SAMPA IPA SAMPA IPA SAMPA IPA

b b: [b] [b] f [f] F

d d_ d_: [d] [d] [d] h h1 [h] [h] J J:

g [g] S S: s s: [] [] [s] [s] m m: m m

k k: [k] [k] v [v] N

P [p] x [x] n n: n n

t t: t1 t1: [t] [t] [t] [t] Z z z: [] [z] [z]

Africadas
SAMPA IPA

Aproximantes lateral Aproximantes dz dz

SAMPA IPA SAMPA IPA tS tS_ [t] t]


l l: l l j j: j j ts ts_ [ts] [ts]

Tabla 4. Tablas de correspondencia de sonidos consonnticos entre el diccionario


de Phnrec e IPA.

3.4. Aplicacin del condicionamiento fontico

Una vez que tenemos definido como vamos a agrupar los distintos fonemas en lo que
hemos denominado clases amplias fonticas, estamos en disposicin de poder estudiar
cmo afecta la distorsin generada por el filtro de Wiener sobre estos grupos de
fonemas. Conocer qu grupos se ven ms afectados por la distorsin generada en la
etapa de filtrado, es una ventaja a la hora de contrarrestar estos efectos sobre los audios
que pretendemos tratar, que es el objetivo que estamos persiguiendo.

3.4.1. Clculo de AFD a nivel de clase amplia fontica

Partiendo de la ecuacin de clculo del AFD, y teniendo en cuenta las


consideraciones prcticas para su aplicacin indicadas en el punto 3.3.2., la obtencin
de los valores del AFD a nivel fontico se resume en implementar dicho algoritmo y
aplicarlo sobre el conjunto de locuciones de CENSREC-2 que presentan simultaneidad,

49
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

es decir, locuciones grabadas en el mismo instante, pero obtenidas con distintos


micrfonos.

CT

Procesado por
Clculo de AFD a
clases amplias
nivel fontico
fonticas

Filtro de
HF
Wiener

Figura 7. Obtencin del AFD de las distintas clases amplias fonticas a partir de los
conjutnos de locuciones CT y HF.

Para la implementacin del algoritmo y su aplicacin, se ha desarrollado un conjunto


de scripts en Matlab que permite el fcil procesado de los resultados que se obtengan.

Grupo fontico AFD (Media) Desviacin estndar


Vocal 1.115 0.265
Oclusiva 12.691 19.052
Fricativa 1.968 1.007
Africada 4.482 0.684
Nasal 1.339 0.244
Aproximante 1.106 0.152
Aproximante Lateral 1.437 0.223

Tabla 5. Valor medio obtenido del AFD y su correspondiente desviacin estndar


para cada clase fontica.

Con los resultados de la tabla 5 obtenidos tras el clculo de los valores del AFD, se
confirma que las distintas clases fonticas que se han definido presentan un
comportamiento distinto frente al filtrado de Wiener, tal y como supusimos al principio.
A partir de aqu adaptar estos resultados al modelo de filtrado de Wiener subptimo
definido en el estado del arte es muy sencillo, dado que en su definicin ya se incluye
un factor de ponderacin de la cantidad de ruido que se pretende eliminar.

50
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

En el caso del filtro de Wiener definido en el dominio temporal, se introduce el


factor , que pondera la cantidad de ruido a eliminar. Para el caso que nos ocupa, la
relacin entre y el AFD, es inversamente proporcional, esto es, cuanto mayor sea el
AFD de un fragmento de la grabacin, menos deber ser la cantidad de ruido a eliminar,
y por tanto, menor deber ser el valor de .

3.5. Entorno Experimental

3.5.1. Implementacin del filtro de Wiener utilizada

Como ya se ha dicho anteriormente, para llevar a cabo la reduccin de ruido se ha


utilizado una implementacin del filtro de Wiener. Dado que el objetivo del proyecto no
es el desarrollo de software propio, sino la mejora de los ya existentes, hemos optado
por elegir una implementacin que trabaja con el filtro de Wiener en su versin definida
en frecuencia.
Dicha implementacin forma parte de Qualcomm-ICSI-OGI front-end feature
extraction desarrollado en 2002 y propuesto para la evaluacin WI008 [14]. En este se
hace uso de un filtrado de Wiener previo al procesado de la seal para eliminar el ruido
aditivo presente en la misma. Dicho filtro est definido en el dominio de la frecuencia y
tiene la forma:

(73)

Esta definicin del filtro coincide con la que ya se vio anteriormente (71), que se
corresponde con la forma generalizada del filtro de Wiener paramtrico. En esta forma
de definir el filtro existen tres parmetros. El primero de ellos, es el factor de
sobreestimacin de ruido, y se utiliza para corregir la cantidad de ruido a eliminar. El
valor de depende del valor de la SNR local de la ventana donde nos encontremos,
eliminando ms ruido para valores de SNR bajos y viceversa. Este factor de
sobreestimacin se obtiene a partir de:

51
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

(74)

donde

(75)

Este factor de sobreestimacin de ruido, tal y como est definido anteriormente, est
comprendido entre los valores [1.25, 3.125] dado que la SNR mxima que se considera
es de 20dB y la mnima de 0dB, como se puede ver en la figura 8. El segundo parmetro
que aparece en la definicin del filtro, , sirve para definir un valor mnimo en la
funcin de transferencia del filtro, evitando as valores negativos o demasiado bajos. El
ltimo parmetro del filtro, , se utiliza para controlar el comportamiento del filtro, es
decir, para el filtro aplica substraccin espectral, para se aplica filtrado de
Wiener, pudiendo usarse otros valores, aparte de los ya mencionados.

Figura 8. Valor del factor de sobreestimacin de ruido en funcin de la SNR


calculada para QIO.

52
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Valores recomendados de los parmetros

El grupo de desarrollo del filtro pudo comprobar a travs de los experimentos


realizados con la base de datos Aurora Speech-Dat Car, que los valores que se muestran
a continuacin son los ms recomendados para obtener los mejores resultados, con la
opcin del filtro propuesto.

3.5.2. Base de datos sonora utilizada

Para poder evaluar la tcnica de reduccin de ruido planteada en este PFC, es


necesaria la realizacin de diversos experimentos utilizando para ello grabaciones de
voz. Para verificar el correcto funcionamiento y aplicacin de la tcnica, dichas
grabaciones han de cumplir con una serie de requisitos. En nuestro caso, necesitamos un
entorno acstico agresivo, en condiciones de ruido variable, donde la reduccin de ruido
sea una herramienta necesaria que ayude a la comprensin de los audios o bien por parte
de un odo humano o bien por parte de un sistema reconocedor de voz. En esta misma
lnea de trabajo se han desarrollado diversos corpus orientados al procesamiento de voz
en condiciones acsticas ruidosas, incluyendo en ellos los mecanismos de evaluacin,
que permitan identificar las mejoras realizadas.

La base de datos que hemos utilizado y que cumple con las condiciones planteadas es
CENSREC-2. Dicho corpus ha sido desarrollado por el IPSJ-SIG SLP Noisy Speech
Recognition Evaluation Working Group y est pensado para el reconocimiento de voz
de dgitos en condiciones de conduccin real, utilizando el japons. Consta de un total
de 17.651 locuciones, grabadas por 104 personas, 52 mujeres y 52 hombres [15].

Disposicin de micrfonos

Las locuciones grabadas para CENSREC-2 fueron tomadas usando dos tipos de
micrfonos distintos, uno de ellos de habla cercana (close talking, CT) y el otro de
manos libres (hands free, HF). El micrfono HF fue colocado en la zona del techo

53
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

correspondiente al conductor, mientras que el micrfono CT se dispuso lo ms cerca


posible a la boca del conductor.

Figura 9. Ubicacin de los micrfonos en el interior del vehculo.

El modelo y marca de los micrfonos utilizados fue en ambos casos la misma, para
uniformizar los resultados de la obtencin de los datos. En este caso se utilizaron
micrfonos Sony ECM77B, uno de ellos (CT), montado sobre unos auriculares para el
conductor del coche.

Vocabulario utilizado

El vocabulario de CENSREC-2, como base de datos de dgitos, consta de once


modelos de dgitos distintos, correspondientes a los diez primeros nmeros, incluyendo
dos pronunciaciones para el cero. Adems, fueron definidos un silencio (sil) y una
pausa corta (sp). La secuencia de dgitos utilizada en las grabaciones es la misma que
la utilizada en la AURORA-2J (versin en japons de AURORA-2).

Nmero 1 2 3 4 5 6 7 8 9 0
Pronunciacin Ichi Ri San Yon Go Roku Nana Hachi Kyu Zero

Tabla 6. Lista de dgitos y pronunciacin utilizados en CENSREC-2.

Condiciones de grabacin

Se utilizaron once condiciones de grabacin distintas, como resultado de combinar


tres velocidades de movimiento del vehculo (idling, low-speed y high-speed),

54
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

representando cada uno de los entornos en los que un coche se puede desplazar, y cuatro
tipos de condiciones acsticas en el interior del coche (normal, aire acondicionado
encendido, reproductor de CDs encendido y ventanas abiertas).

Velocidad de Coche Condiciones interiores


Parado (ralent) Normal, Aire acondicionado, Reproductor CD, Ventana abierta

Baja Velocidad Normal, Aire acondicionado, Reproductor CD, Ventana abierta

Alta Velocidad Normal, Aire acondicionado

Tabla 7. Combinacin de velocidades y condiciones acsticas en el vehculo.

Protocolo de evaluacin de resultados

Para poder evaluar el procesamiento aplicado sobre los audios de la base de datos,
los desarrolladores de la base de datos han definido un protocolo de evaluacin, basado
en el reconocimiento de voz de las locuciones, que previamente han sido etiquetadas
con la transcripcin de su contenido.

Dicha evaluacin consta de cuatro condiciones acsticas, que se forman a partir de


las combinaciones entre velocidad y condiciones internas del vehculo para las distintas
fases del reconocimiento, que comprenden un entrenamiento del reconocedor (train) y
la prueba de reconocimiento (test). Las caractersticas de cada condicin de train y test
son las siguientes:

Condicin 1: Las grabaciones usadas para el entrenamiento y el test se


tomaron con el mismo micrfono en las mismas condiciones acsticas.
Condicin 2: Las grabaciones usadas para el entrenamiento y test se tomaron
utilizando el mismo micrfono en distintas condiciones acsticas.
Condicin 3: Las grabaciones usadas para el entrenamiento y test se tomaron
utilizando distintos micrfonos en mismas condiciones acsticas.
Condicin 4: Las grabaciones usadas para el entrenamiento y test se tomaron
utilizando distintos micrfonos en distintas condiciones acsticas.

55
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Condicin Cond. 1 Cond. 2 Cond. 3 Cond. 4


Micrfono CT HF CT HF CT HF CT HF
Parado (ralent) - - - -
Baja velocidad - -- - --
Alta velocidad - -- - --

Tabla 8. Datos entrenamiento para cada condicin de evaluacin.

Condicin Cond. 1 Cond. 2 Cond. 3 Cond. 4


Parado (ralent) - - -
Baja velocidad
Alta velocidad

Tabla 9. Datos test para cada condicin de evaluacin.

Software utilizado

El protocolo de evaluacin de resultados que acabamos de explicar se aplica


haciendo uso de un reconocedor de voz. En el caso que nos ocupa, el reconocedor
utilizado, y recomendado por los creadores de la base de datos es HTK (Hidden Markov
Model Toolkit) [16], un software de investigacin en reconocimiento de voz de uso libre
y que goza de gran reputacin en el procesamiento de seales de voz. Este grupo de
herramientas puede reconocer el contenido de una locucin, basando su criterio de
decisin en un conjunto de parmetros extrados del audio, a partir de los cuales, es
capaz de realizar una transcripcin del audio analizado.

Figura 10. Funcionamiento general de HTK


56
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Para poder llevar a cabo este reconocimiento, es necesario que el paquete de


herramientas haya sido entrenado previamente con un conjunto de muestras de audio
que representen todos los fragmentos reconocibles de una locucin, es decir, que sea
capaz de completar todo el diccionario de elementos que van a ser reconocidos
posteriormente. Esta fase es conocida como Training, y es la encargada de crear los
modelos (HMMs o Hidden Markov Models) que van a ser la base para el posterior
reconocimiento. En la fase de entrenamiento, son necesarios dos elementos
indispensables, las muestras de audio de ejemplo y la transcripcin del contenido de
estas muestras. A travs de la combinacin de ambas, se realizarn los HMMs que
relacionan una serie de parmetros de la voz con un elemento reconocible (en nuestro
caso, nmeros).

Los ficheros de configuracin para realizar el reconocimiento estn disponibles junto


con las locuciones de CENSREC-2, pudiendo ser modificados en funcin de los
parmetros que se quieran establecer para el entrenamiento y test. En el caso de utilizar
la configuracin recomendada, el reconocimiento es llevado a cabo con las siguientes
caractersticas:

El reconocimiento de voz se lleva a cabo haciendo uso de los HMMs (Hidden


Markov Model) generados en la fase de entrenamiento. Son modelos estadsticos
basados en procesos de Markov.
Cada modelo HMM de cada dgito est compuesto de 18 estados con 16
distribuciones de salida, el silencio sil tiene cinco estados con tres salidas, y la
pausa sp tiene tres estados con una salida.
Para la extraccin de caractersticas se han utilizado 12 MFCCs (Mel-frequency
cepstral coefficients), coeficientes basados en el modelo de percepcin auditiva
humana, y coeficientes log-energia. Con ventana de Hamming de 20ms, con
50% de superposicin. Tambin se utilizan los coeficientes de velocidad (Delta)
y aceleracin (Delta-Delta) de dichos coeficientes.

57
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

Figura 11. Esquema bsico de reconocimiento de HTK

Para poder verificar que la configuracin utilizada es correcta, junto con la base de
datos se incluyen los resultados de referencia del proceso de reconocimiento.

CENSREC-2 Resultados de referencia (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,58 74,49 61,46 48,87 66,35

Tabla 10. Resultados de referencia proporcionados por CENSREC-2.

En la Tabla 10 estn representados los resultados de referencia del reconocimiento


de la base de datos original. En ella, los datos que se reflejan indican el porcentaje de
palabras reconocidas con xito en cada una de las condiciones definidas en el protocolo
de evaluacin.

Para comprobar la calibracin de nuestro sistema de reconocimiento y la


configuracin, hemos realizado la misma prueba con las muestras de sonido originales,
y comparar as nuestros resultados con los aportados por la base de datos.

58
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

CENSREC-2 Resultados obtenidos (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,64 74,57 61,53 49,05 66,45

Tabla 11. Resultados obtenidos en el reconocimiento de las muestras originales de la


base de datos.

Como se puede observar en la Tabla 11, los resultados obtenidos en nuestro caso son
muy similares a los de referencia, por lo que podemos considerar que la configuracin
del reconocimiento es correcta e igual a la recomendada.

3.5.3. Reconocedor de voz empleado como VAD

Para poder probar la efectividad de las modificaciones y mejoras planteadas


anteriormente sobre el sistema inicial, es necesario el uso de un reconocedor de voz que
sustituya al detector de actividad de voz. Con este propsito hemos hecho uso de un
reconocedor fontico desarrollado por el Speech Processing Group, perteneciente a la
Universidad tecnolgica de Brno, en la Republica Checa. Dicho reconocedor est
pensado para trabajar con varios idiomas, como son el checo, hngaro, ruso e ingls
[11].

Este reconocedor representa un gran potencial, ya que segn los mismos autores y
desarrolladores, est siendo utilizado en multitud de aplicaciones, tales como:

Reconocimiento de idioma.
Reconocimiento de voz de amplio vocabulario.
Bsqueda de palabras clave.
Deteccin de la actividad de voz.

En el rea que nos interesa, la deteccin de actividad de voz, el reconocedor ya ha


sido utilizado para la fase de pre procesado en las evaluaciones del NIST, obteniendo
buenos resultados.

Para nuestra implementacin, el idioma escogido para el reconocimiento es el


hngaro, dado que es el que presenta un diccionario fontico ms amplio, lo que nos

59
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo

facilita la tarea de hacer el sistema independiente al idioma, es decir, cuantos ms


fonemas seamos capaces de reconocer, mayor capacidad de adaptacin a un idioma
distinto presenta. En el caso del hngaro, su diccionario dispone de 56 fonemas
distintos. En la tabla 12 se encuentran todos los fonemas del diccionario, clasificados en
funcin de su modo de articulacin y expresados en formato SAMPA (Speech
Assessment Methods Phonetic Alphabet), definiendo de esta manera las clases amplias
fonticas que vamos a utilizar de aqu en adelante.

Grupo Fontico Fonema


Vocal A: E e: i i: O o o: u u: y y: :2 _2
Oclusiva b b: d d_ d_: g k k: p t t: t1 t1:
Fricativa f h h1 S S: s s: v x Z z z:
Africada dz tS tS_ ts ts_
Nasal F J J: m m: N n n:
Aproximante j j:
Lateral l l:

Tabla 12. Conjunto de fonemas del diccionario del reconocedor para el hngaro. Los
fonemas estn presentados en formato SAMPA, para uso con computadores.

Motivos de la seleccin

Para el hngaro, el reconocedor ha sido entrenado previamente con la base de datos


SpeechDat hngara, formada por locuciones obtenidas a travs de la red telefnica, lo
que favorece su portabilidad, dado que no es necesario realizar este entrenamiento y su
integracin en nuestro sistema es bastante sencillo. Adems, el hecho de que sea un
reconocedor fontico, nos permite utilizar la informacin de los fonemas reconocidos
para condicionar la reduccin de ruido, tal y como se explic anteriormente.

Su facilidad en el manejo, la sencilla integracin en nuestro sistema, y la aportacin


de la informacin del reconocimiento para su uso en la reduccin de ruido, hacen que
este reconocedor sea ideal, y nos permite la posibilidad de evaluar la independencia del
sistema frente al idioma, poniendo en liza a dos idiomas tan dispares, como son el
hngaro y el japons. Cabe destacar que el cdigo fuente del reconocedor se encuentra
disponible en la pgina web del grupo de desarrollo de la Universidad Tecnolgica de
Brno, y que adems, este tiene licencia de software libre para su uso acadmico y de
investigacin.

60
Captulo 4
Pruebas y
Resultados
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

En este captulo vamos a presentar los distintos experimentos desarrollados a lo


largo de este PFC. El objetivo es mostrar los resultados obtenidos en las distintas
condiciones de filtrado, para evaluar as si los cambios introducidos mejoran el
comportamiento del mtodo de filtrado, o al contrario, lo empeoran.

En general, los resultados que van a ser analizados tras la realizacin de la reduccin
de ruido, son las evaluaciones SNR y la evaluacin final por medio del reconocedor de
voz HTK, con el cual obtendremos los porcentajes de las locuciones que han sido
reconocidas con xito. Todos estos valores son evaluados antes y despus del filtrado,
lo que nos ser de gran utilidad para poder comparar ambos resultados.

4.1. Pruebas Iniciales

Este primer experimento tiene como objetivo principal probar la integracin de los
principales componentes del sistema de reduccin de ruido que hemos planteado, y
comprobar as su funcionalidad. Asimismo, los resultados que arroje nos servirn de
referencia para poder establecer los posibles puntos de mejora.

En esta primera prueba, se ha utilizado la implementacin del filtro de Wiener QIO,


junto con el VAD que viene incluido en el conjunto de herramientas del filtro, con la
misma configuracin que recomiendan los desarrolladores. Asimismo, se han
considerado todas las locuciones presentes en la base de datos CENSREC-2 (tanto
locuciones de test como de train), puesto que el objetivo no es comparar los resultados
de la reduccin de ruido en distintas condiciones acsticas.

Experimento I
Tipo de filtro Wiener subptimo QIO
VAD utilizado QIO
Conjunto de locuciones CENSREC-2 completo

Tabla 13. Resumen del experimento I

4.1.1. Evaluacin de la SNR

La evaluacin de la SNR (Signal to Noise Ratio) nos permite calcular la cantidad


de ruido que ha sido eliminado en la locucin a tratar. En este caso, el valor obtenido

62
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

por si solo carece de valor experimental si no lo comparamos con otro, por lo que
siempre vendr acompaado de los valores de SNR de referencia, que no son otros que
la SNR de las locuciones originales, es decir, sin filtrar.

En la siguiente grfica estn representados los distintos valores de SNR para cada
una de las locuciones. En el eje de ordenadas estn indicados los valores de SNR de la
locucin antes de pasar por la etapa de reduccin de ruido ( ), mientras que el eje
de abscisas representa los valores de SNR de la misma locucin despus de haber sido
aplicado el filtrado de Wiener ( ). Sobre la misma grfica se ha representado la
recta que delimita que locuciones presentan un mayor valor de con
respecto a o viceversa.

De esta forma, se puede comprobar el resultado global del filtrado, observando que
locuciones caen por encima o por debajo de la recta , y por tanto, que
locuciones han logrado mejorar o empeorar su SNR.

Figura 12. Comparacin de y del experimento I.

63
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Tal y como vemos en el grfico superior, la gran mayora de las grabaciones


presentan mayor SNR tras la reduccin de ruido aplicada. Este hecho era de esperar,
puesto que la definicin del filtro de Wiener subptimo indica que este siempre es capaz
de mejorar la SNR de la seal sobre la que se aplique.

El siguiente histograma ilustra este aspecto. En l, se representa el nivel diferencial


de SNR ( ) para todas las muestras filtradas. Una vez ms, se comprueba
que la mayora de las locuciones han mejorado su nivel de SNR tras el filtrado, siendo
apenas un grupo reducido de ellas las que han empeorado, y las que lo han hecho,
apenas han perdido unos decibelios.

Figura 13. Histograma de SNR diferencial entre y del


experimento I

En la siguiente tabla se reflejan a modo de resumen, los datos estadsticos de la


evaluacin SNR realizada.

Valor Medio
12.9545 dB 10.0024 dB
21.9893 dB 11.4116 dB
9.0348
Parmetros estadsticos deldB 4.3076
experimento I dB

Tabla 13. Parmetros estadsticos de la evaluacin SNR

4.1.2. Evaluacin con HTK

Como ya se ha visto en el apartado de entorno experimental, HTK es un potente


conjunto de herramientas pensado para el ASR (Automatic Speech Recognition) el cual

64
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

es capaz de, a partir de una serie de muestras de ejemplo para el entrenamiento del
sistema, reconocer el contenido de una locucin dada. Adems de eso, las herramientas
de anlisis de los resultados obtenidos tras el reconocimiento nos permite calcular que
porcentaje de xito (y por tanto tambin de error) ha cometido el reconocedor con las
locuciones. En nuestro caso, todas las locuciones de la base datos CENSREC-2 estan
transcritas para facilitar esta tarea de anlisis. As es posible calcular cmo de bueno ha
sido el reconocimiento, y por tanto, cmo de bueno ha sido el filtrado.

Al contrario que con la evaluacin de la SNR, la evaluacin HTK de las muestras


filtradas se centra sobre el contenido de las mismas, es decir, podemos medir la calidad
de las locuciones y su inteligibilidad, y comprobar si la reduccin de ruido ha logrado
mejorar la calidad de los audios, o por el contrario ha distorsionado la seal de voz
contenida en el mismo.

Para establecer el criterio de mejora de la calidad de las locuciones filtradas,


vamos a comparar directamente el porcentaje de aciertos del reconocedor antes y
despus del filtrado. En la siguiente tabla, podemos comprobar cuales han sido los
resultados del reconocimiento para el experimento que nos ocupa. En primer lugar se
muestran los resultados de reconocimiento bsicos del conjunto de locuciones de la base
de datos, a modo de referencia, indicando el porcentaje de locuciones reconocidas con
xito. En segundo lugar se representan los resultados arrojados por el experimento, y
posteriormente, el porcentaje de mejora para cada una de las condiciones de evalucin,
definidas con anterioridad.

Datos CENSREC-2 (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,58 74,49 61,46 48,87 66,35
Resultados Experimento I (%)
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,64 75,26 60,02 49,23 66,29
Mejora
Condicin 1 Resultados2de reconocimiento
Condicin Condicin 3 del Condicin
experimento4 I Media
0,31 % 3,02 % -3,74 % 0,70 % -0,19 %

Tabla 14. Resultados (porcentaje de aciertos (Word accuracy)) de reconocimiento


con HTK del experimento I.
65
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Para este caso concreto, los resultados del reconocimiento nos muestran como la
calidad/inteligibilidad de las locuciones ha mejorado en algunos casos, pero por lo
general, los resultados obtenidos no siempre mejoran, si tenemos en cuenta los valores
de SNR mostrados anteriormente, y que las muestras reconocidas han sido filtradas
previamente.

4.2. Sustitucin del VAD

El segundo experimento que vamos a realizar tiene un cambio sustancial con


respecto al anterior. En este caso, queremos comprobar la funcionalidad de un VAD
basado en energa, y por ello hemos sustituido el propio detector de voz del paquete de
herramientas de Qio, por otro mucho ms sencillo.

El detector de actividad de voz que proponemos en este caso clasifica los fragmentos
de la locucin en funcin de su nivel de energa. El funcionamiento de este VAD se
puede resumir en los siguientes pasos:

1. Se enventana la seal para poder trabajar con pequeas porciones de la misma.


2. Se calculan los niveles de energa de cada ventana.
3. Se obtienen los niveles mximos y mnimos de toda la secuencia de audio y en
funcin de estos, el margen dinmico resultante.
4. Se clasifican las ventanas como voz/no voz en funcin de un determinado
umbral dependiente del margen dinmico obtenido anteriormente.
5. Se eliminan los silencios demasiado cortos y los picos de ruido por vecindad.

De esta forma, en funcin de los niveles de energa de la seal, se discrimina entre


fragmentos de voz y fragmentos de no voz.

Experimento II
Tipo de filtro Wiener subptimo QIO
VAD utilizado Basado en energa
Conjunto de locuciones CENSREC-2 completo

Tabla 15. Tabla resumen del experimento II

66
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

4.2.1. Evaluacin de la SNR

Al igual que en el experimento anterior, se ha realizado en anlisis de los niveles de


SNR antes y despus del filtrado, para poder comprobar si la condicin de filtrado
subptimo se sigue cumpliendo. En la siguiente figura, estn representados los valores
de frente a los valores de , junto con la recta de referencia .

Figura 14. Comparacin de y del experimento II

Como en el caso anterior, el histograma de los valores de la SNR diferencial nos da


una idea del comportamiento del filtro en cuanto a SNR. En este caso, los valores se
encuentran mucho ms localizados en torno a los 10 dB de subida de la SNR, hecho que
se puede comprobar en la grafica anterior de forma visual.

67
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Figura 15. Histograma de SNR diferencial entre y del


experimento II

En la siguiente tabla se reflejan a modo de resumen, los datos estadsticos de la


evaluacin SNR realizada.

Valor Medio
12.9545 dB 10.0024 dB
21.6104 dB 12.5637 dB
8.6545 dB 4.6154 dB

Tabla 16. Parmetros estadsticos de la evaluacin SNR

4.2.2. Evaluacin con HTK

En la siguiente tabla se encuentran reflejados los resultados del reconocimiento a


travs de HTK para este experimento.

Datos CENSREC-2 (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,58 74,49 61,46 48,87 66,35
Resultados Experimento I (%)
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
85,42 78,14 57,70 45,78 66,76
Mejora
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
24,92 % 14,31 % -9,76 % -6,04 % 1,22 %

Tabla 17. Resultados de reconocimiento con HTK del experimento II.


68
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

El efecto del cambio de detector de actividad de voz es notable en este caso. Para las
condiciones 1 y 2, la mejora de la calidad del audio es notable, mientras que para las
condiciones 3 y 4 los resultados son bastante pobres. Esta diferencia tan acusada en este
aspecto est directamente relacionada con el VAD basado en energa. Para las
condiciones 1 y 2 los micrfonos utilizados en las fases de entrenamiento y test fueron
el mismo, es decir, el micrfono de manos libres (HF). En estas dos condiciones, el
funcionamiento del VAD ha resultado muy satisfactorio, al conseguir mejorar la calidad
del filtrado. Este hecho no se da en las condiciones 3 y 4, donde la tasa de
reconocimiento correcto ha bajado con respecto al original.

Hay que destacar tambin la influencia de las condiciones acsticas sobre los
resultados obtenidos. Para los casos 1 y 3, las condiciones acsticas fueron las mismas,
al contrario que para los casos 2 y 4. La sensible variacin de la tasa de reconocimiento
en los pares de condiciones 1-2 y 3-4 tiene que ver, por tanto, con la diferencia de las
condiciones acsticas en las fases de entrenamiento y test.

4.3. Filtro de Wiener ETSI standard v1.1.3

Con objeto de poder tener una referencia, y a modo de comparacin con los
experimentos realizados hasta ahora, la siguiente prueba trata de comprobar el
funcionamiento de otra implementacin de Wiener. En este caso se trata de la
implementacin de Wiener utilizada en la fase de reduccin de ruido del ETSI ES 202
050 V1.1.3 front-end pensado para reconocimiento de voz.

Experimento III
Tipo de filtro Wiener ETSI standard v1.1.3
VAD utilizado VADNest (basado en energa)
Conjunto de locuciones CENSREC-2 completo

Tabla 18. Tabla resumen del experimento III

Esta implementacin del filtro de Wiener tiene la particularidad de estar desarrollada


en dos etapas, o lo que es lo mismo, la reduccin de ruido se realiza a travs de dos
filtros de Wiener concatenados.

69
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Este modo de aplicar la reduccin de ruido supone una novedad con lo visto hasta
ahora, puesto que combina los dos modos de filtros vistos, el filtro ptimo y el filtro
subptimo. En el siguiente diagrama, podemos ver el esquema bsico de
funcionamiento propuesto, con las dos etapas de filtrado.

Etapa I

Clculo
Estimacin de PSD Diseo del Banco de Respuesta al Aplicacin del
del Espectro filtro Wiener filtros impulso filtro

VADNest

Etapa II

Clculo
de PSD Clculo de
Estimacin Diseo del Banco de Respuesta al Aplicacin del
Ganancia
del Espectro filtro Wiener filtros impulso filtro
Dinmica

Eliminacin
de continua

Figura 16. Diagrama de bloques del doble filtro de Wiener propuesto en el ETSI
standard v1.1.3

La primera etapa de filtrado, consiste sencillamente en un filtro de Wiener ptimo,


con un VAD sencillo, basado en energa. El objetivo esta primera etapa no es ms que la
realizacin de un prefiltrado de la seal, rebajando el nivel de ruido medio presente en
la seal. La segunda etapa es algo ms compleja. Se trata de un filtro de Wiener
subptimo, mediante el cual, la reduccin de ruido se aplica de forma dinmica en
funcin de los niveles de SNR de la seal en los fragmentos a filtrar.

En esta prueba no se ha realizado un anlisis de la SNR de los resultados tras el


filtrado, puesto que el objetivo es la comparacin de los resultados a nivel de evaluacin
HTK, que es realmente el indicador vlido de la calidad del filtrado.

70
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

4.3.1. Evaluacin con HTK

En la siguiente tabla se encuentran reflejados los resultados del reconocimiento a


travs de HTK para este experimento.

Datos CENSREC-2 (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,58 74,49 61,46 48,87 66,35
Resultados Experimento I (%)
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
84,06 70,50 62,18 56,44 68,30

Mejora
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
17,92 % -15,64 % 1,87 % 14,81 % 5,78 %

Tabla 19. Resultados de reconocimiento con HTK del experimento III.

A primera vista, los resultados de la evaluacin HTK son aceptables, si tenemos en


cuenta que en la mayora de las condiciones evaluadas la tasa de aciertos ha sido
superior a la estndar. Sin embargo, los resultados presentan poca uniformidad con
respecto a los anteriores, dado que la Condicin 2, obtiene unos resultados realmente
pobres, mientras que en el caso del filtro Qio, es en esa condicin, donde se han
obtenido los mejores resultados hasta el momento.

A pesar de este inconveniente, los resultados se pueden considerar aceptables, dado


que en media, la tasa de reconocimiento con xito es superior a la estndar. No hay que
olvidar que esta implementacin fue planteada y diseada como paso previo a un
sistema ASR, por lo que este funcionamiento entra dentro de lo esperado. No obstante,
con los resultados obtenidos hasta ahora en los experimentos previos, esta solucin no
plantea una mejora frente a lo que ya hemos visto, por lo que no ser tenida en cuenta
para las mejoras posteriores.

71
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

4.4. Sustitucin del VAD por un reconocedor

Tras comprobar la importancia del VAD y su influencia sobre los resultados finales
del proceso de reduccin de ruido, el siguiente paso, tal y como se propuso
anteriormente, consiste en sustituir el VAD por un reconocedor, en este caso, un
reconocedor fontico.

Experimento IV
Tipo de filtro Wiener subptimo QIO
VAD utilizado Reconocedor phnrec
Conjunto de locuciones CENSREC-2 completo

Tabla 20. Tabla resumen del experimento IV

El uso del reconocedor fontico aporta ciertas ventajas frente a los VAD
convencionales. En estos, los errores de tipo MSC (Mid Speech Clipping) son muy
comunes, dado que los VADs basado en energa, tienden a discriminar los fragmentos
de voz muy cortos. Puede darse el caso de palabras de muy corta duracin que sean
clasificadas como no-voz, en lugar de cmo voz. Un reconocedor fontico,
independientemente de la duracin de una determinada palabra, va a identificar dicha
palabra, y clasificar como voz en la gran mayora de casos. Adems, ayuda a reducir el
nmero de fragmentos de silencio adyacentes a fragmentos de voz que son clasificados
como voz (error de tipo over), dado que el reconocedor se ajusta estrictamente al
contenido de la grabacin.

4.4.1. Evaluacin de la SNR

Como en los experimentos anteriores, se ha realizado en anlisis de los niveles de


SNR antes y despus del filtrado, para poder comprobar si la condicin de filtrado
subptimo se sigue cumpliendo. En la siguiente figura, estn representados los valores
de frente a los valores de , junto con la recta de referencia .

72
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Figura 17. Comparacin de y del experimento IV

En la figura anterior se puede comprobar que el comportamiento a nivel de SNR es


muy similar al de los experimentos anteriores. En este sentido, no podemos esperar
grandes novedades, la condicin de filtro de Wiener subptimo se sigue cumpliendo
casi al cien por cien.

En la siguiente tabla se reflejan a modo de resumen, los datos estadsticos de la


evaluacin SNR realizada.

Valor Medio
12.9545 dB 10.0024 dB
23.0002 dB 11.4237 dB
8.6545 dB 4.6154 dB

Tabla 21. Parmetros estadsticos de la evaluacin SNR

73
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

De estos resultados podemos concluir que el cambio del VAD, ha sido satisfactorio a
nivel SNR. No solo ha conseguido contener los niveles de en los valores
esperados, sino que adems, ha logrado mejorar los valores que se obtuvieron con el
VAD del ATVS. En la siguiente tabla podemos ver las diferencias en ambos casos, y
como el reconocedor utilizado como VAD mejora levemente los resultados. Es
necesario tener en cuenta que el VAD del experimento II ya logr mejorar los
resultados con respecto al caso incial, por lo que tenemos que valorar la mejora
introducida en este experimento de forma muy positiva.

Tasa de mejora
Experimento II 97,59 % 13,04dB 21.61dB 8,79dB
Experimento IV 99,52 % 13.03dB 23.00dB 10.13dB
Diferencia 1,93 % --- 2.61dB 1.34dB

Tabla 22. Comparativa de los experimentos II y IV. Las cifras de y de estn


referidos a sus respectivos valores medios.

4.4.2. Evaluacin con HTK

En la siguiente tabla se encuentran reflejados los resultados del reconocimiento a


travs de HTK para este experimento.

Datos CENSREC-2 (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,58 74,49 61,46 48,87 66,35
Resultados Experimento I (%)
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
87,44 75,69 64,22 53,41 70,19
Mejora
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
35,32 % 4,70 % 7,16 % 8,88 % 11,41 %

Tabla 23. Resultados de reconocimiento con HTK del experimento IV.

74
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

A tenor de los resultados obtenidos en la evaluacin SNR, presentados en el punto


anterior, no es de extraar que para el caso de la evaluacin HTK , estos sean similares.
De nuevo, la influencia del VAD sobre la prueba de reconocimiento queda patente,
dado que la tasa de reconocimiento con xito vuelve a subir con respecto al experimento
anterior. En este caso, se ha logrado mejorar dicha tasa en todas las condiciones
propuestas, incluso en las condiciones 3 y 4, donde anteriormente los resultados siempre
haban sido negativos.

Estos resultados, junto con los obtenidos en la evaluacin SNR, dejan patente la clara
mejora que representa sustituir un VAD basado en energa por un reconocedor fontico,
lo que demuestra la importancia de fase de segmentacin de la seal, y la extraccin
correcta de los segmentos que contienen voz.

4.5. Filtro de Wiener subptimo con dependencia fontica

Gracias a la introduccin del reconocedor fontico en la fase de clasificacin de los


fragmentos de la locucin, podemos hacer uso de los datos que a partir de este
obtenemos, para mejorar las etapas siguientes. El condicionamiento fontico va a
permitir que ajustemos el filtrado al contenido de la locucin, y por tanto, evitemos
aadir distorsin en exceso sobre la seal que se est tratando.

Experimento V
Tipo de filtro Wiener subptimo QIO con dependencia fontica
VAD utilizado Reconocedor phnrec
Conjunto de locuciones CENSREC-2 completo

Tabla 24. Tabla resumen del experimento V

4.5.1. Aplicacin del condicionamiento fontico

Para poder hacer uso del condicionamiento fontico, tenemos que tener en cuenta los
valores de AFD obtenidos para cada clase fontica, y la implementacin del filtro de
Wiener que estemos utilizando.

75
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Para el caso que nos ocupa, se ha utilizado un modelo de filtro de Wiener


paramtrico, visto en el estado del arte, en el cual, podemos definir la cantidad de ruido
a eliminar ajustando el parmetro .

En la implementacin de Qio, el parmetro est comprendido en un rango de


valores recomendado (entre 1.125 y 3.125), y es dependiente de la SNR calculada para
la muestra que se est midiendo.

De esta manera, cuando se detecta una muestra con un valor alto de SNR, se le
aplica una reduccin de ruido ms agresiva, al contrario que cuando el valor de SNR
medido es bajo. Lo que se pretende hacer con el condicionamiento fontico es un
comportamiento parecido, con la diferencia que el factor que va a determinar la
agresividad de la reduccin de ruido es el factor AFD previamente calculado.

El mecanismo de funcionamiento del filtro en este caso, es muy distinto a los vistos
previamente. En la fase segmentacin de voz, el reconocedor fontico no solo se
encarga de clasificar como voz o no-voz, sino que adems etiqueta cada fonema
encontrado y reconocido, para la aplicacin del factor en la fase de reduccin de
ruido.

Figura 18. Forma de onda, espectrograma, energa, transcripcin fontica y valor de


AFD instantneo para una grabacin filtrada.

76
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Posteriormente, con la informacin disponible de los fonemas que estn presentes en


el audio, se clasifican los en funcin del grupo fontico asociado, se calcula el nivel
estimado de ruido presente en el audio en funcin de los silencios detectados, se aplica
el factor de sobreestimacin de ruido, y finalmente, se realiza la reduccin de ruido en
funcin de lo estimado anteriormente.

4.5.2. Evaluacin con HTK

En la siguiente tabla se encuentran reflejados los resultados del reconocimiento a


travs de HTK para este experimento.

Datos CENSREC-2 (%)


Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
80,58 74,49 61,46 48,87 66,35
Resultados Experimento I (%)
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
87,61 78,14 65,68 55,90 71,83
Mejora
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
36,20 % 14,31 % 10,95 % 13,75 % 16,29 %

Tabla 25. Resultados de reconocimiento con HTK del experimento V.

En lnea con los resultados que se han ido obteniendo hasta este momento, el
condicionamiento fontico aplicado en la reduccin de ruido logra reducir la distorsin
generada por el filtro de Wiener, logrando cumplir el compromiso entre reduccin de
ruido y distorsin. Hay que destacar el gran crecimiento de la tasa de reconocimiento
con xito en las condiciones de pruebas 2 y 4, en las cuales, hasta ahora, los resultados
han sido muy modestos, debido a que en ambos casos, las condiciones acsticas de la
fase de entrenamiento del reconocedor, y la de test, son distintas, mientras que en los
casos 1 y 3, las condiciones acsticas son exactamente iguales.

77
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

4.6. Discusin de resultados

A continuacin, vamos a comparar los resultados obtenidos para cada uno de las
propuestas de mejora planteadas en los experimentos realizados. En la siguientes tabla
se reflejas un resumen de la evaluacin HTK de las pruebas anteriores para cada una de
las condiciones de evaluacin. Los datos representados hacen referencia a los
porcentajes de mejora sobre la tasa de reconocimiento con xito de cada una de las
pruebas.

Condicin de test 1

Tasa de
reconocimiento Mejora
con xito
Experimento I 80.64 % 0.31%
Experimento II 85.42 % 24.92 %
Experimento III 84.06 % 17.92 %
Experimento IV 87.44 % 35.32 %
Experimento V 87.61 % 36.20 %

Tabla 26. Resumen de los resultados de la


condicin de test 1 de la evaluacin HTK.

Una de las caractersticas principales de la Condicin de test 1 es que tanto el


entrenamiento del reconocedor, como el test, se realizaron con audios obtenidos con el
mismo micrfono y en las mismas condiciones acsticas. Esto se ve reflejado en la alta
tasa de reconocimiento con xito de partida. En esta situacin, el marco de mejora
terico es muy estrecho, pero a la vez, es una de las condiciones ms homogneas de
todas, por lo que ser ms fcil obtener grandes resultados. Este hecho se ve reflejado
en la evolucin de los resultados obtenidos de la evaluacin.

El porcentaje de mejora es el ms alto de todos los casos, y donde, tras aplicar el


filtrado de Wiener con condicionamiento fontico, es donde mejor se pueden apreciar
sus efectos. Cabe destacar que en ninguna de las pruebas realizadas, para esta condicin,
los resultados han sido negativos, lo que tambin nos da una idea de la homogeneidad
de esta prueba.

78
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

Condicin de test 2

Tasa de
reconocimiento Mejora
con xito
Experimento I 75.26 % 3.02 %
Experimento II 78.14 % 14.31 %
Experimento III 70.50 % -15.64 %
Experimento IV 75.69 % 4.70 %
Experimento V 78.14 % 14.31 %

Tabla 27. Resumen de los resultados de la condicin


de test 2 de la evaluacin HTK.

En la Condicin de test 2, se utilizaron grabaciones obtenidas en distintos entornos


acsticos para las fases de entrenamiento y test. Comparando los resultados con la
Condicin 1, es fcil comprobar este dato. El punto de partida nos da una tasa de
reconocimiento con xito ms baja, y la mejora mxima obtenida no llega a ser ni la
mitad de buena que la obtenida en la condicin 1. No obstante, la evolucin de dicho
dato es clara, y tanto en el experimento II como en el experimento V los datos obtenidos
son muy positivos.

Condicin de test 3

Tasa de
reconocimiento Mejora
con xito
Experimento I 60.02 % -3.74 %
Experimento II 57.70 % -9.76 %
Experimento III 62.18 % 1.87 %
Experimento IV 64.22 % 7.16 %
Experimento V 65.68 % 10.95 %

Tabla 28. Resumen de los resultados de la condicin


de test 3 de la evaluacin HTK.

La Condicin de test 3 supone un cambio sustancial con respecto a lo visto hasta


ahora. En este caso el micrfono utilizado para las condiciones de entrenamiento y test

79
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados

fue distinto. Nuevamente, la tasa de reconocimiento con xito vuelve a bajar con
respecto a la condicin anterior, y adems es la primera condicin en la que el
experimento II, que hasta ahora estaba dando buenos resultados, no ha logrado mejorar
la tasa de reconocimiento con xito. Nuevamente se hace patente que el uso del
condicionamiento fontico logra mejorar los resultados, incluso en las condiciones ms
adversas.

Condicin de test 4

Tasa de
reconocimiento Mejora
con xito
Experimento I 49.23 % 0.70 %
Experimento II 45.78 % -6.04 %
Experimento III 56.44 % 14.81 %
Experimento IV 53.41 % 8.88 %
Experimento V 55.90 % 13.75 %

Tabla 29. Resumen de los resultados de la condicin


de test 4 de la evaluacin HTK.

En el ltimo caso, la Condicin de test 4 supone un reto de cara a la reduccin de


ruido. En esta ocasin, para las fases de entrenamiento y test se utilizaron grabaciones
obtenidas con distinto micrfono y en distintas condiciones acsticas. En este sentido, la
prueba resulta muy poco homognea, pero unos resultados positivos, nos puede dar una
idea de la robustez del sistema de reduccin de ruido y de las mejoras empleadas.

En este caso, el experimento V vuelve a presentar los mejores resultados con


respecto al resto de experimentos, consolidndose como el ms regular, y el ms
robusto a la vez. Nuevamente, el experimento II vuelve a fallar, como pasaba en la
condicin anterior, debido a la poca robustez del empleo de un VAD basado en energa.

80
Captulo 5

Conclusiones y
trabajo futuro

81
Reduccin de ruido en grabaciones de audio Captulo 5. Conclusiones y trabajo futuro

5.1. Conclusiones

A travs de todos las pruebas realizadas y reflejadas en este proyecto, hemos podido
ver como la aplicacin de las mejoras sucesivas del sistema de filtrado de Wiener ha
logrado mejorar los resultados de los que se parta inicialmente. En este sentido,
podemos considerarnos satisfechos, puesto que el objetivo principal del proyecto ha
sido cubierto con creces.

Gracias a los resultados del experimento V, se ha demostrado como el


condicionamiento fontico puede ser decisivo. No solo se ha comprobado su completa
funcionalidad, sino que adems, se ha demostrado como los distintos grupos fonticos
que hemos clasificado presentan un comportamiento muy distinto frente a la distorsin,
y como el modo de generacin de los distintos fonemas en el tracto vocal, hace que
determinados sonidos presenten mayor robustez frente al ruido.

Tambin se ha comprobado como a nivel de las clases amplias fonticas aqu


expuestas, dos idiomas tan distintos como son el hngaro y el japons, comparten una
serie de caractersticas comunes, que los hace compatibles a dicho nivel. El rpido
desarrollo de los reconocedores de voz ha permitido poder analizar estas caractersticas
del lenguaje hablado, y poder utilizarlas en nuestro provecho.

Podemos concluir, por tanto, que las mejoras expuestas en cuanto a


condicionamiento fontico y el uso de reconocedores de voz como VAD, funcionan y
son aplicables a los sistemas de reduccin de ruido ms utilizados de hoy en da.

El resultado del trabajo aqu expuesto ha sido publicado en el ICPR 2010


(International Conference Pattern Recognition) [17], uno de los congresos
internacionales de investigacin que goza del mximo prestigio, mostrando los
resultados de esta nueva tcnica de reduccin de ruido vistos en este proyecto.

5.2. Trabajo futuro

A pesar de los buenos resultados obtenidos, es necesario resaltar los puntos que son
sensibles a mejorar, para poder utilizar esta herramienta de forma mucho ms efectiva.
Para que este novedoso mtodo de reduccin de ruido sea til y aplicable, es condicin

82
Reduccin de ruido en grabaciones de audio Captulo 5. Conclusiones y trabajo futuro

necesaria su implementacin en un sistema de tiempo real. El desarrollo de esta


herramienta en tiempo real supondra su uso en una gran cantidad de aplicaciones, como
puede ser, por ejemplo, la telefona o los sistemas de comunicacin embarcados.

Tambin, es necesario resaltar que las pruebas realizadas, se han hecho con idiomas
distintos. Esto ha servido para probar la robustez de las propuestas de mejora, pero es
necesario comprobar que resultados se obtendran si, tanto las grabaciones sobre las que
trabaja, como el reconocedor utilizado como VAD fueran el mismo. Es de esperar que
los resultados en ese caso fueran incluso mejores que los vistos en este proyecto, por lo
que sera necesario analizar que lmites presenta el condicionamiento fontico.

De las conclusiones arrojadas sobre este proyecto, se abren nuevas vas de


investigacin. Hay que destacar la relaciones a nivel fontico (realmente, a nivel de
clases amplias fonticas) entre idiomas tan dispares. Del estudio del porqu de este
comportamiento y su anlisis se pueden obtener nuevos resultados que pueden ser
utilizados nuevamente en los sistemas de procesamiento automtico del habla, que
pueden suponer nuevas mejoras.

83
84
Reduccin de ruido en grabaciones de audio Bibliografa

Bibliografa
[1] J. Chen, J. Benesty, Y. Huang and E.J. Diethorn. Fundamentals of Noise
Reduction. Springer Handbook. s.l. : Springer, 2008.

[2] Iser, B., Minker, W. and Schmidt, G. Bandwith extensions of speech signals. s.l. :
Springer, 2008.

[3] ITU-T. Recommendation P.800: Methods for subjective determination of


transmission quality. 1996.

[4] Fukunaga, K. Introduction to Statistial Pattern Recognition. San Diego : s.n., 1990.

[5. Bullington, K. and Fraser, J. M. Engineering aspects of TASI. The Bell System
Technical Journal. 1959, pp. 353-364.

[6] ITU. A silence compression scheme for use with G.729 optimized for V.70 digital
simultaneous voice and data applications. 1996.

[7] ETSI. Voice activity detector (VAD) for adaptative mult-rate (AMR) speech traffic
channels. 1999.

[8] ETSI. Speech processing, transmission and quality aspects (STQ); distributed
speech recognition; advance front-end feature extraction algorithm; compression
algorithms. 2002.

[9] Association, International Phonetic. Handbook of the International Phonetic


Association. s.l. : Cambridge, 1999.

[10] Malmkjr, Kirsten. The Linguistics Encyclopedia. London : s.n., 2004.

[11] Schwarz, P. Phoneme Recognition based on Long Temporal Context, PhD Thesis.
s.l. : Brno University of Tecnology, 2009.

[12] Wells, J. C. SAMPA computer readable phonetic alphabet. s.l. : Mouton de


Gruyter, 1997.

[13] Romano, A., Interlandi, G. and Mairano, P. Multimedia IPA chart. [Online]
Laboratorio di Fonetica Sperimentale "Arturo Genre" di Torino.
http://www.lfsag.unito.it/ipa/.

[14] Adami, A., et al. Qualcomm-ICSI-OGI features for ASR. 2002.

[15] Nakamura, S., Fujimoto, M. and Takeda, K. CENSREC2: Corpus and


Evaluation Environments for In Car Continuous Digit Speech Recognition. 2006. p.
paper 1726.
[16] Young, S., et al. The HTK Book. s.l. : Cambridge Universisty Engineering
Department, 2002.

[17] Gonzalez-Caravaca, Guillermo, Toledano, Doroteo Torre and Puertas, Maria.


Phone-Conditioned Suboptimal Wiener Filtering. in Proc. IEEE International
Conference on Pattern Recognition (ICPR) 2010. ISSN: 1051-4651,
DOI:10.1109/ICPR.2010.1088, pp. 4480-4483.

86
Reduccin de ruido en grabaciones de audio Anexos

Anexo A
Lema. Con los valores de tal que que
fueron definidos en (34) y con tenemos que

[a]

donde puede ser cualquier nmero real.

Demostracin. Esta inecuacin puede ser probada a travs del mtodo de induccin.

Paso inicial
Si consideramos L = 2

[b]

Teniendo en cuenta que , es fcil comprobar que

[c]

donde ambos lados de la ecuacin son iguales cuando . Por tanto tenemos que

87
Reduccin de ruido en grabaciones de audio Anexos

[d]

Por lo que la propiedad es cierta para , y la igualdad se mantiene cuando


o cuando al menos o es igual a 0.

Paso inductivo

En este caso, asumimos que la propiedad es cierta cuando

[e]

Para continuar, debemos demostrar que la propiedad sigue siendo cierta para

[f]

Utilizando la hiptesis de induccin, y teniendo en cuenta el hecho de que

[g]

88
Reduccin de ruido en grabaciones de audio Anexos

Podemos obtener

[h]

Donde como en el caso anterior, se mantiene la igualdad cuando todos los


correspondientes a los distinto de cero son iguales.

Con esto se da por concluida la demostracin.

89
Reduccin de ruido en grabaciones de audio Anexos

90
Reduccin de ruido en grabaciones de audio Anexos

Anexo B
Presupuesto
1) Ejecucin Material

Compra de ordenador personal (Software incluido) 2.200


Alquiler de impresora laser durante 6 meses 280
Material de oficina 150
Total de ejecucin material 2.630

2) Gastos generales

sobre Ejecucin Material 420

3) Beneficio Industrial

sobre Ejecucin Material 157

4) Honorarios Proyecto

1500 horas a 18 / hora 27.000

5) Material fungible

Gastos de impresin 90
Encuadernacin 200

6) Subtotal del presupuesto

Subtotal Presupuesto 30.497

7) I.V.A. aplicable

18% Subtotal Presupuesto 5.489,46

91
Reduccin de ruido en grabaciones de audio Anexos

8) Total presupuesto

Total Presupuesto 35.986,46

Madrid, JULIO 2011

El Ingeniero Jefe de Proyecto

Fdo.: Guillermo Gonzlez Caravaca

Ingeniero Superior de Telecomunicacin

92
Reduccin de ruido en grabaciones de audio Anexos

Anexo C
Publicaciones
Ttulo: Phone-Conditioned Suboptimal Wiener Filtering
Autores: Guillermo Gonzlez Caravaca, Doroteo Torre Toledano
Conferencia: International Conference Pattern Recognition (ICPR). Agosto 2010,
Estambul.

93
Reduccin de ruido en grabaciones de audio Anexos

94
Reduccin de ruido en grabaciones de audio Anexos

95
Reduccin de ruido en grabaciones de audio Anexos

96
Reduccin de ruido en grabaciones de audio Anexos

97
Reduccin de ruido en grabaciones de audio Anexos

98
Reduccin de ruido en grabaciones de audio Anexos

Anexo D
liego de condiciones
Este documento contiene las condiciones legales que guiarn la realizacin, en este
proyecto, de un sistema de reduccin de ruido en grabaciones de audio. En lo que sigue,
se supondr que el proyecto ha sido encargado por una empresa cliente a una empresa
consultora con la finalidad de realizar dicho sistema. Dicha empresa ha debido
desarrollar una lnea de investigacin con objeto de elaborar el proyecto. Esta lnea de
investigacin, junto con el posterior desarrollo de los programas est amparada por las
condiciones particulares del siguiente pliego.

Supuesto que la utilizacin industrial de los mtodos recogidos en el presente


proyecto ha sido decidida por parte de la empresa cliente o de otras, la obra a realizar se
regular por las siguientes:

Condiciones generales

1. La modalidad de contratacin ser el concurso. La adjudicacin se har, por tanto,


a la proposicin ms favorable sin atender exclusivamente al valor econmico,
dependiendo de las mayores garantas ofrecidas. La empresa que somete el proyecto a
concurso se reserva el derecho a declararlo desierto.

2. El montaje y mecanizacin completa de los equipos que intervengan ser realizado


totalmente por la empresa licitadora.

3. En la oferta, se har constar el precio total por el que se compromete a realizar la


obra y el tanto por ciento de baja que supone este precio en relacin con un importe
lmite si este se hubiera fijado.

99
Reduccin de ruido en grabaciones de audio Anexos

4. La obra se realizar bajo la direccin tcnica de un Ingeniero Superior de


Telecomunicacin, auxiliado por el nmero de Ingenieros Tcnicos y Programadores
que se estime preciso para el desarrollo de la misma.

5. Aparte del Ingeniero Director, el contratista tendr derecho a contratar al resto del
personal, pudiendo ceder esta prerrogativa a favor del Ingeniero Director, quien no
estar obligado a aceptarla.

6. El contratista tiene derecho a sacar copias a su costa de los planos, pliego de


condiciones y presupuestos. El Ingeniero autor del proyecto autorizar con su firma las
copias solicitadas por el contratista despus de confrontarlas.

7. Se abonar al contratista la obra que realmente ejecute con sujecin al proyecto


que sirvi de base para la contratacin, a las modificaciones autorizadas por la
superioridad o a las rdenes que con arreglo a sus facultades le hayan comunicado por
escrito al Ingeniero Director de obras siempre que dicha obra se haya ajustado a los
preceptos de los pliegos de condiciones, con arreglo a los cuales, se harn las
modificaciones y la valoracin de las diversas unidades sin que el importe total pueda
exceder de los presupuestos aprobados. Por consiguiente, el nmero de unidades que se
consignan en el proyecto o en el presupuesto, no podr servirle de fundamento para
entablar reclamaciones de ninguna clase, salvo en los casos de rescisin.

8. Tanto en las certificaciones de obras como en la liquidacin final, se abonarn los


trabajos realizados por el contratista a los precios de ejecucin material que figuran en
el presupuesto para cada unidad de la obra.

9. Si excepcionalmente se hubiera ejecutado algn trabajo que no se ajustase a las


condiciones de la contrata pero que sin embargo es admisible a juicio del Ingeniero
Director de obras, se dar conocimiento a la Direccin, proponiendo a la vez la rebaja
de precios que el Ingeniero estime justa y si la Direccin resolviera aceptar la obra,
quedar el contratista obligado a conformarse con la rebaja acordada.

10. Cuando se juzgue necesario emplear materiales o ejecutar obras que no figuren
en el presupuesto de la contrata, se evaluar su importe a los precios asignados a otras
obras o materiales anlogos si los hubiere y cuando no, se discutirn entre el Ingeniero
Director y el contratista, sometindolos a la aprobacin de la Direccin. Los nuevos

100
Reduccin de ruido en grabaciones de audio Anexos

precios convenidos por uno u otro procedimiento, se sujetarn siempre al establecido en


el punto anterior.

11. Cuando el contratista, con autorizacin del Ingeniero Director de obras, emplee
materiales de calidad ms elevada o de mayores dimensiones de lo estipulado en el
proyecto, o sustituya una clase de fabricacin por otra que tenga asignado mayor precio
o ejecute con mayores dimensiones cualquier otra parte de las obras, o en general,
introduzca en ellas cualquier modificacin que sea beneficiosa a juicio del Ingeniero
Director de obras, no tendr derecho sin embargo, sino a lo que le correspondera si
hubiera realizado la obra con estricta sujecin a lo proyectado y contratado.

12. Las cantidades calculadas para obras accesorias, aunque figuren por partida
alzada en el presupuesto final (general), no sern abonadas sino a los precios de la
contrata, segn las condiciones de la misma y los proyectos particulares que para ellas
se formen, o en su defecto, por lo que resulte de su medicin final.

13. El contratista queda obligado a abonar al Ingeniero autor del proyecto y director
de obras as como a los Ingenieros Tcnicos, el importe de sus respectivos honorarios
facultativos por formacin del proyecto, direccin tcnica y administracin en su caso,
con arreglo a las tarifas y honorarios vigentes.

14. Concluida la ejecucin de la obra, ser reconocida por el Ingeniero Director que a
tal efecto designe la empresa.

15. La garanta definitiva ser del 4% del presupuesto y la provisional del 2%.

16. La forma de pago ser por certificaciones mensuales de la obra ejecutada, de


acuerdo con los precios del presupuesto, deducida la baja si la hubiera.

17. La fecha de comienzo de las obras ser a partir de los 15 das naturales del
replanteo oficial de las mismas y la definitiva, al ao de haber ejecutado la provisional,
procedindose si no existe reclamacin alguna, a la reclamacin de la fianza.

18. Si el contratista al efectuar el replanteo, observase algn error en el proyecto,


deber comunicarlo en el plazo de quince das al Ingeniero Director de obras, pues
transcurrido ese plazo ser responsable de la exactitud del proyecto.

101
Reduccin de ruido en grabaciones de audio Anexos

19. El contratista est obligado a designar una persona responsable que se entender
con el Ingeniero Director de obras, o con el delegado que ste designe, para todo
relacionado con ella. Al ser el Ingeniero Director de obras el que interpreta el proyecto,
el contratista deber consultarle cualquier duda que surja en su realizacin.

20. Durante la realizacin de la obra, se girarn visitas de inspeccin por personal


facultativo de la empresa cliente, para hacer las comprobaciones que se crean oportunas.
Es obligacin del contratista, la conservacin de la obra ya ejecutada hasta la recepcin
de la misma, por lo que el deterioro parcial o total de ella, aunque sea por agentes
atmosfricos u otras causas, deber ser reparado o reconstruido por su cuenta.

21. El contratista, deber realizar la obra en el plazo mencionado a partir de la fecha


del contrato, incurriendo en multa, por retraso de la ejecucin siempre que ste no sea
debido a causas de fuerza mayor. A la terminacin de la obra, se har una recepcin
provisional previo reconocimiento y examen por la direccin tcnica, el depositario de
efectos, el interventor y el jefe de servicio o un representante, estampando su
conformidad el contratista.

22. Hecha la recepcin provisional, se certificar al contratista el resto de la obra,


reservndose la administracin el importe de los gastos de conservacin de la misma
hasta su recepcin definitiva y la fianza durante el tiempo sealado como plazo de
garanta. La recepcin definitiva se har en las mismas condiciones que la provisional,
extendindose el acta correspondiente. El Director Tcnico propondr a la Junta
Econmica la devolucin de la fianza al contratista de acuerdo con las condiciones
econmicas legales establecidas.

23. Las tarifas para la determinacin de honorarios, reguladas por orden de la


Presidencia del Gobierno el 19 de Octubre de 1961, se aplicarn sobre el denominado
en la actualidad Presupuesto de Ejecucin de Contrata y anteriormente llamado
Presupuesto de Ejecucin Material que hoy designa otro concepto.

Condiciones particulares

La empresa consultora, que ha desarrollado el presente proyecto, lo entregar a


la empresa cliente bajo las condiciones generales ya formuladas, debiendo aadirse las
siguientes condiciones particulares:

102
Reduccin de ruido en grabaciones de audio Anexos

1. La propiedad intelectual de los procesos descritos y analizados en el presente


trabajo, pertenece por entero a la empresa consultora representada por el Ingeniero
Director del Proyecto.

2. La empresa consultora se reserva el derecho a la utilizacin total o parcial de los


resultados de la investigacin realizada para desarrollar el siguiente proyecto, bien para
su publicacin o bien para su uso en trabajos o proyectos posteriores, para la misma
empresa cliente o para otra.

3. Cualquier tipo de reproduccin aparte de las reseadas en las condiciones


generales, bien sea para uso particular de la empresa cliente, o para cualquier otra
aplicacin, contar con autorizacin expresa y por escrito del Ingeniero Director del
Proyecto, que actuar en representacin de la empresa consultora.

4. En la autorizacin se ha de hacer constar la aplicacin a que se destinan sus


reproducciones as como su cantidad.

5. En todas las reproducciones se indicar su procedencia, explicitando el nombre


del proyecto, nombre del Ingeniero Director y de la empresa consultora.

6. Si el proyecto pasa la etapa de desarrollo, cualquier modificacin que se realice


sobre l, deber ser notificada al Ingeniero Director del Proyecto y a criterio de ste, la
empresa consultora decidir aceptar o no la modificacin propuesta.

7. Si la modificacin se acepta, la empresa consultora se har responsable al mismo


nivel que el proyecto inicial del que resulta el aadirla.

8. Si la modificacin no es aceptada, por el contrario, la empresa consultora declinar


toda responsabilidad que se derive de la aplicacin o influencia de la misma.

9. Si la empresa cliente decide desarrollar industrialmente uno o varios productos en


los que resulte parcial o totalmente aplicable el estudio de este proyecto, deber
comunicarlo a la empresa consultora.

10. La empresa consultora no se responsabiliza de los efectos laterales que se


puedan producir en el momento en que se utilice la herramienta objeto del presente
proyecto para la realizacin de otras aplicaciones.

103
Reduccin de ruido en grabaciones de audio Anexos

11. La empresa consultora tendr prioridad respecto a otras en la elaboracin de los


proyectos auxiliares que fuese necesario desarrollar para dicha aplicacin industrial,
siempre que no haga explcita renuncia a este hecho. En este caso, deber autorizar
expresamente los proyectos presentados por otros.

12. El Ingeniero Director del presente proyecto, ser el responsable de la direccin de


la aplicacin industrial siempre que la empresa consultora lo estime oportuno. En caso
contrario, la persona designada deber contar con la autorizacin del mismo, quien
delegar en l las responsabilidades que ostente.

104

También podría gustarte