Reduccion de Ruido en Audios
Reduccion de Ruido en Audios
REDUCCIN DE RUIDO EN
GRABACIONES DE AUDIO
Ingeniera de Telecomunicacin
III
IV
Reduccin de ruido en grabaciones de audio Resumen
Resumen
Palabras Clave
Abstract
The context of this project is a set of techniques aimed at reducing noise in voice
recordings, taken on board environments, such as a moving vehicle. The study begins
with the analysis of one of the most used filters in noise reduction, the Wiener filter,
reeling off all its peculiarities. It will test an implementation of it and study the results
for effectiveness, to determine possible improvements to be tested.
Key Words
Wiener filter, noise reduction, speech distortion, broad phonetic classes, voice activity
detector, adaptability.
VI
Reduccin de ruido en grabaciones de audio Agradecimientos
Agradecimientos
Asimismo, quisiera agradecer a todos los miembros del ATVS por el buen ambiente
dentro de este y por la ayuda prestada ante cualquier problema que ha podido surgir.
En el plano personal, me gustara comenzar dando las gracias a mis padres, sin
ellos, no sera la persona que soy hoy. A mi hermana por animarme siempre a realizar
nuevos proyectos, y a terminar este, y a mi hermano, por haberme inculcado desde
pequeo la pasin por la ciencia y la tecnologa.
Gracias a Laura por haberme apoyado durante todos estos aos y haber hecho que
los buenos momentos lo fueran an mejor. Este proyecto y lo que ello culmina tambin
te pertenece.
Por ltimo, gracias a mis amigos de toda la vida, que han sabido compartir conmigo
lo mejor de s. Este proyecto tambin va dedicado a vosotros.
VIII
Reduccin de ruido en grabaciones de audio ndice general
ndice general
Agradecimientos ....................................................................................................................... VII
ndice de Figuras ....................................................................................................................... XI
ndice de Tablas...................................................................................................................... XIII
Captulo 1. Introduccin............................................................................................................. 1
1.1. Motivacin del proyecto................................................................................................ 2
1.2. Objetivos ....................................................................................................................... 2
1.3. Estructura de la memoria............................................................................................... 3
Captulo 2. Estado del arte ......................................................................................................... 5
2.1. El Ruido ........................................................................................................................ 6
2.1.1. Ruido Aditivo ........................................................................................................ 7
2.2. Modelo de seal empleado ............................................................................................ 9
2.3. Evaluacin de la reduccin de ruido ........................................................................... 10
2.3.1. Conceptos previos ............................................................................................... 12
2.4. Reduccin de ruido a travs del filtrado ...................................................................... 16
2.4.1. Filtro de Wiener en el dominio temporal ............................................................ 16
2.4.2. Filtro de Wiener subptimo ................................................................................. 23
2.4.3. Filtro de Wiener definido en el dominio de la frecuencia .................................. 26
2.4.4. Filtro de Wiener Paramtrico .............................................................................. 29
2.5. Deteccin de actividad de voz ..................................................................................... 30
2.5.1. Fundamentos de un detector de actividad de voz ................................................ 30
2.5.2. Esquema bsico de funcionamiento .................................................................... 31
2.5.3. Evaluacin de un VAD ....................................................................................... 32
2.5.4. Evolucin hasta la actualidad .............................................................................. 33
Captulo 3. Diseo y Desarrollo ............................................................................................... 35
3.1. Estructura bsica del filtro de Wiener ......................................................................... 37
3.1.1. Estimacin de ruido ............................................................................................. 38
3.2. Posibilidades de mejora del filtro de Wiener .............................................................. 38
3.2.1. Sustitucin del VAD por un reconocedor fontico ............................................. 40
3.2.2. Efectos negativos del filtrado: la distorsin ........................................................ 41
3.3 Estudio de la distorsin a nivel fontico ..................................................................... 43
3.3.1. El Alfabeto Fontico Internacional ..................................................................... 44
3.3.2. Agrupacin de los fonemas en clases amplias fonticas ..................................... 46
3.3.3. Correspondencia IPA-SAMPA ........................................................................... 48
IX
Reduccin de ruido en grabaciones de audio ndice general
X
Reduccin de ruido en grabaciones de audio ndice de figuras
ndice de Figuras
Figura 1. Ejemplo de grafica de resultados de SNR. La recta diagonal representa los
puntos en los que la es igual a la . ....................................... 13
Figura 2. Representacin de los parmetros de evaluacin de un VAD sobre una
muestra de audio de ejemplo.......................................................................... 32
Figura 3. Esquema bsico del sistema de reduccin de ruido basado en VAD. ............. 38
Figura 4. Espectrograma, transcripcin, forma de onda, y segmentacin voz/no-voz de
un audio de ejemplo ........................................................................................................ 40
Figura 5. Diagrama del punto de articulacin de los sonidos voclicos definidos por el
IPA. ................................................................................................................ 45
Figura 6. Diagrama de correspondencia de sonidos vocalicos entre el diccionario de
Phnrec e IPA. En verde los fonemas de Phnrec. ............................................ 48
Figura 7. Obtencin del AFD de las distintas clases amplias fonticas a partir de los
conjutnos de locuciones CT y HF. ................................................................. 50
Figura 8. Valor del factor de sobreestimacin de ruido en funcin de la SNR calculada
para QIO. ........................................................................................................ 52
Figura 9. Ubicacin de los micrfonos en el interior del vehculo................................. 54
Figura 10. Funcionamiento general de HTK .................................................................. 56
Figura 11. Esquema bsico de reconocimiento de HTK ................................................ 58
Figura 12. Comparacin de y del experimento I. .................................. 63
Figura 13. Histograma de SNR diferencial entre y del experimento I . 64
Figura 14. Comparacin de y del experimento II .................................. 67
Figura 15. Histograma de SNR diferencial entre y del experimento II 68
Figura 16. Diagrama de bloques del doble filtro de Wiener propuesto en el ETSI
standard v1.1.3 ............................................................................................... 70
Figura 17. Comparacin de y del experimento IV ................................ 73
Figura 18. Forma de onda, espectrograma, energa, transcripcin fontica y valor de
AFD instantneo para una grabacin filtrada. ............................................... 76
XII
Reduccin de ruido en grabaciones de audio ndice de tablas
ndice de Tablas
Tabla 1. Tabla fontica del Alfabeto Fontico Internacional, indicando el modo de
articulacin y el punto de articulacin de cada fonema de carcter
consonntico. ................................................................................................. 44
Tabla 2. Tabla fontica del Alfabeto Fontico Internacional con los sonidos
consonnticos no pulmonares. ....................................................................... 44
Tabla 3. Diccionario de fonemas reconocibles por el reconocedor hngaro Phnrec. .... 48
Tabla 4. Tablas de correspondencia de sonidos consonnticos entre el diccionario de
Phnrec e IPA. ................................................................................................. 49
Tabla 5. Valor medio obtenido del AFD y su correspondiente desviacin estndar para
cada clase fontica. ........................................................................................ 50
Tabla 6. Lista de dgitos y pronunciacin utilizados en CENSREC-2. .......................... 54
Tabla 7. Combinacin de velocidades y condiciones acsticas en el vehculo. ............. 55
Tabla 8. Datos entrenamiento para cada condicin de evaluacin. ................................ 56
Tabla 9. Datos test para cada condicin de evaluacin. ................................................. 56
Tabla 10. Resultados de referencia proporcionados por CENSREC-2. ......................... 58
Tabla 11. Resultados obtenidos en el reconocimiento de las muestras originales de la
base de datos. ................................................................................................. 59
Tabla 12. Conjunto de fonemas del diccionario del reconocedor para el hngaro. Los
fonemas estn presentados en formato SAMPA, para uso con computadores.
........................................................................................................................ 60
Tabla 13. Resumen del experimento I ............................................................................ 62
Tabla 14. Resultados de reconocimiento con HTK del experimento I. .......................... 65
Tabla 15. Tabla resumen del experimento II .................................................................. 66
Tabla 16. Parmetros estadsticos de la evaluacin SNR ............................................... 68
Tabla 17. Resultados de reconocimiento con HTK del experimento II. ........................ 68
Tabla 18. Tabla resumen del experimento III................................................................. 69
Tabla 19. Resultados de reconocimiento con HTK del experimento III. ....................... 71
Tabla 20. Tabla resumen del experimento IV ................................................................ 72
Tabla 21. Parmetros estadsticos de la evaluacin SNR ............................................... 73
Tabla 22. Comparativa de los experimentos II y IV. Las cifras de y de
estn referidos a sus respectivos valores medios. .......................................... 74
XIII
Reduccin de ruido en grabaciones de audio ndice de tablas
Tabla 23. Resultados de reconocimiento con HTK del experimento IV. ....................... 74
Tabla 24. Tabla resumen del experimento V .................................................................. 75
Tabla 25. Resultados de reconocimiento con HTK del experimento V. ........................ 77
Tabla 26. Resumen de los resultados de la condicin de test 1 de la evaluacin HTK.. 78
Tabla 27. Resumen de los resultados de la condicin de test 2 de la evaluacin HTK.. 79
Tabla 28. Resumen de los resultados de la condicin de test 3 de la evaluacin HTK.. 79
Tabla 29. Resumen de los resultados de la condicin de test 4 de la evaluacin HTK.. 80
XIV
Captulo 1
Introduccin
Reduccin de ruido en grabaciones de audio Captulo 1. Introduccin
La penetracin de las tecnologas del habla en la sociedad actual es cada vez mayor.
Un claro ejemplo de ello es el creciente uso de la telefona mvil, que permite que
millones de usuarios a la vez, puedan mantenerse en contacto desde prcticamente,
cualquier lugar. La domtica es otro referente de este hecho, desde hace varios aos,
una persona es capaz de subir y bajar las persianas de su casa, con una sola orden vocal.
Con la proliferacin de este tipo de sistemas, la necesidad de que el intercambio de
informacin sea fiable y sin distorsiones es cada vez mayor. Para mantener la integridad
de la seal que se desea transmitir, almacenar o procesar, es necesario dotar a estos
sistemas de mecanismos de defensa frente al ruido, distorsiones u otro tipo de seales
interferentes que hagan, que la calidad de la seal vocal de origen se vea mermada, y
por tanto, de lugar a un fallo en la transmisin del mensaje.
1.2. Objetivos
2
Reduccin de ruido en grabaciones de audio Captulo 1. Introduccin
En el captulo 4 se detallan las distintas pruebas que se han llevado a cabo para la
evaluacin de las propuestas de mejora, y se presentan los resultados obtenidos a partir
de las mismas.
3
4
Captulo 2
5
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
En este captulo vamos a familiarizarnos con los conceptos bsicos necesarios para
abordar la temtica de reduccin de ruido. Comenzaremos revisando las definiciones de
ruido, y como ste afecta a las seales de informacin, como podemos modelarlo
matemticamente y cuantificarlo.
Con los modelos de seal planteados, y unos breves conceptos previos, ahondaremos
en las tcnicas de reduccin de ruido, en concreto con el Filtro de Wiener, y su
desarrollo matemtico, para hacernos una idea de cmo funciona y que aplicaciones
tiene.
2.1. El Ruido
6
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Ruido aditivo
En este caso, el ruido aditivo se puede considerar todo aquel ruido procedente de
distintas fuentes que coexisten en el mismo entorno acstico.
Seales interferentes
En el caso de seales de voz, se considera seal interferente a toda aquella que
proceda de otros locutores, que no sean objeto de inters.
Reverberacin
Producida por la propagacin multitrayecto que se da en los entornos acsticos
cerrados o semi cerrados. No se trata exactamente de ruido, sino de una forma de
distorsin.
Eco
Producido generalmente por el acoplamiento entre los micrfonos y los altavoces.
Al igual que en el caso anterior, se trata de una forma de distorsin.
Para precisar en la definicin de ruido aditivo, podemos considerar que una seal de
voz est formada por la superposicin de la voz limpia y del ruido. De esta manera, la
reduccin de ruido llevar a cabo la tarea de separar ambas partes de la forma ms
ptima posible.
7
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
8
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Las tcnicas desarrolladas hasta ahora pueden englobarse en tres grandes grupos,
en funcin de cmo se realice la reduccin de ruido:
1. Filtrado lineal adaptativo.
2. Substraccin espectral.
3. Basado en modelo.
La base del filtrado lineal adaptativo, como su propio nombre indica, es hacer pasar
a la seal ruidosa a travs de un filtro lineal que se adapta al ruido a eliminar, atenuando
as la componente de ruido, dejando la seal de voz sin distorsionar, en la medida de lo
posible. Los filtros de Wiener estaran dentro de esta categora. En su lugar, los mtodos
de substraccin espectral, realizan la reduccin de ruido a travs de una estimacin del
espectro de la seal de voz, a partir de la seal original ruidosa. El algoritmo ms
conocido de esta categora seria MMSE (Minimum-Mean-Squared-Error). Los mtodos
de reduccin basados en modelos, tratan la reduccin de ruido como un problema de
estimacin de parmetros, donde se hace uso de diversos modelos matemticos de la
generacin de la voz. Tcnicas como LP-Kalman (Linear Prediction) son
representativas de este grupo.
La reduccin de ruido que se pretende llevar a cabo, est basada en recuperar la seal
de voz de inters x(n) de la seal ruidosa observada
9
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(1)
donde v(n) es la seal de ruido que se pretende eliminar, asumiendo que es un proceso
aleatorio de media cero e incorrelado con la seal de voz. Podemos considerar la seal
y(n) como un vector de la forma
(2)
que incluye las L muestras ms recientes, donde x(n) y v(n) estn definidas de forma
similar. De esta manera, el problema de la reduccin de ruido se basa en la estimacin
de x(n) a partir de la seal y(n) original.
Aplicando una transformada de Fourier discreta (DFT) sobre los L puntos definidos,
podemos decir que la seal observada y(n), en el dominio de la frecuencia quedara de la
forma
(3)
donde tenemos que
(4)
10
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Medidas subjetivas
Medidas objetivas.
Al contrario que las medidas subjetivas, las medidas objetivas se obtienen a partir
de los resultados del filtrado, atendiendo as a aspectos cuantitativos de la seal, siendo
independientes de criterio humano alguno.
11
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
La relacin seal a ruido (SNR Signal to Noise Ratio) es uno de las medidas ms
utilizadas en el campo de la reduccin de ruido, cuantificando como de ruidosa es una
seal en referencia a los niveles de voz y ruido. Esta relacin est definida como la
intensidad de la seal de inters (en nuestro caso, la voz) relativo a la intensidad de
seal del ruido de fondo, y generalmente se representa en decibelios (dB). Con el
modelo de seal de y(n) presentado anteriormente, podemos definir la SNR como:
(5)
(6)
En el mbito de reduccin de ruido, esta medida se suele utilizar como SNR a priori
( ) y SNR a posteriori ( ), y se suele considerar que cuanto ms alto sea el
valor de SNR, mejor es la calidad del audio. En este sentido, para establecer la calidad
de un filtrado, se pueden comparar ambas SNR definidas anteriormente ( y
). La diferencia de ambas se le denomina SNR de mejora, y cuanto ms alta sea
sta, podemos decir que mejor son los resultados de la reduccin de ruido.
12
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Antes de definir otros parmetros que pueden ser objeto de medida en el rea de la
reduccin de ruido, tenemos que definir un trmino que haga referencia a cuanto ruido
es eliminado o atenuado en una determinada muestra, y para ello hacemos uso del factor
de reduccin de ruido. Este se obtiene a partir de la relacin entre la intensidad de ruido
inicial en la muestra, y la intensidad del ruido remanente tras el filtrado. Teniendo en
cuenta la seal y(n) definida anteriormente, llamamos al ruido residual, siendo el
factor de reduccin de ruido tal que
(7)
Si el resultado del filtrado es satisfactorio, este factor ser mayor que la unidad.
Tambin se puede comprobar que cuanto ms alto sea , mejor ser la calidad de la
reduccin de ruido.
13
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
A la hora de evaluar este tipo de medidas, hay que tener en cuenta que las seales
acsticas suelen tener gran cantidad de fluctuaciones, y esto es igual para las seales de
voz y de ruido. Es por ello que no se debe entender el factor de reduccin de ruido como
un valor absoluto, de forma que este ha de ser calculado como una ponderacin media
de la reduccin de ruido en todos los instantes de la seal acstica (esperanza
matemtica). Adems de las variaciones temporales, hay que tener en cuenta las que se
dan en el dominio de la frecuencia, las cuales, generalmente, no son uniformes, por lo
que habra que hacer medidas en cada banda para saber exactamente como se ha
comportado el ruido tras el filtrado.
Para hacernos una idea ms general del comportamiento del ruido en frecuencia,
podemos hacer uso nuevamente del factor de reduccin de ruido definido para
densidades espectrales, de forma que
(8)
Hasta ahora, solo se ha tenido en cuenta los efectos del filtrado sobre la seal de
ruido, pero no se ha comprobado el resultado sobre la seal de voz. Es posible que esta
se vea afectada, y es un factor que habr que tener en cuenta, dado que cuanto ms
agresivo es el filtrado, es lgico pensar que mayor ser la distorsin generada en la seal
de voz. Es vital entonces, realizar la operacin de reduccin de ruido con toda la
informacin de la que dispongamos a priori de la seal, para intentar disminuir la
degradacin de la voz. Por este motivo, definimos el ndice de distorsin de la voz
(SDI, speech distortion index) como una medida para cuantificar la distorsin que
genera el algoritmo de reduccin de ruido utilizado.
14
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(9)
(10)
15
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Una vez revisados los conceptos bsicos sobre la reduccin de ruido, vamos a pasar a
ver las tcnicas y algoritmos ms utilizados. Para empezar, vamos a analizar las
tcnicas de filtrado. Estas se basan en el diseo de un filtro lineal o transformacin de
forma que, cuando hacemos pasar la seal ruidosa (voz y ruido aditivo) a travs del
filtro, la componente de ruido es atenuada. Los algoritmos ms representativos en esta
categora (en el dominio temporal y frecuencial) son el filtro de Wiener, y el filtro de
Wiener paramtrico.
(11)
donde
(12)
(13)
Segn lo expuesto antes, nuestro objetivo es minimizar el MSE, por lo que la funcin
MSE del filtro planteado sera
16
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(14)
(15)
si hicisemos pasar la seal y(n) sobre este filtro, la salida sera idntica a la entrada (no
hay reduccin de ruido). Para este caso, la funcin MSE correspondiente sera
(16)
(17)
(18)
lo que indica que el filtro ptimo de Wiener debe ser capaz de reducir el nivel de ruido
en la seal ruidosa y(n). De la ecuacin (17), podemos obtener la ecuacin de
Wiener-Hopf
(19)
donde
(20)
(21)
17
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
que podemos utilizar para poder calcular utilizando (21) de la siguiente manera
(22)
(23)
(24)
(25)
18
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(26)
(27)
(28)
(29)
Este hecho era de esperar, ya que en las condiciones de SNR descritas, no sera
necesaria la reduccin de ruido, y por tanto el filtro ptimo sera aquel que no variase la
seal de entrada. Si en lugar de buscar condiciones optimas de SNR de entrada,
hacemos que esta tienda a cero, tenemos que
(30)
donde el vector 0 tiene el mismo tamao en muestras que , y todos sus valores son
cero. En este caso, cuando la seal de entrada al filtro carece de seal de voz
(SNR = 0), el filtro no deja pasar nada, eliminando todo sonido.
Una vez formulado, podemos pasar a analizar como el filtro de Wiener puede reducir
el nivel de ruido, como en un principio se espera. Para ello, vamos a echar un vistazo al
19
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(31)
Se puede observar que los trminos de lado derecho de la ecuacin anterior, son
, siendo esta la componente de voz limpia filtrada con el filtro de Wiener, y
la componente de ruido residual. Por lo tanto, el factor de reduccin de ruido,
segn la ecuacin (7) puede ser descrito como
(32)
(33)
(34)
(35)
(36)
20
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(37)
(38)
(39)
(40)
(41)
Por tanto, podemos decir que el factor de reduccin de ruido descrito en (41) ser
siempre mayor que 1, teniendo en cuenta que solo se consideran valores de SNR
21
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
positivos. Esto demuestra que la reduccin de ruido es siempre posible con el filtro de
Wiener. De (41) se puede demostrar que el factor de reduccin de ruido es una funcin
decreciente, acotada inferiormente. Su valor tiende a infinito cuando la SNR se
aproxima a 0, y tiende a 1, cuando el valor de la SNR crece. Esto nos indica que se
producir una mayor reduccin de ruido con valores de SNR bajos, lo cual es preferible
y deseable, puesto que hay ms cantidad de ruido a ser eliminado.
(42)
Como ya se dijo anteriormente, el valor del ndice de distorsin del habla siempre
cumple que
(43)
(44)
(44)
Podemos concluir entonces que el filtro de Wiener siempre ser capaz de lograr
reduccin de ruido dada una seal de entrada, a costa de distorsionar la seal de voz en
cierta medida.
22
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Llegados a este punto, solo nos queda comprobar cuales sern los efectos del filtro de
Wiener sobre la SNR del audio de entrada, y verificar si a pesar de la distorsin
introducida por el filtro, este es capaz de mantenerla o incluso mejorarla.
(45)
(46)
(47)
(48)
(49)
Del anlisis anterior, se ha podido concluir que el filtro de Wiener en el dominio del
tiempo logra la reduccin de ruido en todos los casos, en detrimento de la calidad de la
seal de voz limpia, dado que sta se ve distorsionada por el filtro. Este hecho nos hace
23
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
plantearnos los requisitos previos de nuestro filtro, y aadir un parmetro ms, el cual es
lograr la mxima reduccin de ruido, sin poner en peligro la seal de voz, y por tanto,
nuestro diseo ha de cumplir un compromiso de equilibrio entre la reduccin de ruido y
la distorsin del habla. Colocando ambos requisitos en una balanza, si le damos mayor
importancia a uno de ellos, el otro se ver mermado, y viceversa. Por lo tanto es
necesario establecer un control en el filtro, que nos permita inclinar la balanza hacia un
lado u otro. Para ello, vamos a definir un filtro de Wiener subptimo.
El filtro descrito en (26) tiene una interpretacin fsica muy intuitiva: se compone de
la suma de dos filtros, y , donde cada uno de ellos tiene un propsito
distinto. El primer filtro es el encargado de crear una rplica de la seal original de
entrada, mientras que el segundo realiza la estimacin (y supresin) del ruido. En esta
lnea, podramos decir que el filtro de Wiener trabaja en dos pasos: crea una estimacin
ptima del ruido, para luego restarla de la seal de entrada. Si furamos capaces de
introducir un parmetro que sea capaz de controlar la cantidad de ruido a eliminar,
podramos, acudiendo a la metfora anterior, controlar de qu lado se inclina la balanza,
y por tanto, mantener el compromiso entre reduccin de ruido y distorsin de la voz.
(50)
donde 0 es un nmero real. Hay que destacar, que el filtro no es una solucin
ptima de acuerdo conel criterio MMSE visto anteriormente, por lo que podemos
llamarlo filtro subptimo.
(51)
Para lograr la reduccin de ruido con este nuevo filtro, el factor ha de ser escogido,
de forma que < , de lo que se deduce que
(52)
24
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(53)
(54)
(55)
Por lo que la relacin entre los ndices de distorsin de voz correspondientes a los
dos filtros, y solo depende del parmetro .
Para lograr tener menor distorsin de voz en el caso del filtro subptimo que en
el caso del filtro de Wiener , debemos encontrar un valor de que haga que se
cumpla
(56)
25
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(57)
Para el caso de la SNR, mientras que siga cumpliendo 0 < < 1, se tiene que
(58)
lo que quiere decir que el filtro subptimo es capaz de mejorar la SNR de la seal de
entrada al filtro, pero esta ser siempre ms baja o igual que la SNR del filtro de Wiener
ptimo.
(59)
donde
(60)
26
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(61)
donde
(62)
son las densidades espectrales de potencia (PSD) de x(n) e y(n) respectivamente. De esta
expresin cabe destacar que el filtro de Wiener en el dominio de la frecuencia presenta
siempre valores positivos y reales, por lo que mantiene la componente de fase de la
seal intacta.
De (61) podemos ver que para poder obtener el filtro de Wiener, es necesario
conocer las densidades espectrales de potencia de las seales limpia y ruidosa. Para el
caso de la seal ruidosa, el clculo es directo ya que es la seal observada, pero la seal
limpia x(n) no es accesible antes de la salida del filtro, lo que complica el clculo de su
densidad espectral de potencia.
Considerando que la seal de voz x(n) y la seal de ruido vista en (1) estn
incorreladas, podemos relacionar sus densidades espectrales de potencia de forma que
(63)
(64)
Ahora si podemos tener acceso a todas las seales involucradas en la ecuacin del
filtro. A partir de la seal y(n) observada obtenemos de forma directa , y
examinando los intervalos en los que no se detecta actividad de voz, obtenemos
.
27
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
La estimacin ptima del espectro de voz limpia haciendo uso del filtro anterior es
(65)
(66)
que es la suma de dos trminos, donde el primero es la potencia de la voz limpia filtrada
y el segundo es el ruido residual filtrado.
(67)
(68)
Lo que nos dice que el filtro de Wiener puede reducir el nivel de ruido siempre que
este no sea nulo. De igual manera se puede demostrar que la potencia de la seal de voz
filtrada es menor que la potencia de la seal de voz original, como pasaba en el caso del
filtro de Wiener definido en el tiempo en (26), por lo que la reduccin de ruido se lleva
a cabo asumiendo la distorsin en la seal de voz.
28
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
(69)
(70)
(71)
Por ello, la voz limpia estimada con el filtro paramtrico de Wiener se obtiene a
travs de:
(72)
29
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Hay que destacar que las configuraciones ms frecuentes de los parmetros del filtro
detallados anteriormente no representan los valores ptimos de los mismos, aunque ello
no limita las posibilidades del filtro, dada la sencillez de su implementacin y su rpida
adaptacin a travs de los parmetros a las condiciones de filtrado.
30
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Para resolver este problema, es necesario que el VAD sea robusto frente al ruido, ya
que de esta forma estamos asegurando su funcionamiento en una amplia variedad de
31
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
condiciones acsticas. Podremos decir que un VAD es robusto frente al ruido cuando
aporta resultados similares, tanto para seales de voz limpia, como con seales de voz
ruidosa. De esta forma cuanto ms robusto sea el VAD, menores sern los errores de
deteccin.
32
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
Aunque con los parmetros expuestos podemos ser capaces de realizar una
evaluacin sobre cualquier VAD, no hay que olvidar que al tratarse de procesado de
voz, tambin tenemos que tener en cuenta parmetros que sean capaces de medir de
forma subjetiva la calidad de la clasificacin. En este caso, el procedimiento es ms
complejo, dado que se necesitan un nmero mnimo de auditores que determinen
aspectos clave del resultado de la clasificacin por parte del VAD. En este caso, las
medidas subjetivas que se lleven a cabo han de tener en cuenta:
Calidad.
Comprensibilidad.
Efecto de los recortes generados
Una vez obtenidos una serie de resultados atendiendo a estos parmetros, y tras haber
sido analizados un conjunto de muestras de audio procesadas con el VAD, las
calificaciones resultantes de la prueba subjetiva son analizadas y ponderadas para
obtener una estimacin global del comportamiento del VAD. Aunque los mtodos de
evaluacin objetivos son de gran utilidad en las fases iniciales de un anlisis, los
mtodos subjetivos son ms significativos. Aunque la aplicacin de los mtodos
subjetivos requiere la participacin de varias personas durante varios das evaluando las
locuciones, solo suelen ser utilizados en los procesos de estandarizacin, como pueden
ser los VADs utilizados en telefona GSM para transmisin discontina.
Diversos tipos de algoritmos han sido propuestos desde que en 1959 los laboratorios
Bell comenzaran a publicar sus trabajos sobre Time-assignment speech interpolation
(TASI) [5], en los que aplicaban la deteccin de voz para realizar una multiplexacin en
33
Reduccin de ruido en grabaciones de audio Captulo 2. Estado del Arte
el tiempo del canal telefnico. La mayora de las tcnicas desarrolladas hasta ahora
hacen uso de alguno de los siguientes parmetros:
Actualmente, estas tcnicas han sido mejoradas, aunque sirven de base para los
desarrollos ms novedosos. El uso de LPC sigue estando muy extendido, y es la base de
muchos de los algoritmos desarrollados en la actualidad. Estos nuevos desarrollos
utilizan tcnicas como
34
Captulo 3
Diseo y Desarrollo
35
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Por tanto, para lograr mejorar estas tcnicas de filtrado, es necesario la bsqueda de
otras fuentes de informacin, que nos aporten datos para obtener mejores resultados en
la reduccin de ruido. Esta nueva informacin, se transforma en nuevos parmetros que
nos permitirn mejorar las tcnicas y los algoritmos de filtrado actuales.
En concreto, en este captulo vamos a plantear el uso y la mejora de uno de los filtros
adaptativos ms utilizados en el campo del procesamiento de imagen y sonido, el filtro
de Wiener, que como ya hemos visto en el captulo de fundamentos tericos, posee una
serie de caractersticas especiales que hace que pueda modificarse para lograr que la
adaptacin del mismo a la fuente de informacin sea mayor, logrando mejores
resultados a la hora de aplicar la reduccin de ruido.
36
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
podemos comprobar que ste est compuesto por dos partes bien diferenciadas. En la
primera parte se genera una rplica de la seal original, mientras que en la segunda, lo
que se obtiene es una estimacin del ruido presente en dicha seal. De tal forma,
combinando ambas partes obtenemos una versin filtrada del audio de entrada.
Es fcil entender, que la calidad del filtrado en este caso, depender directamente de
la estimacin del ruido que se realice. Si ahora observamos la definicin del filtro
subptimo, el cual se supone una mejora sobre el filtro inicial
lo que pretende es regular por medio del factor de reduccin de ruido la cantidad de
ruido a eliminar en la seal original. Hay que tener en cuenta, que primero es necesario
haber realizado una estimacin de la cantidad de ruido presente en la seal, para
despus poder decidir que nivel de ruido vamos a eliminar.
37
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
A partir de una seal de voz afectada por ruido, podemos ser capaces de realizar una
estimacin de la cantidad de ruido que hay presente en dicha seal. Todos los
estimadores de ruido conocidos hasta la actualidad funcionan siguiendo una estructura
bsica:
Por tanto, podemos decir que la calidad de la estimacin de ruido, siguiendo este
patrn de trabajo, depende directamente de la robustez de la segmentacin de la voz, y
de la capacidad del VAD de detectar voz en condiciones de ruido elevado.
38
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
En la propuesta de mejora que vamos a plantear, estos son los tres aspectos que
vamos a considerar ms importantes. Cada uno de ellos depende directamente del
anterior, por lo que es posible mejorar el rendimiento del sistema completo,
optimizando cualquiera de estos tres puntos.
El primer objetivo que nos planteamos, siguiendo el orden lgico del esquema
propuesto en la Figura 3, es lograr que la segmentacin y clasificacin de la voz
realizada por el VAD se aproxime lo mayor posible a la realidad. Para esto es, es
necesario incrementar la sensibilidad y robustez del VAD, y para ello, vamos a
proponer un cambio sustancial en el mismo: sustituirlo por un reconocedor de voz,
capaz de identificar los fragmentos de la locucin que contienen voz, y discriminar
aquellos en los que no se detecta su presencia. El objetivo de esta primera modificacin
ser por tanto, mejorar la segmentacin que realiza el VAD. Este cambio afecta de
forma directa a la fase de estimacin de ruido, haciendo que sta sea ms precisa.
Nos basamos en que la distorsin no afecta de igual manera a todas las seales de
voz, ni siquiera en la misma locucin. Vamos a suponer que sta depende del contenido
fontico de la seal de voz, es decir, que determinados fonemas o grupos de fonemas
son ms sensibles a los efectos de la distorsin, mientras que otro grupo de fonemas
presentan una mayor robustez. Teniendo esto en cuenta, si podemos conseguir aplicar
distintos niveles de reduccin de ruido en funcin del contenido fontico de la seal de
39
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
voz, podremos adaptar el filtro de Wiener, y por tanto, mejorar los resultados finales del
sistema de reduccin de ruido.
Una solucin que vamos a plantear en este PFC es la sustitucin del VAD por un
reconocedor de voz. En este caso, el reconocedor etiqueta cada fonema pronunciado, as
como las pausas, o segmentos no reconocidos. Analizando los resultados obtenidos a
partir del reconocedor, etiquetamos cada fonema reconocido como voz, y el resto de
fragmentos como silencios. De esta forma tendramos un audio analizado y etiquetado
con sus correspondientes fragmentos de voz y no voz, de la forma que hemos descrito
anteriormente, tal como queramos.
40
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
nos permite obtener un valor numrico que indica como de distorsionada est una seal
de voz que previamente ha sido filtrada. Para poder hacer uso del AFD y evaluar cmo
de agresiva es la distorsin para nuestro filtro, tendremos que hacer una serie de
consideraciones prcticas previas a su implementacin.
41
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
dos tipos distintos de micrfonos; un micrfono de habla cercana (close talking o CT) y
otro micrfono manos libres (hands free o HF). Podemos aprovechar esta concurrencia
para asumir que las grabaciones obtenidas a travs del micrfono close talking son las
seales originales y las obtenidas a travs del micrfono hands free son las seales
ruidosas, sobre las cuales ser necesario aplicar la reduccin de ruido, para
posteriormente, evaluar el factor AFD.1
Cada una de estas alternativas analiza las grabaciones desde un nivel de profundidad
distinto, y sus resultados han de ser interpretados de forma totalmente distinta. Veamos
qu ventajas e inconvenientes presenta cada uno de los mtodos de clculo.
La primera de las opciones nos da una idea general de cmo de distorsionado est un
audio. Este dato no es til para los objetivos que nos hemos planteado, dado que lo que
se pretende es poder estimar un patrn de comportamiento de la distorsin tras el
filtrado y poder predecirlo para contrarrestarlo en todos los audios, no exclusivamente
en uno de ellos, pero si puede ser utilizado para determinar que opcin de filtrado
funciona mejor a nivel global, comparando valores para distintos filtros.
1
Hay que destacar que esta consideracin solo la tendremos en cuenta para el clculo del AFD, dado
que se trata de una medida comparativa. En las pruebas de filtrado, se considera que todos los audios
han sido perturbados en mayor o menor medida por el ruido aditivo, independientemente de que se
traten de grabaciones simultneas.
42
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
parecer que este mtodo no es independiente del idioma, ya que idiomas distintos
presentan un conjunto de fonemas distinto, pero comparten una serie de caractersticas a
nivel fonolgico que es posible explotar para lograr que esta forma de comparar los
audios sea razonablemente independiente del idioma, y que posteriormente
procederemos a estudiar.
De todas las opciones que hemos planteado anteriormente para analizar los efectos
de distorsin que introduce el filtrado, el estudio del AFD a nivel fontico es el que ms
ventajas nos aporta, dado que ser a partir de este anlisis desde donde podremos
comprobar, segn nuestra hiptesis inicial, que el valor del AFD es distinto para cada
fonema o grupo fontico, y adems detectar que fonemas o grupos de fonemas
presentan mayor sensibilidad a la distorsin. Aparte de esto hay que tener en cuenta que
este mtodo es ms flexible en cuanto al idioma, dadas las similitudes existentes a nivel
fontico entre distintos idiomas.
Para poder calcular el AFD a nivel fontico dentro del sistema de reduccin de ruido
que hemos planteado, lo primero que tenemos que hacer es definir el diccionario de
fonemas sobre el cual vamos a trabajar. Para poder definirlo de forma correcta y
ajustada, tenemos que tener en cuenta dos aspectos muy importantes:
Para poder equiparar a nivel fontico ambos idiomas, vamos a utilizar el alfabeto
fontico internacional, que define de forma independiente al idioma, todos los fonemas
43
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Tabla 2. Tabla fontica del Alfabeto Fontico Internacional con los sonidos
consonnticos no pulmonares.
44
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Figura 5. Diagrama del punto de articulacin de los sonidos voclicos definidos por
el IPA.
La clasificacin que establece la IPA en este alfabeto, ordena los distintos fonemas
segn el modo de articulacin y el punto de articulacin de dicho sonido en el tracto
vocal humano. Asimismo, los distintos sonidos existentes se clasifican en funcin de su
naturaleza consonntica o voclica.
Zona o punto de articulacin. Es el lugar donde toman contacto los rganos que
intervienen en la produccin del sonido. Por ejemplo, si para producir un sonido
entran en contacto los dos labios, se crearn sonidos bilabiales como es el caso
de las realizaciones de los fonemas /p/, /b/ y /m/.
Modo de articulacin. Es la postura que adoptan los rganos que producen los
sonidos. Por ejemplo, si los rganos cierran total y momentneamente la salida
del aire, los sonidos sern plosivos. Ese es el caso de los sonidos /p/, /t/ y /k/.
45
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Dentro de los fonemas consonnticos, existen dos clases distintas de sonidos, los
denominados pulmonares y los no pulmonares. En el caso de las consonantes
pulmonares, se utilizan los pulmones para impulsar el aire hacia el exterior. En el caso
de las no pulmonares, el aire es impulsado desde la glotis, o son simples chasquidos. En
la mayora de los idiomas, solo se utilizan las consonantes pulmonares, siendo el
japons y el hngaro ejemplos de ello.
Como hemos comentado anteriormente, para poder realizar una comparacin entre
distintos idiomas a nivel fontico, es necesario que definamos las clases amplias
fonticas. Esta agrupacin de fonemas se basa en la clasificacin de los mismos segn
el modo de articulacin, en el caso de los sonidos consonnticos. Los sonidos voclicos,
dada su gran diversidad, se han agrupado en una sola clase fontica.
Atendiendo a esta forma de agrupar los fonemas, se definen las siguientes clases
fonticas [10]:
Consonantes Oclusivas
El flujo de aire es retenido firmemente por los rganos del habla, hasta que este es
liberado, generando de esta forma el sonido deseado. Ejemplos de estos fonemas en
el castellano son [p] [t] [k]
46
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Consonantes fricativas
El aire ha de atravesar una estrecha obertura formada por los rganos del habla,
generando el sonido gracias a la friccin que se produce en el tracto vocal.
Ejemplos de estos sonidos pueden ser [f] o [s].
Consonantes africadas
Es una combinacin de una consonante oclusiva, seguida de una consonante
fricativa. Para ello, el aire es retenido por los rganos vocales, para ser liberado
posteriormente de forma paulatina. En castellano, un sonido africado se produce
con el fonema [t], utilizado en chubasquero.
Consonantes Aproximantes
En este caso, el sonido es producido por la aproximacin de los rganos vocales sin
llegar a cerrarse (como en el caso de las oclusivas) y sin la existencia de friccin
area (como en las consonantes fricativas). Se encuentran muy relacionadas con los
sonidos voclicos, sin llegar a ser considerados como tal. Un ejemplo de estos
fonemas es [j] utilizado en familia o chirimoya.
Consonantes nasales
Este tipo de sonido es generado cuando el flujo de aire, incapaz de atravesar los
orificios orales, es desviado hacia la cavidad nasal, generando ese sonido tan
caracterstico. Ejemplo de consonantes nasales son [m] o [n].
Consonantes vibrantes
Son sonidos generados gracias cuando uno de los rganos vocales golpea de forma
rpida y repetitiva sobre el otro, mientras el flujo de aire atraviesa la cavidad. Un
ejemplo de estos es el fonema [r].
47
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
El reconocedor hngaro que vamos a utilizar [11] para segmentar los audios dispone
de un diccionario de fonemas, que engloba todos aquellos sonidos que ste va a ser
capaz de reconocer. Dichos fonemas estn expresados en el alfabeto SAMPA [12]
(Speech Assessment Methods Phonetic Alphabet), el ms utilizado en procesamiento
fontico por ser totalmente legible por un ordenador.
48
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
P [p] x [x] n n: n n
Africadas
SAMPA IPA
Una vez que tenemos definido como vamos a agrupar los distintos fonemas en lo que
hemos denominado clases amplias fonticas, estamos en disposicin de poder estudiar
cmo afecta la distorsin generada por el filtro de Wiener sobre estos grupos de
fonemas. Conocer qu grupos se ven ms afectados por la distorsin generada en la
etapa de filtrado, es una ventaja a la hora de contrarrestar estos efectos sobre los audios
que pretendemos tratar, que es el objetivo que estamos persiguiendo.
49
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
CT
Procesado por
Clculo de AFD a
clases amplias
nivel fontico
fonticas
Filtro de
HF
Wiener
Figura 7. Obtencin del AFD de las distintas clases amplias fonticas a partir de los
conjutnos de locuciones CT y HF.
Con los resultados de la tabla 5 obtenidos tras el clculo de los valores del AFD, se
confirma que las distintas clases fonticas que se han definido presentan un
comportamiento distinto frente al filtrado de Wiener, tal y como supusimos al principio.
A partir de aqu adaptar estos resultados al modelo de filtrado de Wiener subptimo
definido en el estado del arte es muy sencillo, dado que en su definicin ya se incluye
un factor de ponderacin de la cantidad de ruido que se pretende eliminar.
50
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
(73)
Esta definicin del filtro coincide con la que ya se vio anteriormente (71), que se
corresponde con la forma generalizada del filtro de Wiener paramtrico. En esta forma
de definir el filtro existen tres parmetros. El primero de ellos, es el factor de
sobreestimacin de ruido, y se utiliza para corregir la cantidad de ruido a eliminar. El
valor de depende del valor de la SNR local de la ventana donde nos encontremos,
eliminando ms ruido para valores de SNR bajos y viceversa. Este factor de
sobreestimacin se obtiene a partir de:
51
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
(74)
donde
(75)
Este factor de sobreestimacin de ruido, tal y como est definido anteriormente, est
comprendido entre los valores [1.25, 3.125] dado que la SNR mxima que se considera
es de 20dB y la mnima de 0dB, como se puede ver en la figura 8. El segundo parmetro
que aparece en la definicin del filtro, , sirve para definir un valor mnimo en la
funcin de transferencia del filtro, evitando as valores negativos o demasiado bajos. El
ltimo parmetro del filtro, , se utiliza para controlar el comportamiento del filtro, es
decir, para el filtro aplica substraccin espectral, para se aplica filtrado de
Wiener, pudiendo usarse otros valores, aparte de los ya mencionados.
52
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
La base de datos que hemos utilizado y que cumple con las condiciones planteadas es
CENSREC-2. Dicho corpus ha sido desarrollado por el IPSJ-SIG SLP Noisy Speech
Recognition Evaluation Working Group y est pensado para el reconocimiento de voz
de dgitos en condiciones de conduccin real, utilizando el japons. Consta de un total
de 17.651 locuciones, grabadas por 104 personas, 52 mujeres y 52 hombres [15].
Disposicin de micrfonos
Las locuciones grabadas para CENSREC-2 fueron tomadas usando dos tipos de
micrfonos distintos, uno de ellos de habla cercana (close talking, CT) y el otro de
manos libres (hands free, HF). El micrfono HF fue colocado en la zona del techo
53
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
El modelo y marca de los micrfonos utilizados fue en ambos casos la misma, para
uniformizar los resultados de la obtencin de los datos. En este caso se utilizaron
micrfonos Sony ECM77B, uno de ellos (CT), montado sobre unos auriculares para el
conductor del coche.
Vocabulario utilizado
Nmero 1 2 3 4 5 6 7 8 9 0
Pronunciacin Ichi Ri San Yon Go Roku Nana Hachi Kyu Zero
Condiciones de grabacin
54
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
representando cada uno de los entornos en los que un coche se puede desplazar, y cuatro
tipos de condiciones acsticas en el interior del coche (normal, aire acondicionado
encendido, reproductor de CDs encendido y ventanas abiertas).
Para poder evaluar el procesamiento aplicado sobre los audios de la base de datos,
los desarrolladores de la base de datos han definido un protocolo de evaluacin, basado
en el reconocimiento de voz de las locuciones, que previamente han sido etiquetadas
con la transcripcin de su contenido.
55
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Software utilizado
57
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Para poder verificar que la configuracin utilizada es correcta, junto con la base de
datos se incluyen los resultados de referencia del proceso de reconocimiento.
58
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Como se puede observar en la Tabla 11, los resultados obtenidos en nuestro caso son
muy similares a los de referencia, por lo que podemos considerar que la configuracin
del reconocimiento es correcta e igual a la recomendada.
Este reconocedor representa un gran potencial, ya que segn los mismos autores y
desarrolladores, est siendo utilizado en multitud de aplicaciones, tales como:
Reconocimiento de idioma.
Reconocimiento de voz de amplio vocabulario.
Bsqueda de palabras clave.
Deteccin de la actividad de voz.
59
Reduccin de ruido en grabaciones de audio Captulo 3. Diseo y Desarrollo
Tabla 12. Conjunto de fonemas del diccionario del reconocedor para el hngaro. Los
fonemas estn presentados en formato SAMPA, para uso con computadores.
Motivos de la seleccin
60
Captulo 4
Pruebas y
Resultados
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
En general, los resultados que van a ser analizados tras la realizacin de la reduccin
de ruido, son las evaluaciones SNR y la evaluacin final por medio del reconocedor de
voz HTK, con el cual obtendremos los porcentajes de las locuciones que han sido
reconocidas con xito. Todos estos valores son evaluados antes y despus del filtrado,
lo que nos ser de gran utilidad para poder comparar ambos resultados.
Este primer experimento tiene como objetivo principal probar la integracin de los
principales componentes del sistema de reduccin de ruido que hemos planteado, y
comprobar as su funcionalidad. Asimismo, los resultados que arroje nos servirn de
referencia para poder establecer los posibles puntos de mejora.
Experimento I
Tipo de filtro Wiener subptimo QIO
VAD utilizado QIO
Conjunto de locuciones CENSREC-2 completo
62
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
por si solo carece de valor experimental si no lo comparamos con otro, por lo que
siempre vendr acompaado de los valores de SNR de referencia, que no son otros que
la SNR de las locuciones originales, es decir, sin filtrar.
En la siguiente grfica estn representados los distintos valores de SNR para cada
una de las locuciones. En el eje de ordenadas estn indicados los valores de SNR de la
locucin antes de pasar por la etapa de reduccin de ruido ( ), mientras que el eje
de abscisas representa los valores de SNR de la misma locucin despus de haber sido
aplicado el filtrado de Wiener ( ). Sobre la misma grfica se ha representado la
recta que delimita que locuciones presentan un mayor valor de con
respecto a o viceversa.
De esta forma, se puede comprobar el resultado global del filtrado, observando que
locuciones caen por encima o por debajo de la recta , y por tanto, que
locuciones han logrado mejorar o empeorar su SNR.
63
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Valor Medio
12.9545 dB 10.0024 dB
21.9893 dB 11.4116 dB
9.0348
Parmetros estadsticos deldB 4.3076
experimento I dB
64
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
es capaz de, a partir de una serie de muestras de ejemplo para el entrenamiento del
sistema, reconocer el contenido de una locucin dada. Adems de eso, las herramientas
de anlisis de los resultados obtenidos tras el reconocimiento nos permite calcular que
porcentaje de xito (y por tanto tambin de error) ha cometido el reconocedor con las
locuciones. En nuestro caso, todas las locuciones de la base datos CENSREC-2 estan
transcritas para facilitar esta tarea de anlisis. As es posible calcular cmo de bueno ha
sido el reconocimiento, y por tanto, cmo de bueno ha sido el filtrado.
Para este caso concreto, los resultados del reconocimiento nos muestran como la
calidad/inteligibilidad de las locuciones ha mejorado en algunos casos, pero por lo
general, los resultados obtenidos no siempre mejoran, si tenemos en cuenta los valores
de SNR mostrados anteriormente, y que las muestras reconocidas han sido filtradas
previamente.
El detector de actividad de voz que proponemos en este caso clasifica los fragmentos
de la locucin en funcin de su nivel de energa. El funcionamiento de este VAD se
puede resumir en los siguientes pasos:
Experimento II
Tipo de filtro Wiener subptimo QIO
VAD utilizado Basado en energa
Conjunto de locuciones CENSREC-2 completo
66
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
67
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Valor Medio
12.9545 dB 10.0024 dB
21.6104 dB 12.5637 dB
8.6545 dB 4.6154 dB
El efecto del cambio de detector de actividad de voz es notable en este caso. Para las
condiciones 1 y 2, la mejora de la calidad del audio es notable, mientras que para las
condiciones 3 y 4 los resultados son bastante pobres. Esta diferencia tan acusada en este
aspecto est directamente relacionada con el VAD basado en energa. Para las
condiciones 1 y 2 los micrfonos utilizados en las fases de entrenamiento y test fueron
el mismo, es decir, el micrfono de manos libres (HF). En estas dos condiciones, el
funcionamiento del VAD ha resultado muy satisfactorio, al conseguir mejorar la calidad
del filtrado. Este hecho no se da en las condiciones 3 y 4, donde la tasa de
reconocimiento correcto ha bajado con respecto al original.
Hay que destacar tambin la influencia de las condiciones acsticas sobre los
resultados obtenidos. Para los casos 1 y 3, las condiciones acsticas fueron las mismas,
al contrario que para los casos 2 y 4. La sensible variacin de la tasa de reconocimiento
en los pares de condiciones 1-2 y 3-4 tiene que ver, por tanto, con la diferencia de las
condiciones acsticas en las fases de entrenamiento y test.
Con objeto de poder tener una referencia, y a modo de comparacin con los
experimentos realizados hasta ahora, la siguiente prueba trata de comprobar el
funcionamiento de otra implementacin de Wiener. En este caso se trata de la
implementacin de Wiener utilizada en la fase de reduccin de ruido del ETSI ES 202
050 V1.1.3 front-end pensado para reconocimiento de voz.
Experimento III
Tipo de filtro Wiener ETSI standard v1.1.3
VAD utilizado VADNest (basado en energa)
Conjunto de locuciones CENSREC-2 completo
69
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Este modo de aplicar la reduccin de ruido supone una novedad con lo visto hasta
ahora, puesto que combina los dos modos de filtros vistos, el filtro ptimo y el filtro
subptimo. En el siguiente diagrama, podemos ver el esquema bsico de
funcionamiento propuesto, con las dos etapas de filtrado.
Etapa I
Clculo
Estimacin de PSD Diseo del Banco de Respuesta al Aplicacin del
del Espectro filtro Wiener filtros impulso filtro
VADNest
Etapa II
Clculo
de PSD Clculo de
Estimacin Diseo del Banco de Respuesta al Aplicacin del
Ganancia
del Espectro filtro Wiener filtros impulso filtro
Dinmica
Eliminacin
de continua
Figura 16. Diagrama de bloques del doble filtro de Wiener propuesto en el ETSI
standard v1.1.3
70
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Mejora
Condicin 1 Condicin 2 Condicin 3 Condicin 4 Media
17,92 % -15,64 % 1,87 % 14,81 % 5,78 %
71
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Tras comprobar la importancia del VAD y su influencia sobre los resultados finales
del proceso de reduccin de ruido, el siguiente paso, tal y como se propuso
anteriormente, consiste en sustituir el VAD por un reconocedor, en este caso, un
reconocedor fontico.
Experimento IV
Tipo de filtro Wiener subptimo QIO
VAD utilizado Reconocedor phnrec
Conjunto de locuciones CENSREC-2 completo
El uso del reconocedor fontico aporta ciertas ventajas frente a los VAD
convencionales. En estos, los errores de tipo MSC (Mid Speech Clipping) son muy
comunes, dado que los VADs basado en energa, tienden a discriminar los fragmentos
de voz muy cortos. Puede darse el caso de palabras de muy corta duracin que sean
clasificadas como no-voz, en lugar de cmo voz. Un reconocedor fontico,
independientemente de la duracin de una determinada palabra, va a identificar dicha
palabra, y clasificar como voz en la gran mayora de casos. Adems, ayuda a reducir el
nmero de fragmentos de silencio adyacentes a fragmentos de voz que son clasificados
como voz (error de tipo over), dado que el reconocedor se ajusta estrictamente al
contenido de la grabacin.
72
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Valor Medio
12.9545 dB 10.0024 dB
23.0002 dB 11.4237 dB
8.6545 dB 4.6154 dB
73
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
De estos resultados podemos concluir que el cambio del VAD, ha sido satisfactorio a
nivel SNR. No solo ha conseguido contener los niveles de en los valores
esperados, sino que adems, ha logrado mejorar los valores que se obtuvieron con el
VAD del ATVS. En la siguiente tabla podemos ver las diferencias en ambos casos, y
como el reconocedor utilizado como VAD mejora levemente los resultados. Es
necesario tener en cuenta que el VAD del experimento II ya logr mejorar los
resultados con respecto al caso incial, por lo que tenemos que valorar la mejora
introducida en este experimento de forma muy positiva.
Tasa de mejora
Experimento II 97,59 % 13,04dB 21.61dB 8,79dB
Experimento IV 99,52 % 13.03dB 23.00dB 10.13dB
Diferencia 1,93 % --- 2.61dB 1.34dB
74
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Estos resultados, junto con los obtenidos en la evaluacin SNR, dejan patente la clara
mejora que representa sustituir un VAD basado en energa por un reconocedor fontico,
lo que demuestra la importancia de fase de segmentacin de la seal, y la extraccin
correcta de los segmentos que contienen voz.
Experimento V
Tipo de filtro Wiener subptimo QIO con dependencia fontica
VAD utilizado Reconocedor phnrec
Conjunto de locuciones CENSREC-2 completo
Para poder hacer uso del condicionamiento fontico, tenemos que tener en cuenta los
valores de AFD obtenidos para cada clase fontica, y la implementacin del filtro de
Wiener que estemos utilizando.
75
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
De esta manera, cuando se detecta una muestra con un valor alto de SNR, se le
aplica una reduccin de ruido ms agresiva, al contrario que cuando el valor de SNR
medido es bajo. Lo que se pretende hacer con el condicionamiento fontico es un
comportamiento parecido, con la diferencia que el factor que va a determinar la
agresividad de la reduccin de ruido es el factor AFD previamente calculado.
El mecanismo de funcionamiento del filtro en este caso, es muy distinto a los vistos
previamente. En la fase segmentacin de voz, el reconocedor fontico no solo se
encarga de clasificar como voz o no-voz, sino que adems etiqueta cada fonema
encontrado y reconocido, para la aplicacin del factor en la fase de reduccin de
ruido.
76
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
En lnea con los resultados que se han ido obteniendo hasta este momento, el
condicionamiento fontico aplicado en la reduccin de ruido logra reducir la distorsin
generada por el filtro de Wiener, logrando cumplir el compromiso entre reduccin de
ruido y distorsin. Hay que destacar el gran crecimiento de la tasa de reconocimiento
con xito en las condiciones de pruebas 2 y 4, en las cuales, hasta ahora, los resultados
han sido muy modestos, debido a que en ambos casos, las condiciones acsticas de la
fase de entrenamiento del reconocedor, y la de test, son distintas, mientras que en los
casos 1 y 3, las condiciones acsticas son exactamente iguales.
77
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
A continuacin, vamos a comparar los resultados obtenidos para cada uno de las
propuestas de mejora planteadas en los experimentos realizados. En la siguientes tabla
se reflejas un resumen de la evaluacin HTK de las pruebas anteriores para cada una de
las condiciones de evaluacin. Los datos representados hacen referencia a los
porcentajes de mejora sobre la tasa de reconocimiento con xito de cada una de las
pruebas.
Condicin de test 1
Tasa de
reconocimiento Mejora
con xito
Experimento I 80.64 % 0.31%
Experimento II 85.42 % 24.92 %
Experimento III 84.06 % 17.92 %
Experimento IV 87.44 % 35.32 %
Experimento V 87.61 % 36.20 %
78
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
Condicin de test 2
Tasa de
reconocimiento Mejora
con xito
Experimento I 75.26 % 3.02 %
Experimento II 78.14 % 14.31 %
Experimento III 70.50 % -15.64 %
Experimento IV 75.69 % 4.70 %
Experimento V 78.14 % 14.31 %
Condicin de test 3
Tasa de
reconocimiento Mejora
con xito
Experimento I 60.02 % -3.74 %
Experimento II 57.70 % -9.76 %
Experimento III 62.18 % 1.87 %
Experimento IV 64.22 % 7.16 %
Experimento V 65.68 % 10.95 %
79
Reduccin de ruido en grabaciones de audio Captulo 4. Pruebas y resultados
fue distinto. Nuevamente, la tasa de reconocimiento con xito vuelve a bajar con
respecto a la condicin anterior, y adems es la primera condicin en la que el
experimento II, que hasta ahora estaba dando buenos resultados, no ha logrado mejorar
la tasa de reconocimiento con xito. Nuevamente se hace patente que el uso del
condicionamiento fontico logra mejorar los resultados, incluso en las condiciones ms
adversas.
Condicin de test 4
Tasa de
reconocimiento Mejora
con xito
Experimento I 49.23 % 0.70 %
Experimento II 45.78 % -6.04 %
Experimento III 56.44 % 14.81 %
Experimento IV 53.41 % 8.88 %
Experimento V 55.90 % 13.75 %
80
Captulo 5
Conclusiones y
trabajo futuro
81
Reduccin de ruido en grabaciones de audio Captulo 5. Conclusiones y trabajo futuro
5.1. Conclusiones
A travs de todos las pruebas realizadas y reflejadas en este proyecto, hemos podido
ver como la aplicacin de las mejoras sucesivas del sistema de filtrado de Wiener ha
logrado mejorar los resultados de los que se parta inicialmente. En este sentido,
podemos considerarnos satisfechos, puesto que el objetivo principal del proyecto ha
sido cubierto con creces.
A pesar de los buenos resultados obtenidos, es necesario resaltar los puntos que son
sensibles a mejorar, para poder utilizar esta herramienta de forma mucho ms efectiva.
Para que este novedoso mtodo de reduccin de ruido sea til y aplicable, es condicin
82
Reduccin de ruido en grabaciones de audio Captulo 5. Conclusiones y trabajo futuro
Tambin, es necesario resaltar que las pruebas realizadas, se han hecho con idiomas
distintos. Esto ha servido para probar la robustez de las propuestas de mejora, pero es
necesario comprobar que resultados se obtendran si, tanto las grabaciones sobre las que
trabaja, como el reconocedor utilizado como VAD fueran el mismo. Es de esperar que
los resultados en ese caso fueran incluso mejores que los vistos en este proyecto, por lo
que sera necesario analizar que lmites presenta el condicionamiento fontico.
83
84
Reduccin de ruido en grabaciones de audio Bibliografa
Bibliografa
[1] J. Chen, J. Benesty, Y. Huang and E.J. Diethorn. Fundamentals of Noise
Reduction. Springer Handbook. s.l. : Springer, 2008.
[2] Iser, B., Minker, W. and Schmidt, G. Bandwith extensions of speech signals. s.l. :
Springer, 2008.
[4] Fukunaga, K. Introduction to Statistial Pattern Recognition. San Diego : s.n., 1990.
[5. Bullington, K. and Fraser, J. M. Engineering aspects of TASI. The Bell System
Technical Journal. 1959, pp. 353-364.
[6] ITU. A silence compression scheme for use with G.729 optimized for V.70 digital
simultaneous voice and data applications. 1996.
[7] ETSI. Voice activity detector (VAD) for adaptative mult-rate (AMR) speech traffic
channels. 1999.
[8] ETSI. Speech processing, transmission and quality aspects (STQ); distributed
speech recognition; advance front-end feature extraction algorithm; compression
algorithms. 2002.
[11] Schwarz, P. Phoneme Recognition based on Long Temporal Context, PhD Thesis.
s.l. : Brno University of Tecnology, 2009.
[13] Romano, A., Interlandi, G. and Mairano, P. Multimedia IPA chart. [Online]
Laboratorio di Fonetica Sperimentale "Arturo Genre" di Torino.
http://www.lfsag.unito.it/ipa/.
86
Reduccin de ruido en grabaciones de audio Anexos
Anexo A
Lema. Con los valores de tal que que
fueron definidos en (34) y con tenemos que
[a]
Demostracin. Esta inecuacin puede ser probada a travs del mtodo de induccin.
Paso inicial
Si consideramos L = 2
[b]
[c]
donde ambos lados de la ecuacin son iguales cuando . Por tanto tenemos que
87
Reduccin de ruido en grabaciones de audio Anexos
[d]
Paso inductivo
[e]
Para continuar, debemos demostrar que la propiedad sigue siendo cierta para
[f]
[g]
88
Reduccin de ruido en grabaciones de audio Anexos
Podemos obtener
[h]
89
Reduccin de ruido en grabaciones de audio Anexos
90
Reduccin de ruido en grabaciones de audio Anexos
Anexo B
Presupuesto
1) Ejecucin Material
2) Gastos generales
3) Beneficio Industrial
4) Honorarios Proyecto
5) Material fungible
Gastos de impresin 90
Encuadernacin 200
7) I.V.A. aplicable
91
Reduccin de ruido en grabaciones de audio Anexos
8) Total presupuesto
92
Reduccin de ruido en grabaciones de audio Anexos
Anexo C
Publicaciones
Ttulo: Phone-Conditioned Suboptimal Wiener Filtering
Autores: Guillermo Gonzlez Caravaca, Doroteo Torre Toledano
Conferencia: International Conference Pattern Recognition (ICPR). Agosto 2010,
Estambul.
93
Reduccin de ruido en grabaciones de audio Anexos
94
Reduccin de ruido en grabaciones de audio Anexos
95
Reduccin de ruido en grabaciones de audio Anexos
96
Reduccin de ruido en grabaciones de audio Anexos
97
Reduccin de ruido en grabaciones de audio Anexos
98
Reduccin de ruido en grabaciones de audio Anexos
Anexo D
liego de condiciones
Este documento contiene las condiciones legales que guiarn la realizacin, en este
proyecto, de un sistema de reduccin de ruido en grabaciones de audio. En lo que sigue,
se supondr que el proyecto ha sido encargado por una empresa cliente a una empresa
consultora con la finalidad de realizar dicho sistema. Dicha empresa ha debido
desarrollar una lnea de investigacin con objeto de elaborar el proyecto. Esta lnea de
investigacin, junto con el posterior desarrollo de los programas est amparada por las
condiciones particulares del siguiente pliego.
Condiciones generales
99
Reduccin de ruido en grabaciones de audio Anexos
5. Aparte del Ingeniero Director, el contratista tendr derecho a contratar al resto del
personal, pudiendo ceder esta prerrogativa a favor del Ingeniero Director, quien no
estar obligado a aceptarla.
10. Cuando se juzgue necesario emplear materiales o ejecutar obras que no figuren
en el presupuesto de la contrata, se evaluar su importe a los precios asignados a otras
obras o materiales anlogos si los hubiere y cuando no, se discutirn entre el Ingeniero
Director y el contratista, sometindolos a la aprobacin de la Direccin. Los nuevos
100
Reduccin de ruido en grabaciones de audio Anexos
11. Cuando el contratista, con autorizacin del Ingeniero Director de obras, emplee
materiales de calidad ms elevada o de mayores dimensiones de lo estipulado en el
proyecto, o sustituya una clase de fabricacin por otra que tenga asignado mayor precio
o ejecute con mayores dimensiones cualquier otra parte de las obras, o en general,
introduzca en ellas cualquier modificacin que sea beneficiosa a juicio del Ingeniero
Director de obras, no tendr derecho sin embargo, sino a lo que le correspondera si
hubiera realizado la obra con estricta sujecin a lo proyectado y contratado.
12. Las cantidades calculadas para obras accesorias, aunque figuren por partida
alzada en el presupuesto final (general), no sern abonadas sino a los precios de la
contrata, segn las condiciones de la misma y los proyectos particulares que para ellas
se formen, o en su defecto, por lo que resulte de su medicin final.
13. El contratista queda obligado a abonar al Ingeniero autor del proyecto y director
de obras as como a los Ingenieros Tcnicos, el importe de sus respectivos honorarios
facultativos por formacin del proyecto, direccin tcnica y administracin en su caso,
con arreglo a las tarifas y honorarios vigentes.
14. Concluida la ejecucin de la obra, ser reconocida por el Ingeniero Director que a
tal efecto designe la empresa.
15. La garanta definitiva ser del 4% del presupuesto y la provisional del 2%.
17. La fecha de comienzo de las obras ser a partir de los 15 das naturales del
replanteo oficial de las mismas y la definitiva, al ao de haber ejecutado la provisional,
procedindose si no existe reclamacin alguna, a la reclamacin de la fianza.
101
Reduccin de ruido en grabaciones de audio Anexos
19. El contratista est obligado a designar una persona responsable que se entender
con el Ingeniero Director de obras, o con el delegado que ste designe, para todo
relacionado con ella. Al ser el Ingeniero Director de obras el que interpreta el proyecto,
el contratista deber consultarle cualquier duda que surja en su realizacin.
Condiciones particulares
102
Reduccin de ruido en grabaciones de audio Anexos
103
Reduccin de ruido en grabaciones de audio Anexos
104