Please use this identifier to cite or link to this item:
http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor | 31249 | en_US |
dc.contributor.advisor | Efrén González Ramírez | en_US |
dc.contributor.advisor | Aldonso Becerra Sánchez | en_US |
dc.contributor.advisor | José Ismael De La Rosa Vargas | en_US |
dc.contributor.author | Gamaliel Moreno Chávez | en_US |
dc.contributor.author | Daniel Alaniz Lumbreras | en_US |
dc.contributor.other | https://orcid.org/0000-0002-7337-8974 | en_US |
dc.coverage.spatial | Global | en_US |
dc.creator | Velásquez Martínez, Emmanuel De Jesús | - |
dc.date.accessioned | 2023-10-30T19:02:04Z | - |
dc.date.available | 2023-10-30T19:02:04Z | - |
dc.date.issued | 2023-10-27 | - |
dc.identifier | info:eu-repo/semantics/acceptedVersion | en_US |
dc.identifier.uri | http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431 | - |
dc.identifier.uri | http://dx.doi.org/10.48779/ricaxcan-262 | - |
dc.description | Speech recognition today is a very common task in various everyday user systems; however, it lacks good effectiveness in noisy environments, such as moving vehicles, homes with background noise, mobile phones, among others. This work combines deep learning techniques with domain adaptation and Wavelet transform-based filtering to remove both stationary and non- stationary noise from speech signals. The approach employed aims to address automatic speech recognition (ASR) and speaker identification in noisy environments. This work demonstrates how a deep neural network model with domain adaptation can mitigate various types of noise. One of the theories to apply is the use of Optimal Transport in both the speech enhancement regression task and the speaker identification task; thus, the application of this theory in deep learning has been shown to improve the efficiency of training a deep learning model. Speech evaluations were conducted based on Short-Time Objective Intelligibility (STOI) and Perceptual Evaluation of Speech Quality (PESQ). The Wavelet transform (WT) was applied as a filtering technique to perform a second processing on the speech signal enhanced by the deep neural network, which on average achieved a 20% improvement in STOI and a 9% improvement in PESQ compared to the noisy signal. Finally, the method was evaluated in a pre-trained ASR scheme, achieving an overall word error rate reduction to 14.24% and an average of 99% in speaker identification. The proposed approach provides a significant improvement in speech recognition performance by addressing the problem of noisy speech in various environments. | en_US |
dc.description.abstract | El reconocimiento de voz en la actualidad es una tarea muy común en diversos sistemas cotidianos de usuario, sin embargo, carece de buena efectividad en entornos con ruido, como autos en movimiento, hogares con ruido ambiental, teléfonos móviles, entre otros. Este trabajo combina técnicas de aprendizaje profundo con adaptación de dominio y filtrado basado en la transformada Wavelet para eliminar el ruido estacionario y no estacionario en las señales de voz. El enfoque empleado tiene como objetivo abordar el reconocimiento automático de voz (RAV) y la identificación de locutor en entornos ruidosos. Este trabajo demuestra cómo un modelo de redes neuronales profundas con adaptación de dominio puede mitigar diversos tipos de ruido. Una de las teorías a aplicar es el uso del Transporte Óptimo tanto en la tarea de regresión para mejora del habla ruidosa y para la tarea de identificación de locutor; es así como que la aplicación de esta teoría en aprendizaje profundo ha demostrado mejorar la eficiencia para entrenar un modelo de aprendizaje profundo. Las evaluaciones del habla se realizaron con base a la inteligibilidad objetiva a corto plazo (STOI) y calidad de la evaluación perceptual del habla (PESQ). Se aplicó la transformada wavelet (TW) como técnica de filtrado para realizar un segundo procesamiento en la señal mejorada por la red neuronal profunda, que alcanzó en promedio una mejora del 20% en STOI y un 9% en PESQ respecto a la señal ruidosa. Por último, se evaluó el método en un esquema de RAV preentrenado, logrando una disminución general de la tasa de error de palabra a 14.24% y alcanzando en promedio un 99% en la identificación de locutor. El enfoque propuesto proporciona una mejora significativa en el rendimiento del reconocimiento del habla al abordar el problema del habla ruidosa en diversos entornos. | en_US |
dc.language.iso | spa | en_US |
dc.publisher | Universidad Autónoma de Zacatecas | en_US |
dc.relation.isbasedon | Maestro en Ciencias del Procesamiento de la Información | en_US |
dc.relation.uri | generalPublic | en_US |
dc.rights | Attribution 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/us/ | * |
dc.subject.classification | INGENIERIA Y TECNOLOGIA [7] | en_US |
dc.subject.other | Adaptación de dominio | en_US |
dc.subject.other | Redes Neuronales Profundas | en_US |
dc.subject.other | Reconocimiento de Voz | en_US |
dc.subject.other | Identificación de Locutor | en_US |
dc.title | Aplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido | en_US |
dc.type | info:eu-repo/semantics/masterThesis | en_US |
Appears in Collections: | *Tesis*-- M. en Ciencias del Proc. de la Info. |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TESIS_MCPI_EmmanueldeJesúsVelásquezMartínez.pdf | 6,02 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License