Please use this identifier to cite or link to this item: http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431
Full metadata record
DC FieldValueLanguage
dc.contributor31249en_US
dc.contributor.advisorEfrén González Ramírezen_US
dc.contributor.advisorAldonso Becerra Sánchezen_US
dc.contributor.advisorJosé Ismael De La Rosa Vargasen_US
dc.contributor.authorGamaliel Moreno Chávezen_US
dc.contributor.authorDaniel Alaniz Lumbrerasen_US
dc.contributor.otherhttps://orcid.org/0000-0002-7337-8974en_US
dc.coverage.spatialGlobalen_US
dc.creatorVelásquez Martínez, Emmanuel De Jesús-
dc.date.accessioned2023-10-30T19:02:04Z-
dc.date.available2023-10-30T19:02:04Z-
dc.date.issued2023-10-27-
dc.identifierinfo:eu-repo/semantics/acceptedVersionen_US
dc.identifier.urihttp://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431-
dc.identifier.urihttp://dx.doi.org/10.48779/ricaxcan-262-
dc.descriptionSpeech recognition today is a very common task in various everyday user systems; however, it lacks good effectiveness in noisy environments, such as moving vehicles, homes with background noise, mobile phones, among others. This work combines deep learning techniques with domain adaptation and Wavelet transform-based filtering to remove both stationary and non- stationary noise from speech signals. The approach employed aims to address automatic speech recognition (ASR) and speaker identification in noisy environments. This work demonstrates how a deep neural network model with domain adaptation can mitigate various types of noise. One of the theories to apply is the use of Optimal Transport in both the speech enhancement regression task and the speaker identification task; thus, the application of this theory in deep learning has been shown to improve the efficiency of training a deep learning model. Speech evaluations were conducted based on Short-Time Objective Intelligibility (STOI) and Perceptual Evaluation of Speech Quality (PESQ). The Wavelet transform (WT) was applied as a filtering technique to perform a second processing on the speech signal enhanced by the deep neural network, which on average achieved a 20% improvement in STOI and a 9% improvement in PESQ compared to the noisy signal. Finally, the method was evaluated in a pre-trained ASR scheme, achieving an overall word error rate reduction to 14.24% and an average of 99% in speaker identification. The proposed approach provides a significant improvement in speech recognition performance by addressing the problem of noisy speech in various environments.en_US
dc.description.abstractEl reconocimiento de voz en la actualidad es una tarea muy común en diversos sistemas cotidianos de usuario, sin embargo, carece de buena efectividad en entornos con ruido, como autos en movimiento, hogares con ruido ambiental, teléfonos móviles, entre otros. Este trabajo combina técnicas de aprendizaje profundo con adaptación de dominio y filtrado basado en la transformada Wavelet para eliminar el ruido estacionario y no estacionario en las señales de voz. El enfoque empleado tiene como objetivo abordar el reconocimiento automático de voz (RAV) y la identificación de locutor en entornos ruidosos. Este trabajo demuestra cómo un modelo de redes neuronales profundas con adaptación de dominio puede mitigar diversos tipos de ruido. Una de las teorías a aplicar es el uso del Transporte Óptimo tanto en la tarea de regresión para mejora del habla ruidosa y para la tarea de identificación de locutor; es así como que la aplicación de esta teoría en aprendizaje profundo ha demostrado mejorar la eficiencia para entrenar un modelo de aprendizaje profundo. Las evaluaciones del habla se realizaron con base a la inteligibilidad objetiva a corto plazo (STOI) y calidad de la evaluación perceptual del habla (PESQ). Se aplicó la transformada wavelet (TW) como técnica de filtrado para realizar un segundo procesamiento en la señal mejorada por la red neuronal profunda, que alcanzó en promedio una mejora del 20% en STOI y un 9% en PESQ respecto a la señal ruidosa. Por último, se evaluó el método en un esquema de RAV preentrenado, logrando una disminución general de la tasa de error de palabra a 14.24% y alcanzando en promedio un 99% en la identificación de locutor. El enfoque propuesto proporciona una mejora significativa en el rendimiento del reconocimiento del habla al abordar el problema del habla ruidosa en diversos entornos.en_US
dc.language.isospaen_US
dc.publisherUniversidad Autónoma de Zacatecasen_US
dc.relation.isbasedonMaestro en Ciencias del Procesamiento de la Informaciónen_US
dc.relation.urigeneralPublicen_US
dc.rightsAttribution 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/us/*
dc.subject.classificationINGENIERIA Y TECNOLOGIA [7]en_US
dc.subject.otherAdaptación de dominioen_US
dc.subject.otherRedes Neuronales Profundasen_US
dc.subject.otherReconocimiento de Vozen_US
dc.subject.otherIdentificación de Locutoren_US
dc.titleAplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruidoen_US
dc.typeinfo:eu-repo/semantics/masterThesisen_US
Appears in Collections:*Tesis*-- M. en Ciencias del Proc. de la Info.

Files in This Item:
File Description SizeFormat 
TESIS_MCPI_EmmanueldeJesúsVelásquezMartínez.pdf6,02 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons