Please use this identifier to cite or link to this item: http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3432
Title: Esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses
Authors: Rodarte Rodríguez, Armando
Issue Date: 26-Oct-2023
Publisher: Universidad Autónoma de Zacatecas
Abstract: La biometría es una herramienta que permite identificar y autenticar personas por medio de rasgos biológicos que son irrepetibles en cada individuo. Esta herramienta ha permitido el desarrollo de aplicaciones de software y algoritmos inteligentes de procesamiento de voz en áreas como el análisis de información forense. Donde el objetivo de este campo de análisis es realizar la identificación de personas con fines de vigilancia y forenses. Sin embargo, los sistemas de procesamiento de voz aplicados en ambas áreas son poco confiables y precisos para analizar audios de baja calidad y con ruido ambiental. Por lo tanto, es necesario desarrollar nuevos modelos que sean más robustos en el procesamiento de este tipo de información para llevar a cabo tareas de identificación del hablante en escenarios criminales. A partir de la problemática mencionada, el objetivo de esta investigación es desarrollar un esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con propósitos forenses. Proporcionar este tipo de análisis de manera confiable servirá como apoyo adicional para reducir la cantidad de sentencias criminales incorrectas que son emitidas por el criminalista, juez y/o jurado en escenarios forenses. El esquema de red neuronal artificial propuesto utiliza funciones de activación paramétricas y neuronas estándar como unidades de soporte para la optimización de los parámetros entrenables de las funciones de activación. A este modelo de red neuronal se le ha llamado red neuronal artificial con neuronas de soporte. En relación con las funciones de activación paramétricas, se desarrollaron dos funciones con parámetros entrenables, AReLU y MPReLU, que son versiones simplificadas de DPReLU. Adicionalmente, en este estudio se implementaron diferentes configuraciones de redes neuronales artificiales con la finalidad de comparar el rendimiento del esquema propuesto contra la arquitectura de una red neuronal convencional. Para interactuar con el modelo óptimo presentado, se desarrolló la aplicación de escritorio HAAF. Por otra parte, se usó un conjunto de datos con 158 hablantes nativos del idioma español (122 hombres y 36 mujeres) para entrenar y evaluar el rendimiento de los diferentes experimentos. Estas grabaciones incluyen diversos tipos de calidad y ruidos ambientales. La configuración que demostró el mejor rendimiento, en las actividades de identificación de locutores y en audios con ruido ambiental, fue el modelo de red neuronal artificial con neuronas de soporte y el uso de la función de activación MPReLU. Este modelo alcanzó una exactitud del 98.68% y un puntaje F1 del 98.28%. Por último, los resultados obtenidos revelan que las neuronas de soporte son una unidad de procesamiento efectiva para optimizar de manera automática parámetros internos de las redes neuronales artificiales. También, el uso de funciones paramétricas puede ayudar a realizar un modelado más acorde al comportamiento de los datos, añadiendo robustez al modelado de información con ruido.
Description: Biometrics is a tool that allows to identify and authenticate people through biological characteristics that are unique to each individual. This tool has allowed the development of software applications and intelligent voice processing algorithms in fields such as forensic information analysis. Where the goal of this field of analysis is to identify people for surveillance and forensic purposes. However, the voice processing systems applied in both areas are not very reliable or accurate for analyzing low-quality audio and with environmental noise. Therefore, it is necessary to develop new models more robust in processing this type of information to carry out speaker identification tasks in criminal scenarios. Based on the problem mentioned above, the objective of this research is to develop an artificial neural network scheme for speaker identification tasks in noisy environments and for forensic purposes. Providing this type of analysis reliably will serve as additional support to reduce the issuance of incorrect criminal sentences issued by the criminalist, judge, and/or jury in forensic scenarios. The proposed artificial neural network scheme uses parametric activation functions and standard neurons as support units for the optimization of trainable parameters in the parametric activation functions. This proposed neural network model has been called an artificial neural network with support neurons. In relation to parametric activation functions, two parametric functions were developed: AReLU and MPReLU, which are simplified versions of DPReLU. In addition, in this study, different configurations of artificial neural networks were implemented in order to compare the performance of the proposed scheme against the architecture of a conventional neural network. To interact with the proposed optimal model, the HAAF desktop application was developed. On the other hand, a dataset with 158 native Spanish speakers (122 men and 36 women) was used to train and evaluate the performance of the different conducted experiments. These recordings include various types of quality and environmental noise. The configuration that showed the best performance, in speaker identification tasks and in audio with ambient noise, was the artificial neural network model with support neurons and the use of the MPReLU activation function. This model achieved an accuracy of 98.68% and an F1 score of 98.28%. Finally, the results obtained reveal that support neurons are an effective processing unit for automatically optimizing internal parameters of artificial neural networks. Also, the use of parametric functions can help to perform modeling that is more in line with the behavior of the data, and it improves the robustness of the information modeling with noise.
URI: http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3432
http://dx.doi.org/10.48779/ricaxcan-263
Other Identifiers: info:eu-repo/semantics/acceptedVersion
Appears in Collections:*Tesis*-- M. en Ciencias del Proc. de la Info.

Files in This Item:
File Description SizeFormat 
TESIS_MCPI_ArmandoRodarteRodriguez.pdf9,99 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons