Selección de matabolitos como características de un modelo de bosques aleatorios para el diagnóstico del COVID-19

Torres Pasillas, Hugo Alexis

Please use this identifier to cite or link to this item: http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3575

Title:	Selección de matabolitos como características de un modelo de bosques aleatorios para el diagnóstico del COVID-19
Authors:	Torres Pasillas, Hugo Alexis
Issue Date:	1-Jun-2023
Publisher:	Research in Computing Science
Abstract:	El COVID-19 es una enfermedad reciente que surgió a finales de 2019 causado por un nuevo tipo de coronavirus. A pesar de los avances en la investigación del virus y el desarrollo tanto de vacunas como de posibles tratamientos, el diagnóstico de la enfermedad, especialmente de forma temprana, continúa siendo una de las mejores herramientas para combatir la enfermedad y su transmisión. El objetivo de este estudio es seleccionar el mejor conjunto de metabolitos como potenciales biomarcadores para el diagnóstico, que son utilizados como características de un modelo de bosques aleatorios. Para ello, se utilizaron 4 diferentes técnicas de selección de características que son utilizadas con frecuencia dentro del Aprendizaje Automático, y un conjunto de datos que contiene mediciones de 110 metabolitos de 158 pacientes sospechosos de COVID-19 (121 enfermos y 37 sanos confirmados por pruebas rt-PCR). Los resultados muestran cuatro distintos conjuntos de metabolitos capaces de diagnosticar el COVID-19 con un alto desempeño en 6 distintas métricas utilizadas. El conjunto con mejor rendimiento en el conjunto de entrenamiento consta de 15 metabolitos y logra tener un desempeño alto en la validación a ciegas (f1=0.921, exactitud balanceada=0.875, AUC=0.910), mientras que el conjunto con menor número de características (5) obtiene el segundo mejor rendimiento en el conjunto de entrenamiento pero el mejor desempeño en la validación a ciegas (f1=0.931, exactitud balanceada=0.896, AUC=0.858).
Description:	COVID-19 is a recent disease that emerged in late 2019 caused by a new type of coronavirus. Despite advances in virus research and the development of both vaccines and potential treatments, early and accurate diagnosis of the disease remains one of the best tools to combat the disease and its transmission. The aim of this study is to select the best set of metabolites as potential biomarkers for diagnosis, which are used as features of a random forest model. To achieve this, four different feature selection techniques that are frequently used in Machine Learning, and a dataset containing measurements of 110 metabolites from 158 suspected COVID-19 patients (121 confirmed patients and 37 confirmed healthy by rt-PCR tests) were used. The results show four different sets of metabolites capable of diagnosing COVID-19 with high performance in six different metrics used. The set with the best performance in the training set consists of 15 metabolites and achieves high performance in blind validation (f1=0.921, balanced accuracy=0.875, AUC=0.910), while the set with the smallest number of features (5) obtains the second best performance in the training set but the best performance in blind validation (f1=0.931, balanced accuracy=0.896, AUC=0.858).
URI:	http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3575 http://dx.doi.org/10.48779/ricaxcan-394
ISSN:	1870-4069
Other Identifiers:	info:eu-repo/semantics/publishedVersion
Appears in Collections:	Documentos Académicos-- M. en Ciencias del Proc. de la Info.

Files in This Item:

File	Description	Size	Format
ARTICULO-MCPI_HugoAlexisTorresPasillas.pdf	Producto del programa de Maestría en Ciencias del Procesamiento de la Información, programa Categoría 1 del Sistema Nacional de Posgrados CONAHCYT.	3,38 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License