Publication:
Aplicación de algoritmos de machine learning en la prediccion de la diabetes mellitus tipo II

Consultable a partir de

2025-07-01

Date

2020

Authors

Alonso Castrillejo, Sergio

Publisher

Acceso embargado / Sarbidea bahitua dago
Trabajo Fin de Máster / Master Amaierako Lana

Project identifier

Abstract

Motivación. El conocimiento genético aportado por las nuevas tecnologías de secuenciación ha permitido desarrollar herramientas de predicción de riesgo a padecer enfermedades multifactoriales y poligénicas. En este sentido, se ha estudiado la diabetes mellitus tipo II (DMT2) mediante técnicas de computación como el machine learning (ML) para el desarrollo de herramientas predictivas de riesgo poligénico. Para ello, se empleó la información procedente del proyecto SUN e InCluSilver y se incluyó una selección de variables, limpieza de datos e imputación multivariante de datos faltantes sobre un tamaño muestral de 1000 participantes. Posteriormente, se aplicaron 7 algoritmos diferentes de ML supervisado y la técnica de k-fold cross validation empleando el lenguaje de programación R. Resultados. De los 7 algoritmos evaluados para comparar la capacidad predictiva del ML frente a los métodos tradicionales, los algoritmos basados en árboles de decisión no obtuvieron la robustez suficiente. Sin embargo, 2 de estos modelos como son el método K-nearest neighbours (KNN) y redes neuronales (NN) aportaron resultados con baja variabilidad, bajos índices de error y correlaciones positivas entre los datos de entrada y los valores predichos, siendo el modelo NN el que obtuvo los resultados más prometedores.


Motivation. The genetic knowledge provided by the new sequencing technologies has made it possible to development risk prediction tools for multifactorial and polygenic diseases. In this sense, Type II Diabetes Mellitus (T2DM) has been studied using computer techniques such as Machine Learning (ML) for the development of polygenic risk predictive tools. Information from the SUN and InCluSilver Projects was used, including a selection of variables, data cleaning and multivariate imputation of missing data on a sample size of 1000 participants. Subsequently, 7 different supervised ML algorithms and the k-fold cross validation technique were applied using the R programming language. Results. From the 7 algorithms evaluated to compare the predictive capacity of ML against traditional methods, algorithms based on decision trees did not obtain sufficient robustness. However, 2 of these models, such as the K-nearest neighbours (KNN) and neural networks (NN), provided results with low variability, low error rates, and positive correlations between the input data and the predicted values, being the NN model the one with the most promising results.

Keywords

Diabetes mellitus tipo II, Machine learning, Medicina de precisión, Riesgo poligénico, Redes neuronales, Type II Diabetes Mellitus, Precision medicine, Polygenic risk, Neural network

Department

Faculty/School

Facultad de Ciencias de la Salud / Osasun Zientzien Fakultatea

Degree

Máster Universitario en Investigación en Ciencias de la Salud, Unibertsitate Masterra Osasun Zientzietako Ikerketan

Doctorate program

Editor version

Funding entities

Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.