Publication: Estudio de la decodificación de proteínas con fines predictivos
Date
Authors
Director
Publisher
Project identifier
Abstract
Este estudio se enfoca en investigar el potencial predictivo de diversas decodificaciones de secuencias proteicas en relación con caracteríticas determinantes para la idoneidad de las proteínas en estudios clínicos. Además de analizar las secuencias proteicas, se abordan aspectos como la actividad de las proteínas mediante un problema de clasificación binaria, utilizando datos suministrados por Telum Therapeutics S.L. Se emplearon cinco decodificaciones del paquete protp de R Studio y se exploraron diversos modelos predictivos, incluyendo Random Forest, SVM Radial y Gradient Boosting como enfoques de aprendizaje automático, y Regresión Logística como un enfoque estadístico. Los resultados destacan que las decodificaciones de menor dimensionalidad demostraron un rendimiento superior, independientemente del modelo utilizado. Sin embargo, se observó que no existe un modelo universalmente efectivo para todos los problemas planteados. Se sugiere que un aumento en el tamaño de la muestra podría proporcionar un respaldo sólido para ciertos resultados, como el mayor rendimiento de la decodificación basada en la composición en la predicción de la actividad de las proteínas, en comparación con los datos experimentales proporcionados por Telum. Este enfoque podría resultar en un ahorro significativo de tiempo y recursos en términos de la cantidad de experimentos necesarios para determinar la actividad de las proteínas.
This study focuses on investigating the predictive capability of various protein sequence decodings concerning critical features for protein suitability in clinical trials. In addition to the analysis of protein sequences, aspects related to protein activity are addressed through a binary classification problem, using data provided by Telum Therapeutics S.L. Five decodings from the protp package of R Studio were employed, and various predictive models were explored, including Random Forest, Radial SVM, and Gradient Boosting as machine learning approaches, and Logistic Regression as a statistical approach. The results highlight that lower-dimensional decodings exhibited superior performance, regardless of the model used. However, it was observed that there is no universally effective model for all the problems solved. It is suggested that an increase in the sample size could provide strong support for certain results, such as the improved performance of composition-based decoding in predicting protein activity compared to experimental data provided by Telum. This approach could result in significant time and resource savings in terms of the number of experiments needed to determine protein activity.
Description
Keywords
Department
Faculty/School
Degree
Doctorate program
item.page.cita
item.page.rights
Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.