Estudio de la decodificación de proteínas con fines predictivos

Sanz Delgado, Irati

Estudio de la decodificación de proteínas con fines predictivos

Files

sanz.134050_TFG.pdf (5.31 MB)

Date

2023

Authors

Sanz Delgado, Irati

Director

Moler Cuiral, José Antonio

Acceso abierto / Sarbide irekia

Trabajo Fin de Grado / Gradu Amaierako Lana

Abstract

Este estudio se enfoca en investigar el potencial predictivo de diversas decodificaciones de secuencias proteicas en relación con caracteríticas determinantes para la idoneidad de las proteínas en estudios clínicos. Además de analizar las secuencias proteicas, se abordan aspectos como la actividad de las proteínas mediante un problema de clasificación binaria, utilizando datos suministrados por Telum Therapeutics S.L. Se emplearon cinco decodificaciones del paquete protp de R Studio y se exploraron diversos modelos predictivos, incluyendo Random Forest, SVM Radial y Gradient Boosting como enfoques de aprendizaje automático, y Regresión Logística como un enfoque estadístico. Los resultados destacan que las decodificaciones de menor dimensionalidad demostraron un rendimiento superior, independientemente del modelo utilizado. Sin embargo, se observó que no existe un modelo universalmente efectivo para todos los problemas planteados. Se sugiere que un aumento en el tamaño de la muestra podría proporcionar un respaldo sólido para ciertos resultados, como el mayor rendimiento de la decodificación basada en la composición en la predicción de la actividad de las proteínas, en comparación con los datos experimentales proporcionados por Telum. Este enfoque podría resultar en un ahorro significativo de tiempo y recursos en términos de la cantidad de experimentos necesarios para determinar la actividad de las proteínas.

This study focuses on investigating the predictive capability of various protein sequence decodings concerning critical features for protein suitability in clinical trials. In addition to the analysis of protein sequences, aspects related to protein activity are addressed through a binary classification problem, using data provided by Telum Therapeutics S.L. Five decodings from the protp package of R Studio were employed, and various predictive models were explored, including Random Forest, Radial SVM, and Gradient Boosting as machine learning approaches, and Logistic Regression as a statistical approach. The results highlight that lower-dimensional decodings exhibited superior performance, regardless of the model used. However, it was observed that there is no universally effective model for all the problems solved. It is suggested that an increase in the sample size could provide strong support for certain results, such as the improved performance of composition-based decoding in predicting protein activity compared to experimental data provided by Telum. This approach could result in significant time and resource savings in terms of the number of experiments needed to determine protein activity.

Keywords

Decodificación de proteínas, Estudios clínicos, Proceso Telum, Métodos de Decodificación, Protein decoding, Clinical studies, Telum Process, Decoding Methods

Faculty/School

Escuela Técnica Superior de Ingeniería Agronómica y Biociencias / Nekazaritzako Ingeniaritzako eta Biozientzietako Goi Mailako Eskola Teknikoa

Degree

Graduado o Graduada en Ciencia de Datos por la Universidad Pública de Navarra, Datu Zientzietan Graduatua Nafarroako Unibertsitate Publikoan

URI

https://academica-e.unavarra.es/handle/2454/46541

Collections

Trabajos Fin de Grado ETSIA - NIGMET Gradu Amaierako Lanak
Trabajos Fin de Grado - Gradu Amaierako Lanak

Full item page

Estudio de la decodificación de proteínas con fines predictivos

Files

Date

Authors

Director

Publisher

Project identifier

Abstract

Description

Keywords

Department

Faculty/School

Degree

Doctorate program

URI

item.page.cita

item.page.rights

Collections