Publication: Sistematización de la búsqueda de hiperparámetros en Trimmomatic a través de la optimización bayesiana
dc.contributor.advisorTFE | Urrestarazu Vidart, Jorge | |
dc.contributor.advisorTFE | Alfaro Sánchez, Manuel | |
dc.contributor.affiliation | Escuela Técnica Superior de Ingeniería Agronómica y Biociencias | es_ES |
dc.contributor.affiliation | Nekazaritzako Ingeniaritzako eta Biozientzietako Goi Mailako Eskola Teknikoa | eu |
dc.contributor.author | García Amez, Mikel | |
dc.date.accessioned | 2023-10-19T15:02:03Z | |
dc.date.issued | 2023 | |
dc.date.updated | 2023-10-17T09:10:29Z | |
dc.description.abstract | En la última década, los avances en la tecnología de secuenciación de datos genéticos, como la Secuenciación de Nueva Generación (NGS) de Illumina, han revolucionado la genómica al aumentar la velocidad y reducir los costos de secuenciación. Sin embargo, la optimización de los hiperparámetros en programas como Trimmomatic aún no se ha implementado de manera extensiva. En este trabajo, se propone un algoritmo de optimización bayesiana para ajustar los hiperparámetros "slidingWindow" y "QualityThreshold", buscando mejorar la calidad y eficiencia del filtrado de datos NGS, utilizando un enfoque que ha demostrado ser efectivo en otros campos de la genética, ofreciendo la posibilidad de obtener configuraciones óptimas sin incurrir en altos costos computacionales. Se desarrolló una interfaz en Python que simplifica la configuración de parámetros y mejora la interacción de los usuarios con Trimmomatic. Esta interfaz fue utilizada para comunicar Trimmomatic con SMAC, un módulo de Python que implementa varias técnicas de optimización bayesiana. Los resultados obtenidos en este trabajo muestran como la optimización bayesiana supone una herramienta eficaz para resolver estos problemas de manera eficiente. Además, se introdujo una visualización que representa las variables de entrada y su relación con la calidad media de salida, lo que facilita la comprensión de los resultados. La validación de los resultados resaltó la importancia de equilibrar la mejora de la calidad con otros criterios para evitar sesgos en la eliminación de lecturas. | es_ES |
dc.description.abstract | In the last decade, advances in genetic data sequencing technology, such as Illumina's Next Generation Sequencing (NGS), have revolutionized genomics by increasing speed and reducing sequencing costs. However, hyperparameter optimization in programs such as Trimmomatic has not yet been extensively implemented. In this work, a Bayesian optimisation algorithm is proposed to adjust the hyperparameters "slidingWindow" and "QualityThreshold", seeking to improve the quality and efficiency of NGS data filtering, using an approach that has proven to be effective in other fields of genetics, offering the possibility of obtaining optimal configurations without incurring high computational costs. A Python interface was developed that simplifies parameter configuration and improves user interaction with Trimmomatic. This interface was used to communicate Trimmomatic with SMAC, a Python module that implements several Bayesian optimisation techniques. The results obtained in this work show how Bayesian optimisation is an effective tool to solve these problems efficiently. In addition, a visualisation representing the input variables and their relation to the average output quality was introduced, which facilitates the understanding of the results. Validation of the results highlighted the importance of balancing quality improvement with other criteria to avoid bias in sequence elimination. | en |
dc.description.degree | Graduado o Graduada en Ciencia de Datos por la Universidad Pública de Navarra | es_ES |
dc.description.degree | Datu Zientzietan Graduatua Nafarroako Unibertsitate Publikoan | eu |
dc.embargo.lift | 2025-10-01 | |
dc.embargo.terms | 2025-10-01 | |
dc.format.mimetype | application/pdf | en |
dc.identifier.uri | https://academica-e.unavarra.es/handle/2454/46589 | |
dc.language.iso | spa | en |
dc.rights.accessRights | Acceso embargado 2 años / 2 urteko bahitura | es |
dc.rights.accessRights | info:eu-repo/semantics/embargoedAccess | en |
dc.subject | Optimización bayesiana | es_ES |
dc.subject | Trimmomatic | es_ES |
dc.subject | Ajuste de hiperparámetros | es_ES |
dc.subject | Next Generation Sequencing | es_ES |
dc.subject | Filtrado de lecturas | es_ES |
dc.subject | Phred33 | es_ES |
dc.subject | Illumina | es_ES |
dc.subject | Bayesian Optimization | en |
dc.subject | Trimmomatic | en |
dc.subject | Hyperparameter Tuning | en |
dc.subject | Next Generation Sequencing | en |
dc.subject | Read trimming | en |
dc.subject | Phred33 | en |
dc.subject | Illumina | en |
dc.title | Sistematización de la búsqueda de hiperparámetros en Trimmomatic a través de la optimización bayesiana | es_ES |
dc.type | Trabajo Fin de Grado/Gradu Amaierako Lana | es |
dc.type | info:eu-repo/semantics/bachelorThesis | en |
dspace.entity.type | Publication |