Publication:
Sistematización de la búsqueda de hiperparámetros en Trimmomatic a través de la optimización bayesiana

dc.contributor.advisorTFEUrrestarazu Vidart, Jorge
dc.contributor.advisorTFEAlfaro Sánchez, Manuel
dc.contributor.affiliationEscuela Técnica Superior de Ingeniería Agronómica y Biocienciases_ES
dc.contributor.affiliationNekazaritzako Ingeniaritzako eta Biozientzietako Goi Mailako Eskola Teknikoaeu
dc.contributor.authorGarcía Amez, Mikel
dc.date.accessioned2023-10-19T15:02:03Z
dc.date.issued2023
dc.date.updated2023-10-17T09:10:29Z
dc.description.abstractEn la última década, los avances en la tecnología de secuenciación de datos genéticos, como la Secuenciación de Nueva Generación (NGS) de Illumina, han revolucionado la genómica al aumentar la velocidad y reducir los costos de secuenciación. Sin embargo, la optimización de los hiperparámetros en programas como Trimmomatic aún no se ha implementado de manera extensiva. En este trabajo, se propone un algoritmo de optimización bayesiana para ajustar los hiperparámetros "slidingWindow" y "QualityThreshold", buscando mejorar la calidad y eficiencia del filtrado de datos NGS, utilizando un enfoque que ha demostrado ser efectivo en otros campos de la genética, ofreciendo la posibilidad de obtener configuraciones óptimas sin incurrir en altos costos computacionales. Se desarrolló una interfaz en Python que simplifica la configuración de parámetros y mejora la interacción de los usuarios con Trimmomatic. Esta interfaz fue utilizada para comunicar Trimmomatic con SMAC, un módulo de Python que implementa varias técnicas de optimización bayesiana. Los resultados obtenidos en este trabajo muestran como la optimización bayesiana supone una herramienta eficaz para resolver estos problemas de manera eficiente. Además, se introdujo una visualización que representa las variables de entrada y su relación con la calidad media de salida, lo que facilita la comprensión de los resultados. La validación de los resultados resaltó la importancia de equilibrar la mejora de la calidad con otros criterios para evitar sesgos en la eliminación de lecturas.es_ES
dc.description.abstractIn the last decade, advances in genetic data sequencing technology, such as Illumina's Next Generation Sequencing (NGS), have revolutionized genomics by increasing speed and reducing sequencing costs. However, hyperparameter optimization in programs such as Trimmomatic has not yet been extensively implemented. In this work, a Bayesian optimisation algorithm is proposed to adjust the hyperparameters "slidingWindow" and "QualityThreshold", seeking to improve the quality and efficiency of NGS data filtering, using an approach that has proven to be effective in other fields of genetics, offering the possibility of obtaining optimal configurations without incurring high computational costs. A Python interface was developed that simplifies parameter configuration and improves user interaction with Trimmomatic. This interface was used to communicate Trimmomatic with SMAC, a Python module that implements several Bayesian optimisation techniques. The results obtained in this work show how Bayesian optimisation is an effective tool to solve these problems efficiently. In addition, a visualisation representing the input variables and their relation to the average output quality was introduced, which facilitates the understanding of the results. Validation of the results highlighted the importance of balancing quality improvement with other criteria to avoid bias in sequence elimination.en
dc.description.degreeGraduado o Graduada en Ciencia de Datos por la Universidad Pública de Navarraes_ES
dc.description.degreeDatu Zientzietan Graduatua Nafarroako Unibertsitate Publikoaneu
dc.embargo.lift2025-10-01
dc.embargo.terms2025-10-01
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://academica-e.unavarra.es/handle/2454/46589
dc.language.isospaen
dc.rights.accessRightsAcceso embargado 2 años / 2 urteko bahituraes
dc.rights.accessRightsinfo:eu-repo/semantics/embargoedAccessen
dc.subjectOptimización bayesianaes_ES
dc.subjectTrimmomatices_ES
dc.subjectAjuste de hiperparámetroses_ES
dc.subjectNext Generation Sequencinges_ES
dc.subjectFiltrado de lecturases_ES
dc.subjectPhred33es_ES
dc.subjectIlluminaes_ES
dc.subjectBayesian Optimizationen
dc.subjectTrimmomaticen
dc.subjectHyperparameter Tuningen
dc.subjectNext Generation Sequencingen
dc.subjectRead trimmingen
dc.subjectPhred33en
dc.subjectIlluminaen
dc.titleSistematización de la búsqueda de hiperparámetros en Trimmomatic a través de la optimización bayesianaes_ES
dc.typeTrabajo Fin de Grado/Gradu Amaierako Lanaes
dc.typeinfo:eu-repo/semantics/bachelorThesisen
dspace.entity.typePublication

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
garcía.131679_TFG.pdf
Size:
1.74 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.78 KB
Format:
Item-specific license agreed to upon submission
Description: