Sistematización de la búsqueda de hiperparámetros en Trimmomatic a través de la optimización bayesiana
Consultable a partir de
2025-10-01
Fecha
2023Autor
Versión
Acceso embargado 2 años / 2 urteko bahitura
Tipo
Trabajo Fin de Grado/Gradu Amaierako Lana
Impacto
|
nodoi-noplumx
|
Resumen
En la última década, los avances en la tecnología de secuenciación de datos genéticos, como la Secuenciación de Nueva Generación (NGS) de Illumina, han revolucionado la genómica al aumentar la velocidad y reducir los costos de secuenciación. Sin embargo, la optimización de los hiperparámetros en programas como Trimmomatic aún no se ha implementado de manera extensiva. En este trabajo, se propone ...
[++]
En la última década, los avances en la tecnología de secuenciación de datos genéticos, como la Secuenciación de Nueva Generación (NGS) de Illumina, han revolucionado la genómica al aumentar la velocidad y reducir los costos de secuenciación. Sin embargo, la optimización de los hiperparámetros en programas como Trimmomatic aún no se ha implementado de manera extensiva. En este trabajo, se propone un algoritmo de optimización bayesiana para ajustar los hiperparámetros "slidingWindow" y "QualityThreshold", buscando mejorar la calidad y eficiencia del filtrado de datos NGS, utilizando un enfoque que ha demostrado ser efectivo en otros campos de la genética, ofreciendo la posibilidad de obtener configuraciones óptimas sin incurrir en altos costos computacionales. Se desarrolló una interfaz en Python que simplifica la configuración de parámetros y mejora la interacción de los usuarios con Trimmomatic. Esta interfaz fue utilizada para comunicar Trimmomatic con SMAC, un módulo de Python que implementa varias técnicas de optimización bayesiana. Los resultados obtenidos en este trabajo muestran como la optimización bayesiana supone una herramienta eficaz para resolver estos problemas de manera eficiente. Además, se introdujo una visualización que representa las variables de entrada y su relación con la calidad media de salida, lo que facilita la comprensión de los resultados. La validación de los resultados resaltó la importancia de equilibrar la mejora de la calidad con otros criterios para evitar sesgos en la eliminación de lecturas. [--]
In the last decade, advances in genetic data sequencing technology, such as Illumina's Next
Generation Sequencing (NGS), have revolutionized genomics by increasing speed and reducing
sequencing costs. However, hyperparameter optimization in programs such as Trimmomatic has not
yet been extensively implemented. In this work, a Bayesian optimisation algorithm is proposed to
adjust the hyperpara ...
[++]
In the last decade, advances in genetic data sequencing technology, such as Illumina's Next
Generation Sequencing (NGS), have revolutionized genomics by increasing speed and reducing
sequencing costs. However, hyperparameter optimization in programs such as Trimmomatic has not
yet been extensively implemented. In this work, a Bayesian optimisation algorithm is proposed to
adjust the hyperparameters "slidingWindow" and "QualityThreshold", seeking to improve the quality
and efficiency of NGS data filtering, using an approach that has proven to be effective in other fields
of genetics, offering the possibility of obtaining optimal configurations without incurring high
computational costs. A Python interface was developed that simplifies parameter configuration and
improves user interaction with Trimmomatic. This interface was used to communicate Trimmomatic
with SMAC, a Python module that implements several Bayesian optimisation techniques. The results
obtained in this work show how Bayesian optimisation is an effective tool to solve these problems
efficiently. In addition, a visualisation representing the input variables and their relation to the average
output quality was introduced, which facilitates the understanding of the results. Validation of the
results highlighted the importance of balancing quality improvement with other criteria to avoid bias
in sequence elimination. [--]
Materias
Optimización bayesiana,
Trimmomatic,
Ajuste de hiperparámetros,
Next Generation Sequencing,
Filtrado de lecturas,
Phred33,
Illumina,
Bayesian Optimization,
Trimmomatic,
Hyperparameter Tuning,
Next Generation Sequencing,
Read trimming,
Phred33,
Illumina
Titulación
Graduado o Graduada en Ciencia de Datos por la Universidad Pública de Navarra /
Datuen Zientzietako Graduatua Nafarroako Unibertsitate Publikoan