Implementación de una prueba de concepto con Galaxy en un entorno open-source colaborativo para el procesamiento distribuido de ficheros protegidos

Date

2024

Authors

Mendiluce de Orte, Fernando

Publisher

Acceso abierto / Sarbide irekia
Trabajo Fin de Grado / Gradu Amaierako Lana

Project identifier

Abstract

Introducción: En las últimas dos décadas, la explosión en la generación de datos ha dado lugar al fenómeno del Big Data, caracterizado por la producción masiva de datos no estructurados que requieren análisis en tiempo real. El proyecto europeo HE RAISE (Research Analysis Identifier SystEm) surge como respuesta a estos desafíos, proponiendo una infraestructura distribuida para el procesamiento colaborativo de datos científicos. RAISE se basa en los Principios Guía FAIR para garantizar la accesibilidad, interoperabilidad y reutilización de los datos. Galaxy, una plataforma reconocida en la gestión de datos científicos, se integra con RAISE para explorar su capacidad en el procesamiento y análisis distribuido de datos a gran escala, ofreciendo una solución escalable y eficiente para la comunidad científica. Objetivos: Implementación de una red de Galaxy que permita la ejecución distribuida de procesos sin comprometer la privacidad de los datos, siguiendo el diseño y caso de uso de RAISE. Como objetivos secundarios se incluyen el despliegue local y personalización de la aplicación, la adaptación de la librería Total-Perspective-Vortex al entorno Galaxy, así como el despliegue de una instancia de MinIO para el manejo de las bases de datos. Metodología: Se utilizó un primer repositorio para la personalización de la aplicación y para la implementación de la autenticación por correo y por Google. Además, se añadió una instancia de Minio para el almacenamiento de bases de datos y una extensión TPV para la distribución de trabajos. Finalmente, se cambió de repositorio para el despliegue de una instancia de pulsar que actuara como nodo en la red creada y se terminó usando un archivo Python para la distribución de trabajos según el dataset a utilizar. Este archivo siguió un criterio de distribución en base a una tabla adjuntada con la información de las bases de datos y su ubicación en los nodos. Resultados: En cuanto a la autenticación por correo, se recibió un correo del administrador para la verificación del usuario. Por otra parte, se comprobó el funcionamiento de la red de distribución de trabajos mediante la ejecución de una herramienta de prueba y se observó que se ejecutaba en el nodo correcto. Conclusiones: En general, el proyecto logró simular eficazmente el caso de uso de RAISE a pequeña escala, cumpliendo los objetivos propuestos. Se concluyó que mediante Pulsar y TPV es posible crear una red de distribución de trabajos de manera eficiente.

Description

Keywords

Galaxy, Big Data, MinIO, Proyecto RAISE, Open source

Department

Faculty/School

Escuela Técnica Superior de Ingeniería Industrial, Informática y de Telecomunicación / Industria, Informatika eta Telekomunikazio Ingeniaritzako Goi Mailako Eskola Teknikoa

Degree

Graduado o Graduada en Ingeniería Biomédica por la Universidad Pública de Navarra, Ingeniaritza Biomedikoko Graduatua Nafarroako Unibertsitate Publikoan

Doctorate program

item.page.cita

item.page.rights

Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.