Publication:
Extracción de información biológica mediante factorización matricial de datos de expresión génica

Consultable a partir de

Date

2024

Publisher

Acceso abierto / Sarbide irekia
Tesis doctoral / Doktoretza tesia

Project identifier

Abstract

En las últimas décadas, la aparición de herramientas eficaces de secuenciación genómica y de la biotecnología experimental de alto rendimiento ha dado lugar a enormes avances en las ciencias de la vida y la medicina, aportando profundos conocimientos sobre distintas perspectivas de los mecanismos moleculares subyacentes a los procesos biológicos. Las funciones y procesos celulares dependen de la interacción y comunicación coordinadas entre una amplia variedad de biomoléculas, como genes, proteínas, metabolitos y reguladores epigenéticos. Existen múltiples capas en las que tiene lugar la regulación y, por tanto, diferentes perspectivas desde las que observar la actividad biológica. Las distintas tecnologías conocidas comúnmente como ‘ómicas’ nos permiten medir cuantitativa y cualitativamente la estructura y actividad de muchas de estas biomoléculas. El coste de estas tecnologías ha descendido en los últimos años, lo que las ha hecho más comunes y ha permitido disponer de muchos datos para la investigación. Esta situación ha creado la necesidad de nuevas formas de gestionar, procesar y dar sentido a todos estos datos de forma integrada. Teniendo en cuenta que los datos biológicos pueden representarse fácilmente como una red en la que los nodos representan los distintos componentes biológicos (genes, proteínas, etc.) y las aristas representan la relación entre ellos, permitir que el aprendizaje automático incorpore al modelo información sobre la estructura de los grafos de conocimiento multiómico abre nuevas vías para hacer predicciones o descubrir nuevos patrones utilizando este conocimiento relacional para su aplicación en nuevos usos.


Azken hamarkadetan, sekuentziazio genomikoko tresna eraginkorren eta errendimendu handiko bioteknologia esperimentalen sorrerak aurrerapen izugarriak ekarri ditu bizitzaren zientzietan eta medikuntzan, prozesu biologikoen azpian dauden mekanismo molekularren ikuspuntu ezberdinen ikuspegi sakonak emanez. Funtzio eta prozesu zelularrak hainbat biomolekularen arteko elkarrekintza eta komunikazio koordinatuaren mende daude, hala nola geneak, proteinak, metabolitoak eta erregulatzaile epigenetikoak. Erregulazioa gertatzen den geruza anitz daude eta, beraz, jarduera biologikoa behatzeko ikuspegi desberdinak. ‘Omikak’ izenez ezagutzen diren teknologia ezberdinek biomolekula horietako askoren egitura eta jarduera kuantitatiboki eta kualitatiboki neurtzeko aukera ematen dute. Teknologia hauen kostua gutxitu egin da azken urteotan, eta horrek ohikoagoak egin ditu eta ikerketarako datu asko edukitzea ahalbidetu du. Egoera honek datu horiek guztiak modu integratuan kudeatzeko, prozesatzeko eta zentzua emateko modu berrien beharra sortu du. Kontuan izanda datu biologikoak erraz irudika daitezkeela sare gisa, zeinetan nodoek osagai biologiko desberdinak (geneak, proteinak, etab.) adierazten dituzten eta ertzek haien arteko erlazioa adierazten duten, ikaskuntza automatikoari buruzko informazioa barneratzeko aukera emanez. -omics knowledge graphs iragarpenak egiteko edo eredu berriak ezagutzeko bide berriak irekitzen ditu ezagutza erlazional hori erabilera berrietan aplikatzeko.


In the past decades, the advent of efficient genome sequencing tools and high-throughput experimental biotechnology has lead to enormous progress in the life science and medicine, providing deep insights on different perspectives of the molecular mechanisms underlying biological processes. Cellular functions and processes depend on the coordinated interaction and communication among a wide variety of biomolecules including genes, proteins, metabolites and epigenetic regulators. There are multiple layers in which regulation takes place and therefore different perspectives from which to observe biological activity. The different technologies commonly known as ‘omics’ allow us to quantitative and qualitative measure the structure and activity of many of these biomolecules. The cost of these technologies has dropped in latest years, making them more common and leading to a lot of data being available for research. This situation has created a need for new ways to manage, process, and make sense of all this data in an integrated way. Taking into account that biological data can be easily represented as a network where node represent the different biological components (genes, proteins, etc) and edges represent the relationship between them, enabling machine learning to incorporate information about the structure of multi-omics knowledge graphs into the model, opens new avenues to make predictions or discover new patterns using this relational knowledge for application in new use cases. By harnessing the power of integrated multi-omics analysis, we aim to simultaneously examine the molecular processes involved and their relationship, providing valuable insights into disease early diagnosis, identification of therapeutic targets, and biomarker discovery.

Keywords

Secuenciación genómica, Biotecnología experimental de alto rendimiento, Tecnologías ómicas, Datos biológicos, Aprendizaje automático, Genome sequencing, High-throughput experimental biotechnology, Omic technologies, Biological data, Machine learning

Department

Ciencias de la Salud / Osasun Zientziak

Faculty/School

Degree

Doctorate program

Programa de Doctorado en Ciencias de la Salud (RD 99/2011)
Osasun Zientzietako Doktoretza Programa (ED 99/2011)

Editor version

Funding entities

Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.