Generación de consultas SPARQL para un grafo de conocimiento biomédico con Llama 3.1
Consultable a partir de
Date
Authors
Publisher
Project identifier
Abstract
Introducción: El manejo de grandes volúmenes de datos es un desafío clave en la investigación biomédica. Los grafos de conocimiento permiten integrar información heterogénea y descubrir relaciones entre entidades biomédicas. Sin embargo, su explotación requiere conocimientos avanzados en lenguajes como SPARQL, lo que dificulta su acceso. Para abordar esta limitación, los LLMs surgen como una solución prometedora, al transformar preguntas en lenguaje natural en consultas SPARQL. Su integración con grafos de conocimiento puede simplificar la extracción de información, reducir barreras técnicas y facilitar el descubrimiento de nuevas asociaciones biomédicas. Esta investigación busca desarrollar una metodología que optimice su uso en biomedicina Objetivos: El presente trabajo tiene como objetivo general desarrollar y comparar los enfoques de ingeniería de prompts y fine tuning en el LLM Llama para la conversión de preguntas en lenguaje natural a consultas SPARQL, para facilitar el acceso al repositorio RDF BioGateway. Como objetivos específicos se incluyen analizar los grafos presenten en BioGateway, analizar las capacidades y limitaciones del LLM LlaMa base, diseñar y evaluar estrategias de ingeniería de prompt, implementar un proceso de fine tuning, comparar la sintaxis y la semántica de las consultas SPARQL generadas con la ingeniería de prompts y con fine tuning. Metodología y desarrollo: El estudio utilizó el modelo LLaMA 3.1 8B para evaluar dos técnicas de optimización en la conversión de preguntas en lenguaje natural a consultas SPARQL. Se desarrolló en cuatro fases: primero, se analizó la estructura de BioGateway para comprender su organización. Luego, se evaluó el desempeño del modelo base sin entrenamiento, verificando la sintaxis y ejecución de las consultas generadas. Posteriormente, se aplicó la ingeniería de prompts, diseñando cuatro versiones con distintas maneras de proporcionar la estructura de la base de datos y ejemplos de consultas. A continuación, se realizó el fine tuning, entrenando el modelo con 50 preguntas y sus respectivas consultas SPARQL. Finalmente, se compararon ambas técnicas para determinar cuál ofrece mejores resultados en la conversión de preguntas en lenguaje natural a consultas estructuradas. Resultados: Las pruebas realizadas evidenciaron una mejora significativa en ambas técnicas en comparación con el modelo base. La mejor versión de ingeniería de prompts destacó la importancia de un prompt claro, con instrucciones precisas y un esquema de la base de datos en texto plano. Por otro lado, el fine tuning demostró ser más eficaz en la generación de consultas a partir de preguntas complejas, gracias a la solidez del dataset utilizado en el entrenamiento. Conclusiones: Se cumplieron los objetivos propuestos, confirmando la importancia de comprender previamente la estructura de la base de datos, lo que a su vez permitió definir las estrategias de entrenamiento del LLM. Los resultados evidenciaron que ambas técnicas mejoran el desempeño del LLM. En el caso de la ingeniería de prompts, se destacó la necesidad de diseñar prompts robustos con instrucciones claras, mientras que para el fine tuning, se identificó la importancia de contar con datasets de entrenamiento suficientemente amplios para que el modelo aprenda la tarea específica. En cuanto al rendimiento, el fine tuning se muestra como una alternativa eficaz para responder preguntas complejas.
Introduction: Managing large volumes of data is a key challenge in biomedical research. Knowledge graphs enable the integration of heterogeneous information and the discovery of relationships between biomedical entities. However, their exploitation requires advanced knowledge of query languages such as SPARQL, making access more difficult. To address this limitation, LLMs emerge as a promising solution by transforming natural language questions into SPARQL queries. Their integration with knowledge graphs can simplify information extraction, reduce technical barriers, and facilitate the discovery of new biomedical associations. This research aims to develop a methodology to optimize their use in biomedicine. Objectives: The present work aims to develop and compare the approaches of prompt engineering and fine-tuning in the LLM Llama for converting natural language questions into SPARQL queries, facilitating access to the RDF repository BioGateway. The specific objectives include analyzing the graphs present in BioGateway, evaluating the capabilities and limitations of the base LLM Llama, designing and assessing prompt engineering strategies, implementing a fine-tuning process, and comparing the syntax and semantics of the SPARQL queries generated through prompt engineering and fine-tuning. Methodology and Development: The study used the LLaMA 3.1 8B model to evaluate two optimization techniques in the conversion of natural language questions into SPARQL queries. It was developed in four phases: first, the structure of BioGateway was analyzed to understand its organization. Then, the performance of the base model without training was evaluated, verifying the syntax and execution of the generated queries. Subsequently, prompt engineering was applied, designing four versions with different ways of providing the structure of the database and examples of queries. Next, fine-tuning was performed, training the model with 50 questions and their respective SPARQL queries. Finally, both techniques were compared to determine which offers better results in the conversion of natural language questions into structured queries. Results: The tests performed showed a significant improvement in both techniques compared to the base model. The best version of prompt engineering highlighted the importance of a clear prompt, with precise instructions and a plain text database schema. On the other hand, fine-tuning proved to be more effective in generating queries from complex questions, thanks to the robustness of the dataset used in training. Conclusions: The proposed objectives were achieved, confirming the importance of understanding the structure of the database beforehand, which in turn allowed defining the LLM training strategies. The results showed that both techniques improve the performance of the LLM. In the case of prompt engineering, the need to design robust prompts with clear instructions was highlighted, while for finetuning, the importance of having sufficiently large training datasets was identified to enable the model to learn the specific task. Regarding performance, fine-tuning proves to be an effective alternative for answering complex questions.
Description
Keywords
Department
Faculty/School
Degree
Doctorate program
item.page.cita
item.page.rights
Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.