Fine-tuning de un motor OCR para documentos de identidad

Consultable a partir de

2030-06-11

Date

2025

Authors

Cameo Sáez, Rubén

Publisher

Acceso embargado / Sarbidea bahitua dago
Trabajo Fin de Grado / Gradu Amaierako Lana

Project identifier

Abstract

Veridas es una empresa de Navarra especializada en el desarrollo de tecnología para la verificación de la identidad. Su tecnología se aplica en diversos ámbitos, como la autenticación mediante documentos de identidad, pasaportes o licencias de conducir, entre otros. Para que este proceso de validación de identidad sea lo más preciso posible, es crucial que la extracción de datos relevantes de los documentos se realice correctamente. Es en este contexto donde el Reconocimiento Óptico de Caracteres (OCR) juega un papel fundamental, ya que permite convertir la información que aparece en la imagen en cadenas de texto digitalizadas, facilitando la validación de la identidad de la persona. Actualmente, en la empresa se utiliza un motor de OCR de propósito general cuyo objetivo es extraer texto a partir de imágenes. No obstante, su rendimiento puede no ser óptimo para nuestro caso de uso, en el que son frecuentes imágenes borrosas o caracteres poco convencionales. Por ello, este proyecto plantea realizar un fine-tuning del modelo con el fin de especializarlo y mejorar la precisión en la extracción de datos en este dominio.


Veridas, a company based in Navarre, focuses on developing technology for identity verification. Their solutions are used in various contexts, including authentication through ID cards, passports, and driver’s licenses. A key part of ensuring accurate identity validation lies in correctly extracting essential data from these documents. This is where Optical Character Recognition (OCR) becomes essential, due to its ability to convert image-based text into machine-readable digital information, facilitating a more reliable verification process. Currently, the company employs a general-purpose OCR engine designed to extract text from images. However, its performance is not always optimal for their specific needs, especially when dealing with blurred images or unusual character sets. As a result, this project aims to fine-tune the model to better suit these challenges.

Description

Keywords

Reconocimiento óptico de caracteres, Fine-tuning, Machine learning, Visión artificial, Optical Character Recognition (OCR), Fine-tuning, Machine learning, Computer vision

Department

Faculty/School

Escuela Técnica Superior de Ingeniería Industrial, Informática y de Telecomunicación / Industria, Informatika eta Telekomunikazio Ingeniaritzako Goi Mailako Eskola Teknikoa

Degree

Graduado o Graduada en Ingeniería en Tecnologías de Telecomunicación por la Universidad Pública de Navarra, Telekomunikazio Teknologien Ingeniaritzako Graduatua Nafarroako Unibertsitate Publikoan

Doctorate program

item.page.cita

item.page.rights

Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.