Evaluación de procesos de reconocimiento óptico de caracteres y detección de tablas para la clasificación automática de documentos y su integración en un gestor documental

Date

2020

Authors

Ayllón Lafuente, Leyre

Publisher

Acceso abierto / Sarbide irekia
Trabajo Fin de Grado / Gradu Amaierako Lana

Project identifier

Abstract

En este trabajo de fin de grado pretendemos desarrollar un algoritmo de detección de tablas en imágenes de documentos, complementando las funcionalidades de una librería de código abierto de reconocimiento de texto en imágenes, con el fin de realizar una clasificación automática de los documentos. Para facilitar las tareas de detección de tablas y reconocimiento de texto aplicaremos una fase previa de preprocesamiento de imágenes. El algoritmo desarrollado será aplicado a documentos escaneados para obtener características (palabras, número de páginas, número de tablas y estructura de las mismas…) que permitan crear un modelo de clasificación de documentos no estructurados mediante redes neuronales. La red neuronal se entrenará con documentos previamente etiquetados y permitirá la predicción de nuevos documentos en el momento de la digitalización de estos. El algoritmo desarrollado completo de preprocesamiento, detección de tablas y de texto y clasificación de imágenes escaneadas se integrará en una plataforma de gestión documental.

Description

Keywords

Clasificación de documentos, Redes neuronales, Procesamiento de imagen, OCR, Detección de tablas

Department

Faculty/School

Escuela Técnica Superior de Ingeniería Industrial, Informática y de Telecomunicación / Industria, Informatika eta Telekomunikazio Ingeniaritzako Goi Mailako Eskola Teknikoa

Degree

Graduado o Graduada en Ingeniería Informática por la Universidad Pública de Navarra, Informatika Ingeniaritzako Graduatua Nafarroako Unibertsitate Publikoan

Doctorate program

item.page.cita

item.page.rights

Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.