Publication: Evaluación de herramientas de reconocimiento de voz para la digitalización de checklists médicos
Consultable a partir de
Date
Authors
Publisher
Project identifier
Abstract
Introducción: La comprensión del lenguaje hablado y la transcripción de voz a texto representan uno de los avances más significativos de la inteligencia artificial. Los sistemas de reconocimiento de voz (ASR) procesan señales de audio para convertirlas en texto. La precisión durante este proceso puede variar por distintos factores como el entorno, aspectos tonales y lingüísticos. Dependiendo del modelo utilizado y datos usados en el entrenamiento, los sistemas que consideran estos aspectos pueden hacer una mejor transcripción. Las investigaciones con respecto al uso específico de sistemas ASR probados en español y en entornos médicos son limitados. Esta limitación cobra relevancia cuando se busca implementar aplicaciones de gestión médica en entornos locales o en dispositivos con recursos computacionales restringidos. En estos casos, realizar una evaluación personalizada para identificar la solución más apropiada puede impactar en la calidad de atención al paciente. De igual modo, la precisión en estos sistemas es crucial ya que sus resultados sirven como base para tareas posteriores como la extracción de información, la clasificación de datos y la generación de contenido. Objetivos: desarrollar e implementar diferentes sistemas de reconocimiento de voz para el reconocimiento de terminología médica especializada, orientados a la generación automatizada de notas y observaciones clínicas en local. Asimismo, realizar la evaluación y comparación de los sistemas de reconocimiento de voz para determinar el más óptimo mediante un análisis de las métricas de rendimiento, tanto en la precisión del reconocimiento como en su eficiencia computacional. Finalmente, integrar el mejor sistema ASR en la aplicación web para la toma de notas. Metodología: se realizó un análisis bibliográfico para determinar el tipo de prueba, evaluación y selección de métricas de rendimiento. De forma que, se realizaron 3 tipos de pruebas enfocadas en entornos médicos especialmente en la terminología especializada y diferentes entornos con ruido. Posteriormente, se realizó un análisis comparativo de rendimiento utilizando métricas específicas para evaluar tanto la precisión del reconocimiento como el rendimiento computacional. Finalmente, se realizó la implementación del sistema que demostró mejor desempeño en la aplicación en local. Resultados: se realizaron 3 pruebas distintas con 5 sistemas de reconocimiento de voz en local, (Vosk, Wav2Vec2, DeepSpeech, Whisper, Speech-To-Text). Las evaluaciones y análisis de rendimiento de los sistemas se realizaron utilizando métricas de tasa de error por palabra (WER), tasa de error por carácter (CER), tasa de coincidencia (MER), pérdida de información (WIL) y similitud semántica. Como análisis complementario, se muestra una exploración preliminar sobre la clasificación de texto. Por último, se evaluaron métricas del rendimiento computacional: latencia y carga del CPU. Conclusiones: se desarrolló e implementó localmente el sistema ASR más eficiente para el reconocimiento de terminología especializada. El análisis combinado presentó una base para implementar estos sistemas localmente, aunque se requiere explorar sistemas ASR más avanzados y mejorar el entrenamiento con conjuntos de datos especializados para mejorar el desempeño.
Introduction: Spoken language understanding and speech-to-text transcription represent one of the most significant advances in artificial intelligence. Automatic speech recognition systems (ASR) process audio signals to convert them into text. Accuracy during this process can vary due to different factors such as environment, tonal and linguistic aspects. Depending on the model used and data used in training, systems that take these aspects into account may transcribe better. Research regarding the specific use of ASR systems tested in Spanish and in medical environments is limited. This limitation becomes relevant when seeking to implement medical management applications in local environments or on devices with restricted computational resources. In these cases, performing a customized evaluation to identify the most appropriate solution can impact the quality of patient care. Similarly, accuracy in these systems is crucial as their results serve as the basis for subsequent tasks such as information extraction, data classification and content generation. Objectives: develop and implement different speech recognition systems for the recognition of specialized medical terminology, oriented to the automated generation of local clinical notes and observations. Also, to evaluate and compare speech recognition systems to determine the most optimal one by analyzing performance metrics, both in terms of recognition accuracy and computational efficiency. Finally, integrate the best ASR system into the web-based note-taking application. Methodology: a bibliographic analysis was carried out to determine the type of test, evaluation and selection of performance metrics. Thus, 3 types of tests were performed focused on medical environments especially on specialized terminology and different environments with noise. Subsequently, a comparative performance analysis was performed using specific metrics to evaluate both recognition accuracy and computational performance. Finally, the system that showed the best performance in the local application was implemented. Results: 3 different tests were performed with 5 local speech recognition systems (Vosk, Wav2Vec2, DeepSpeech, Whisper, Speech-To-Text). Evaluations and performance analysis of the systems were performed using word error rate (WER), character error rate (CER), match rate (MER), information loss (WIL) and semantic similarity metrics. As a complementary analysis, a preliminary exploration on text classification is shown. Finally, computational performance metrics were evaluated: latency and CPU load. Conclusions: The most efficient ASR system for specialized terminology recognition was developed and implemented locally. The combined analysis presented a basis for implementing these systems locally, although more advanced ASR systems need to be explored and training with specialized datasets needs to be improved to improve performance.
Description
Keywords
Department
Faculty/School
Degree
Doctorate program
item.page.cita
item.page.rights
Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.