Procesado digital de voz para el reconocimiento del hablante aplicado a dispositivos móviles
Date
2014Author
Advisor
Version
Acceso abierto / Sarbide irekia
Type
Proyecto Fin de Carrera / Ikasketen Amaierako Proiektua
Impact
|
nodoi-noplumx
|
Abstract
Este proyecto hace un estudio sobre la posibilidad de implantar una aplicación
de autentificación mediante datos biométricos en dispositivos móviles. Se ha realizado
un breve repaso a los métodos de reconocimiento biométrico existentes en la
actualidad, así como a las posibilidades que nos ofrecen tablets y smartphones en esta
área. Se ha optado por utilizar el micrófono que incorporan los di ...
[++]
Este proyecto hace un estudio sobre la posibilidad de implantar una aplicación
de autentificación mediante datos biométricos en dispositivos móviles. Se ha realizado
un breve repaso a los métodos de reconocimiento biométrico existentes en la
actualidad, así como a las posibilidades que nos ofrecen tablets y smartphones en esta
área. Se ha optado por utilizar el micrófono que incorporan los dispositivos para
recoger y analizar la señal digital de voz del usuario, utilizando esta señal como
identificador biométrico. Se ha desarrollado un sistema completo de verificación del
locutor con la herramienta informática Matlab. El sistema se puede dividir en dos
bloques. El primero procesa la señal de audio en varias fases: acondicionamiento de
señal, enventanado, segmentado de tramas sonoras y extracción de formantes entre
otras operaciones. Se han utilizado dos tipos de coeficientes para caracterizar la voz,
por un lado coeficientes LPCC que se basan en filtros de predicción lineal; y por otro
coeficientes MFCC que utilizan la transformada de Fourier y la transformada discreta
del coseno. El segundo bloque se encarga de decidir si los anteriores coeficientes
pertenecen a un determinado locutor o no. Para ello se ha utilizado un algoritmo de
alineamiento temporal dinámico con el propósito de salvar los desajustes temporales
entre repeticiones y calcular las diferencias entre coeficientes. Estas diferencias serán
las que permitan discernir si un usuario es auténtico o se trata de un impostor. Se ha
obtenido el valor óptimo para varios parámetros en la etapa de procesado de audio. Se
ha propuesto un sistema de entrenamiento del modelo del locutor, se han sacado
conclusiones sobre los resultados obtenidos y acerca de la posibilidad real de
desarrollar una aplicación comercial de este tipo. Por último se sugieren nuevos
métodos de análisis y líneas futuras de investigación. [--]
This project aims to do a study on the possibility of implementing an
authentication application using biometrics in mobile devices. It has been carried out a
brief review of existing methods of biometric recognition today and the possibilities
offered by tablets and smartphones in this area. It was decided to use the built-in
microphone all devices to collect and analyze the digital voice si ...
[++]
This project aims to do a study on the possibility of implementing an
authentication application using biometrics in mobile devices. It has been carried out a
brief review of existing methods of biometric recognition today and the possibilities
offered by tablets and smartphones in this area. It was decided to use the built-in
microphone all devices to collect and analyze the digital voice signal of the user and
use this signal as a biometric identifier. It has developed a complete system of speaker
verification with Matlab software tool. The system can be divided in two blocks. The
first, processes audio signal in several stages: signal conditioning, windowing,
segmenting voiced frames and formant extracting among other operations. Have been
used two types of coefficients to characterize the speech. For side LPCC coefficients
based on linear prediction filters, and secondly MFCC coefficients using the Fourier
Transform and the Discrete Cosine Transform. The second block is responsible for
deciding if the above coefficients belong to a particular speaker or not. For this we
used a dynamic time alignment algorithm for the purpose of saving temporary
mismatches between replicates and calculate the differences between coefficients.
These differences are those that allow to know if a user is genuine or an impostor. It
has obtained the optimal value for several parameters in processing audio step. Has
been proposed a speaker model training system, have been obtained conclusions
about the results and about the real possibility of developing a commercial application
of this type. Finally new analytical methods and future research are suggested. [--]
Subject
Verificación del locutor,
MFCC,
LPCC,
DTW,
FFT,
DCT,
SIFT,
CMVN,
Coeficientes delta,
Predicción lineal,
Formantes,
ZCR,
Segmentado de tramas sonoras,
Escala Mel,
Banco de filtros triangulares
Departament
Universidad Pública de Navarra. Departamento de Ingeniería Matemática e Informática /
Nafarroako Unibertsitate Publikoa. Matematika eta Informatika Ingeniaritza Saila
Degree
Ingeniería Técnica de Telecomunicación, especialidad Sonido e Imagen /
Telekomunikazio Ingeniaritza Teknikoa. Soinua eta Irudia Berezitasuna