Reconocimiento de voz
Enviado por Camilo Ordoñez • 23 de Mayo de 2020 • Ensayo • 1.435 Palabras (6 Páginas) • 219 Visitas
El tema para la exposición es Reconocimiento de voz, y Generación de lenguaje natural.
- Explicar sobre el tema
- Porque la importancia de la tendencia
- Características técnicas y de estandarización
- Aporte a la industria
Que es?
- Reconocimiento del habla o reconocimiento de voz, es una disciplina de la ingeniería artificial que tiene como objetivo la comunicación hablada entre el ser humano y la máquina. Es una herramienta que cuenta con la capacidad de procesar la señal de voz del ser humano, reconocer la información contenida en ésta y por medio de un software sea convertida en texto y ejecutar en su mayoría de casos una orden para cumplir determinada tarea.
ALGO DE HISTORIA
Los primeros sistemas de reconocimiento de voz fueron creados en 1952, y funcionaba detectando la potencia que tenía la voz en la palabra que era pronunciada, después de las cuales había que pararse. Por desgracia, este sistema estaba limitado a un solo interlocutor y era capaz de registrar 10 palabras. Casi 20 años más tarde, Raj Reddy fue el primero en desarrollar el primer sistema de reconocimiento de voz continua a finales de los 60.
[pic 1]
A principios de los 70, la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa (DARPA), junto con la que participaron empresas como IBM, desarrolló un sistema que permitía reconocer hasta 1.000 palabras distintas. A partir de los años 80, se crearon sistemas que podían reconocer hasta 20.000 palabras.
COMO funciona?
Los sistemas de reconocimiento de voz(automatic speech recognition o speech-to-text) son aquellos que traducen expresiones y enunciados de su forma hablada a texto. Este reconocimiento no conlleva la interpretación y entendimiento del significado del texto, ya que esta tarea es realizada posteriormente, en caso de que la aplicación lo requiera, mediante técnicas de Procesamiento de Lenguaje Natural.
Las palabras están conformadas por uno o más fonemas en secuencia, que al ser emitidos por un humano, pueden ser grabados como una señal acústica continua; siendo el objetivo de un sistema de reconocimiento del habla el inferir las palabras originales pronunciadas por el humano a partir de dicha señal.
Para lograr lo anterior, comúnmente se utiliza un enfoque probabilístico en el que la señal hablada corresponde a una secuencia de palabras con cierta probabilidad. Al evaluar diferentes secuencias de palabras de acuerdo a las propiedades fonéticas de la señal y al conocimiento lingüístico sobre la contigüidad de las palabras, así como la gramática para la correcta formación de las frases, se da una puntuación a cada frase candidata, eligiéndose como resultado aquella que tenga la mejor puntuación.
El esquema tradicional de un sistema típico de reconocimiento del habla consiste en los siguientes pasos:
Pre-procesamiento (incluye segmentación de la señal).
Extracción de rasgos característicos (features).
Decodificación, empleando diccionarios con modelos acústicos y de lenguaje.
Pos-procesamiento del resultado.
[pic 2]
Pre-procesamiento.
La señal sonora es grabada y discretizada con cierta frecuencia (usualmente 16 kHz aunque en líneas telefónicas la frecuencia normalmente está limitada a 8 kHz) y se le aplican ciertos filtros para reducir el ruido de fondo y magnificar las diferencias entre diferentes tipos de vocalización. También se trata de segmentar la señal identificando las partes de silencio entre frases.
Extracción de rasgos característicos.
Para extraer rasgos se divide la señal en ventanas de tiempo (frames) usualmente de 25 ms cada una con una superposición de 10 ms entre ellas. A la señal acústica dentro de cada ventana se le aplican ciertas transformaciones matemáticas, como Fourier y coseno discreto, además de otros filtros y procesos de normalización para obtener un vector de coeficientes representativo de la señal.
[pic 3]
Decodificación.
- En esta etapa se calcula cual es la secuencia de palabras más probable de corresponder a la señal representada por los vectores de rasgos característicos. Para ello se consideran tres diferentes fuentes de información:
- Un modelo acústico, típicamente un Modelo Oculto de Markov asociado a cada fonema o palabra.
- Un diccionario (Speech Database) consistente en una lista de palabras y los fonemas que las conforman.
- Un modelo de lenguaje (Gramática) con probabilidades de palabras y secuencias de ellas.
[pic 4]
Tomando los vectores de rasgos característicos como las observaciones O, se busca la secuencia de palabras W que maximice la probabilidad a posteriori P(W|O), lo cual matemáticamente se representa de la siguiente forma:
[pic 5]
Usando la regla de Bayes para resolver la ecuación obtenemos:
[pic 6]
Si ignoramos el denominador común para todas las observaciones obtenemos la ecuación fundamental de reconocimiento del habla:
[pic 7]
La ecuación anterior tiene como componentes el modelo acústico P(O|W) que describe la distribución de las observaciones dada una secuencia de palabras y el modelo del lenguaje P(W) basado únicamente en la secuencia de palabras. La secuencia de palabras que resulte con mayor puntuación es aquella que se postula como la transcripción del habla estimada.
...