Identificacion Por Voz

alancleu1222 de Abril de 2013

1.069 Palabras (5 Páginas)496 Visitas

Página 1 de 5

Oscilograma

Regresa a la figura inicial El espectro es el que se muestra al inicio para el proceso de análisis el programa eSIS nos muestra las caracterisricas del audio como sebe en la imagen siguiente .

Mp3 (DX): Esto nos indica el formato de audio en el cual se encuentra la grabación.

Oscilograma: tipo de espectro que se utiliza en la pantalla activa.

Mono: nos indica si el audio fue realizado en un canal de grabación (mono) o dos canales (estéreo)

11025: frecuencia de sampleo o muestreo o descrepitación nos marca límite máximo en escala de frecuencia que alcanza el formato de audio.

348.05 : duración del audio en segundos .

Todos estos datos aparecerán en este orden pero variaran de valores de pendiendo el formato que se presente en cada grabación que se analizara.

Formato de audio.

Existen varios formatos digitales de audio creados con diversos fines entre ellos puede ser para almacenar grabaciones de alta calidad formato wav) para mandar información sonora por alguna red sonora o atra ves de una red de informática mp3 flag) o bien para que pueda ser trasportado o almacenado en dispositivos móviles de baja capacidad como los celulares (amr y 3gp)los formatos de audio dependerán de su frecuencia de sampleo que alcanzan ,su profundidad en bytes,etc

Estos se pueden dividir en dos grupos los formatos compresos o comprimidos y los no compresos o no comprimidos.

Formatos sin compresión.

Estos formatos son de alta calidad y resolución en espectros y perceptiva mente, conservan integra la escala de frecuencias sin realizar algún tipo de modelado o eliminación de alguna banda de frecuencia .son los mejores para poder realizar un estudio comparativo de voz y el más común de ellos es el WAV.

Formatos con compresión

Estos formatos no conservan las características insintricos de los audios y en muchas ocasiones se rigen por modelos pre establecidos , este tipo de formato se subdivide en destructivos y no destructivos para el análisis acústico de voz.

NO destructivos

No destructivos:

Estos formatos eliminan rangos de frecuencia o bandas de frecuencia por arriba o superiores a los 8,000 Hz. Y por debajo de los 400 o 600 Hz. Dejando útil el audio en un rango donde se visualizan las características intrapersonales susceptibles de comparación. Tienen una programación que eliminan datos no útiles del archivo original de forma “similar” a un archivo RAR. O ZIP. Lo que permite que su tamaño en Bytes disminuya. Los formatos que podemos encontrar son .AMR .3PG

Destructivos:

Estos formatos son considerados de comprensión entrópica (pérdidas irreparables) o con pérdidas, eliminan bandas de frecuencia de forma aleatoria, a discreción y modelan el audio a un formato pre establecido por el fabricante, un formato de este tipo es el .MP3 es el más clásico,

Sampleo, discretización o muestreo :

El sampleo: Es el rango de frecuencia que tienen los formatos de audio digital, a mayor rango de frecuencias mejor calidad tendrá el audio, más información, y más “peso” en bytes. Este rango de frecuencias es manipulable a discreción del usuario o bien por el fabricante del formato con valores preestablecidos. Las frecuencias más comunes utilizadas en audio son:

Más comunes Poco uso

0 – 44100 32,000

0 – 22050 10,000

0 – 1600

0 – 11025

0 – 800

El sampleo al ser analizado en un oscilograma este nos indicará su valor total, al ser analizado el audio, en un espectrograma, espectro de potencia, y cepstrum la frecuencia de sampleo se verá a la mitad debido a que en la conversión de un espectro a otro (oscilograma a espectrograma) se aplica una función

...

Descargar como (para miembros actualizados) txt (6 Kb)

Leer 4 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com