Clasificacion De Numeros Manuescritos
Enviado por yoinerensayo • 29 de Octubre de 2014 • 4.812 Palabras (20 Páginas) • 252 Visitas
CLASIFICACIÓN DE NÚMEROS MANUSCRITOS EN BASE A
PROTOTIPOS
yoiner A. Pérez 1
RESUMEN
Se presenta un método de reconocimiento de números manuscritos en base a prototipos creados por un algoritmo de entrenamiento de Distancia Euclidiana. La clasificación de un número manuscrito se realiza considerando su distancia a los prototipos más cercanos. Para formar el conjunto de prototipos se utiliza una base de entrenamiento de 2361 patrones y la evaluación del método se realiza con una base de prueba independiente de 1320 patrones. Los resultados obtenidos se comparan respecto a otros dos métodos conocidos: Red Perceptrón Multicapa y Mapa Autoorganizativo SOM (Self Organizing Map) más algoritmo de Cuantización Vectorial LVQ1 (variante de LVQ - Linear Vector Quantization). El método propuesto alcanza una tasa de reconocimiento de 93.5% en los patrones de prueba cuando se utiliza el prototipo más cercano como salida del sistema de clasificación. Con una clasificación basada en una votación de los prototipos más cercanos, el porcentaje de clasificación correcto aumenta a 94.8%. Los resultados obtenidos con Distancia Euclidiana son significativamente superiores a los conseguidos por una red tipo perceptrón multicapa (91.8%), y SOM+LVQ1 (91.5%) sobre las mismas bases de datos.
1. INTRODUCCIÓN.
El reconocimiento de dígitos manuscritos es una tarea importante en el análisis automático de documentos. Se han desarrollado aplicaciones para automatizar la lectura de direcciones postales, cheques bancarios, formularios de impuestos, formularios de censo y lectores de texto para discapacitados visuales, entre otros. A pesar del notable progreso logrado en los últimos años en el área de reconocimiento automático de números manuscritos, todavía se está lejos de poder igualar la capacidad humana de reconocimiento [13].
Las redes neuronales artificiales han mostrado un gran potencial en tareas de reconocimiento de patrones [3]. Se ha desarrollado un número importante de aplicaciones en el reconocimiento automático de caracteres manuscritos. Entre los resultados publicados para reconocimiento de
números manuscritos, los porcentajes de clasificación correcta están en el rango entre 68% [10] y 97.97% [2]. Sin embargo, no es posible realizar una comparación entre diferentes sistemas de reconocimiento basándose sólo en los resultados de su desempeño, debido a que en general los sistemas han sido probados con bases de datos diferentes y su rendimiento depende fuertemente de la tasa de rechazo empleada [2]. Por lo tanto, es importante identificar las características del sistema que hacen superior su desempeño en la clasificación bajo las mismas condiciones de datos y tasas de rechazo.
En la actualidad el diseño de redes neuronales artificiales, para tareas específicas, se basa principalmente en experiencias previas sobre aplicaciones similares. Usualmente se aplican propuestas heurísticas para la selección del número de unidades ocultas [3,5]. Se desconoce la forma de encontrar teóricamente la topología óptima de una red
para un problema en particular [8,9,14]. Por otra parte la capacidad de generalización de la red neuronal es influida por el tamaño y eficacia de la base de entrenamiento, la arquitectura de la red y la complejidad del problema [6].
En trabajos previos sobre reconocimiento de dígitos manuscritos se han obtenido mejoras en la tasa de éxito mediante una selección genética del número de unidades ocultas, y entrenando con una base de datos aumentada por el desplazamiento y magnificación de los patrones originales de entrenamiento [12]. También se obtuvieron mejoras mediante una cooperación de redes neuronales modulares [11]. En otros estudios recientes se han utilizado Mapas Auto Organizativos SOM (Self Organizing Maps) [1,4,7], y Cuantización Vectorial Lineal LVQ (Linear Vectorial Quantization) [7,13].
En este trabajo se presenta un sistema de reconocimiento de números manuscritos basado en prototipos obtenidos utilizando distancia Euclidiana. La clasificación de un número manuscrito se realiza considerando la distancia entre el número y los prototipos más cercanos. Los resultados obtenidos se comparan con aquellos obtenidos por modelos de red tipo perceptrón multicapa y un método SOM (Mapa Autoorganizativo) más un LVQ1 (variante de LVQ).
2. MÉTODO.
El sistema propuesto se compone de tres etapas: normalización, creación de prototipos y clasificación. En la primera etapa, a partir de una base de números manuscritos con pixeles binarios se normaliza el tamaño de los números, generando una base en tonos de grises.
La segunda etapa es la creación de prototipos. Se crea un nuevo prototipo cuando la distancia de un patrón de la base de datos de entrenamiento al prototipo existente más cercano supera un umbral u, o cuando el patrón es de distinta clase que el prototipo más cercano. La creación de prototipos se hace considerando dos modos, que se comparan entre sí: patrones centrados y patrones desplazados en la entrada. Esto último permite incorporar cierta invarianza al desplazamiento del caracter de entrada.
La tercera etapa es la clasificación de los dígitos manuscritos en base a la distancia entre el caracter a clasificar y los prototipos. La evaluación del sistema se realiza con una base de prueba distinta a la utilizada en la creación de los prototipos más cercanos. La clasificación se realiza de dos formas, que se comparan entre sí: la primera utiliza el prototipo más cercano como salida del sistema, la segunda utiliza un sistema de votación entre los prototipos más cercanos.
La figura 1 muestra un diagrama en bloques del esquema de funcionamiento del proceso descrito anteriormente. La base de dígitos manuscritos para entrenar el sistema consiste en 2361 patrones y la de prueba en 1320 patrones.
2.1. Normalización.
Primeramente se normaliza (trata de igualar) el tamaño de los números manuscritos. En la base de datos, cada dígito manuscrito es una imagen binaria (blanco/negro) de 15x23 pixeles que se encuentra aproximadamente centrado en la imagen. Antes de normalizar se elimina el ruido en la imagen binaria, eliminando los pixeles aislados presentes en la imagen. Luego se normaliza el tamaño de la imagen, conservando la razón de aspecto del dígito para no deformarlo. En esta aplicación se mantiene la razón de
Figura 1: Esquema de funcionamiento
...