USANDO K-NEAREST NEIGHBOR EN RECONOCIMIENTO OPTICO DE CARACTERES
Enviado por Enrique Chavez • 26 de Octubre de 2019 • Tutorial • 1.100 Palabras (5 Páginas) • 137 Visitas
USANDO K-NEAREST NEIGHBOR
EN RECONOCIMIENTO OPTICO DE CARACTERES
Veronica Ong1; Derwin Suhartono2
1,2Computer Science Department, School of Computer Science, Bina Nusantara University Jln. K.H. Syahdan No. 9 Palmerah, Jakarta Barat, 11480 1veronicaong510@binusian.org; 2dsuhartono@binus.ed
ABSTRACTO
El crecimiento de la tecnología de visión computarizada ha ayudado a la sociedad con diversos tipos de tareas. Una de estas tareas es la capacidad de reconocer texto en una imagen, o comúnmente denominado Reconocimiento Óptico de Caracteres (OCR). Hay muchos tipos de algoritmos que se pueden implementar en un OCR. El K-NEIGHBOR es uno de estos algoritmos. Esta investigación tiene como objetivo descubrir el proceso detrás del mecanismo de OCR utilizando el algoritmo K-Nearest Neighbor; uno de los algoritmos de aprendizaje automático más influyentes. También tiene como objetivo conocer la precisión del algoritmo en un programa de OCR. Para ello, se realiza un simple programa de OCR para clasificar alfabetos de mayúsculas para producir y comparar resultados reales. El resultado de esta investigación arrojó un máximo de 76,9% de precisión con 200 muestras de entrenamiento por alfabeto. También se dan una serie de razones del por qué el programa es capaz de alcanzar ese nivel de precisión.
Palabras clave:
Reconocimiento óptico de caracteres, K-Nearest Neighbor, procesamiento de imágenes, visión computarizada
INTRODUCCION
Es fácil para nuestros ojos humanos distinguir una estructura/objeto tridimensional. El número de personas se puede contar fácilmente en una determinada imagen. Sus expresiones son también predecibles solo mirando sus gestos.
Es posible hacer esto, porque nuestros ojos pueden detectar los objetos a través de diferentes aspectos como rayos, sombras, ángulos o incluso fondos (Szeliski, 2011). La visión es una tarea de procesamiento de información, donde es un proceso que convierte imágenes del mundo externo en una descripción que es útil para el espectador y no está llena de información irrelevante, (Marr, 1982). Implica no sólo el estudio de la extracción de imágenes (representación de imágenes), sino también cómo se capta la información a partir de las imágenes, lo que puede servir de base para nuestros pensamientos y acciones (procesamiento de información).
La Visión Computarizada es el estudio de los procesos que una máquina tiene que atravesar y que le permite tener visión (poder ver). El objetivo de la visión computarizada es tomar decisiones útiles sobre objetos físicos reales y escenas basadas en percepción de imágenes (Shapiro & Stockman, 2001). La visión computarizada es un campo muy influyente, ya que desempeña un papel importante en diferentes tipos de campos como el uso industrial donde las cámaras se utilizan para comprobar si las partes mecánicas se han creado con el tamaño adecuado o forense donde utilizan las computadoras para reconocer a las personas por medio de la textura de sus iris (Nixon & Aquado, 2002). Hay varios tipos de técnicas utilizadas para representar la visión, como el procesamiento de imágenes y el reconocimiento de patrones.
El procesamiento de imágenes es un método para realizar el manejo de una imagen convirtiéndola en una forma digital de datos. Esta operación se utiliza generalmente para extraer cierta información de una imagen, donde esta información se utiliza entonces en un proceso de toma de decisiones. El procesamiento de imágenes generalmente consta de 3 pasos: Importar la imagen en el programa, analizar y manipular la imagen, luego imprimir la salida de la imagen al usuario (Engineers Garage, n.d.).
Uno de los resultados de la implementación del procesamiento de imágenes es un programa llamado Reconocimiento óptico de caracteres, o abreviado como OCR. OCR es un programa que se puede utilizar para reconocer caracteres que existen en una determinada imagen. Para usar el programa, necesita ser alimentado con algunos ejemplos de cómo se ve cada letra. Estos ejemplos son usualmente llamados datos de entrenamiento. Puede reconocer texto manuscrito e impreso, pero su precisión depende en gran medida de los datos de entrenamiento que se dan al programa.
...