APLICACIÓN DE TECNOLOGIA OCR EN LOS TERMINALES DE CONTENEDORES
Enviado por jhonda21futbol • 9 de Junio de 2020 • Ensayo • 1.779 Palabras (8 Páginas) • 132 Visitas
APLICACIÓN DE TECNOLOGIA OCR EN LOS TERMINALES DE CONTENEDORES
Reconocimiento óptico de caracteres
Jhon David Nieto Sandoval
Luis Toloza Ruiz
Universidad Autónoma del Caribe
Resumen
El presente artículo describe y explica de manera general la tecnología OCR y sus beneficios. Se presenta, en primer lugar, la exposición teórica conceptual de la tecnología OCR y su aplicación para lograr el reconocimiento de caracteres y, por último, muestra la ejemplificación de aplicación de la tecnología OCR en terminales de contenedores.
Abstract
This article generally describes and explains OCR technology and its benefits. Firstly, the theoretical conceptual exposition of OCR technology and its application to achieve character recognition is presented, and lastly, it shows the exemplary application of OCR technology in container terminals.
Introducción
La digitalización de la información: documentos, textos, imágenes, sonidos y demás, se ha caracterizado en los últimos años por ser un punto de creciente interés para la humanidad.
En relación a los textos, existen, y se producen constantemente una gran cantidad de información escrita, tipográfica, manuscrita en todo tipo de soportes. Especialmente en papel, soporte susceptible de ser digitalizado, para poder disfrutar de los beneficios derivados del procesamiento de datos por computador.
En este sentido, automatizar la introducción de caracteres al sistema evitando la entrada por teclado, implica un considerable ahorro de recursos para las empresas, aumentando la productividad al mismo tiempo que se preserva o mejora la calidad de los servicios ofrecidos a los clientes.
Ahora bien, el sistema de reconocimiento óptico de caracteres (OCR), tiene como finalidad ayudar en el desarrollo de estas tareas. Se presentan en forma de aplicaciones diversas dirigidas al tratamiento automático de textos, ofreciendo así, claros beneficios a la sociedad actual.
Así pues, los avances tecnológicos en el campo de la digitalización nos han suministrado de herramientas suficientemente poderosas para poder evitar las restricciones de recuperación de información a las que los modelos tradicionales nos ataban.
Que es reconocimiento óptico de caracteres (OCR)
El reconocimiento Óptico de Caracteres u OCR (optical charater recognition)
“Es un software que permite convertir las imágenes de texto impreso mediante la digitalización en caracteres digitales. Cualquier libro u hoja impresa en una imprenta se puede escanear como imagen y convertida a texto gracias al OCR” (Gureak Marketing, s.f.)
EL OCR funciona primeramente distinguiendo cada parte de la imagen del documento seleccionado, luego divide la página en piezas como tablas, imágenes, bloques de texto, entre otros; para así, distribuir las líneas en palabras, que se convertirán en caracteres, luego el sistema hace una comparación con un grupo de imágenes del patrón, el cual avanzara dependiendo la serie de hipótesis de cada carácter, luego basándose en la hipótesis analizada, el sistema examina las distintas variantes de ruptura de líneas en palabras y de palabras en caracteres. Luego de analizar y procesar las hipótesis, el sistema muestra el texto convertido en un nuevo formato.
Por lo anterior, se puede inferir que gracias este nuevo avance tecnológico en el campo de la digitalización se puede convertir cualquier tipo de documento, como textos en formato PDF, papeles escaneados, imágenes tomadas en cámaras digitales, entre otros, convirtiéndolos en datos para así tener la posibilidad de editarlos y utilizarlos posteriormente.
Beneficios de la tecnología OCR
Los beneficios de la gestión documental se centran en el control de todo el ciclo de vida de un documento, aumento de la rapidez en sus transacciones, localización y recuperación de archivos, reducción de costes de almacenamiento de los documentos e incremento de la productividad, derivado de un mayor y mejor conocimiento de la información de su empresa. (Documentacion e imagen del Noroeste, 2018).
Por tal razón, el reconocimiento óptico de caracteres (OCR) se ha convertido en una herramienta esencial e importante para la gestión documental, puesto que, esta nueva tecnología ofrece numerosos beneficios como, el ahorro del tiempo de trabajo, edición de documentos, realizar búsquedas en el texto por palabras claves y comparar documentos, escaneo de imágenes, mayor productividad y mayor calidad en el servicio, elimina los archivos físicos y se reduce considerablemente el espacio dedicado a almacenar documentos, facilita el acceso a los documentos para personas con discapacidad auditiva o visual, ROI rápido, procesamiento de los documentos en cualquier momento de forma manual, o bien automatizarse y programarse por lotes de archivos, eliminación de información confidencial, entre otros beneficios.
Por lo tanto, gracias este nuevo avance tecnológico en el campo de la digitalización se puede convertir cualquier tipo de documento, transformándolo en datos para así tener la posibilidad de editarlos, archivarlos o dejarse preparados para trabajar con ellos posteriormente en otra aplicación. Si previamente se ha realizado la integración con la misma.
Esquema básico de un algoritmo de OCR
En el procesamiento de OCR están presentes cuatro etapas para lograr el reconocimiento de caracteres: binarización, fragmentación, adelgazamiento y comparación de patrones.
La binarizacion, consiste en convertir la imagen digital en bitonal, procurando que se conserven las propiedades esenciales de ésta. Una forma eficaz para realizar una óptima binarización es mediante su histograma, a partir del cual podemos identificar el número de pixeles en la escala de grises para dividirlos y convertirlos en negros o en blancos.
Posteriormente, la fragmentación localiza las zonas de interés (en este caso las letras) y las separara, basándose en la intensidad con la que están dibujadas o los espacios blancos entre ellas. Uno de los métodos para este proceso es segmentar la imagen digital en pequeños clusters o áreas que no contengan elementos unidos en algún punto.
El adelgazamiento de los componentes consiste en borrar de manera sucesiva los puntos del borde de cada letra, preservando su tipología. El borrado de puntos se realiza a partir de un esquema de barridos sucesivos para no deformar la imagen original y conservar su figura.
Finalmente, el proceso de comparación identifica los caracteres resultantes del paso anterior y los coteja con una serie de plantillas almacenadas en una base de datos, permitiendo su identificación como letras o números. Esta etapa es definitiva para la recuperación del texto, ya que de su buen funcionamiento dependerá la obtención de la mayor cantidad de caracteres reconocidos correctamente.
...