Calidad de datos Proceso de calidad de datos y perfilado de datos con herramientas de software libre
Enviado por Carlos Eduardo Ossa Quintero • 18 de Noviembre de 2015 • Documentos de Investigación • 2.464 Palabras (10 Páginas) • 120 Visitas
Proceso de calidad de datos y perfilado de datos con herramientas de software libre
STEPHANY RESTREPO TORO
YESSENIA CARDONA GUEVARA
CARLOS EDUARDO OSSA
FACULTAD DE INGENIERÍA DE SISTEMAS
INSTITUTO TECNOLÓGICO METROPOLITANO
MEDELLÍN
2015-2
Tabla de contenido
No se encontraron entradas de tabla de contenido.
Introducción
Objetivos
Justificación
Marco Teórico
Ingeniería de Requerimientos
Herramientas a utilizar
Conclusiones
Referencias Bibliográficas
INTRODUCCIÓN
Actualmente las organizaciones se encuentran en un ambiente que mantiene un cambio constante de tal forma que es necesario obtener el mayor provecho de la información para que ésta se convierta en conocimiento, un área que incide en lo anterior es lo que se denomina Inteligencia de Negocios. Existen muchas herramientas para inteligencia de negocios y en este sentido existen múltiples propuestas de herramientas open source.
En todo proyecto el tiempo de desarrollo así como los costos de implementación y licencias son un factor importante al momento de elegir una estrategia de solución y la herramienta que satisface los requerimientos del cliente. En este punto es donde las herramientas Open Source pueden ser un factor relevante.
En pocas palabras, un software Open Source es aquel cuyo código es de dominio público. La idea de este software liberado es que los usuarios con sus conocimientos de programación, complementen y/o potencien la herramienta. Este trabajo colaborativo acelera en ocasiones los tiempos de espera entre versiones, y hace que las mejoras están enfocadas en el usuario final.
1. Objetivo General
Analizar la perspectiva del proceso de calidad de datos y realizar un estudio de las herramientas sobre perfilado de estos, con el fin de llegar a la fiabilidad de los datos y generar una buena inteligencia de negocios.
2. Objetivos Específicos
* Conocer el nivel de los datos entregados, para así determinar las mejores herramientas para realizar el perfilamiento de los datos.
* Realizar un análisis rápido sobre la calidad de los datos para descubrir las principales anomalías, enfocados hacia los datos maestros para construir la toma de decisiones
* Investigar las herramientas de Oracle, Sql server, Talent, SQL Power DQGuro para la calidad de datos que se van a utilizar para obtener un producto detallado de este.
JUSTIFICACIÓN
En los diferentes procesos que se llevan a cabo en las grandes o medianas empresas se utiliza información, y desde el mismo momento de su recolección, el procesamiento y el almacenamiento se debe contemplar la calidad e integridad de la misma. El objetivo del presente análisis es realizar una traza de cuatro aspectos significativos a tener en cuenta en el momento de realizar el proceso de la calidad del dato, como son: gestión, dimensión, perfilamiento y enriquecimiento. Se tiene en cuenta también, la perspectiva de la gestión de la información en los datos capturados, procesados, almacenados y entregados al usuario; el cual debe ser un fiel reflejo de la realidad que se desea tratar con los sistemas informáticos, generalmente de administración como son los SGBD.
MARCO TEÓRICO
Para determinar el concepto de calidad de datos, primero se debe plantear el significado de calidad, la calidad en su descripción de la real academia de la lengua es, la propiedad o conjunto de propiedades inherentes a algo, que nos permite juzgar su valor, ahora planteamos ¿Qué es dato?, los datos son “un término general para denotar alguno o todos los hechos, letras, símbolos y números referidos a, o que describen, idea, situación, condición u otro factor” y se constituyen un elemento fundamental para la toma de decisiones objetivas a todos los niveles de una organización [1] Es más para las organizaciones modernas, los datos constituyen uno de sus recursos estratégicos.
Conociendo los conceptos de cada uno de los términos, la calidad de los datos “examina si los datos de una organización son confiables, consistentes, actualizados, están libres de duplicidades y si son apropiados para sus objetivos”. [2] o si bien la calidad de los datos son un conjunto de propiedades inherentes al dato que permite determinar si el mismo es correcto o incorrecto. Estas propiedades se denominan dimensiones de la calidad del dato, algunas de ellas son: exactitud, vigencia, relevancia, entre otras.
La calidad de los datos es muy reciente, el Instituto de Tecnología de Massachusetts, ha realizado investigaciones para definir una teoría de calidad de datos, basada en varias disciplinas como lo son: La ciencia de la computación, el estudio del comportamiento organizacional estadística, Contaduría y en el de calidad total.
2.1. Dimensión de la calidad de datos.
Según Jhon A Hoxmeier en su artículo:[3] A Framework for Assessing DataBase Quality, las dimensiones de una calidad de bases de datos son principalmente procesos y los datos; sin embargo, se ha realizado estudios sobre nuevas técnicas para el modelaje de las bases de datos, la cuales incorporan nuevas dimensiones al estudio de la calidad de las mismas, como son: la semántica y el comportamiento
Las dimensiones de los datos están constituidas por: antigüedad del dato o periodo de tiempo en que el mismo no ha cambiado; las características propias del dato, tales como la exactitud en las diferentes fuentes donde éstas se encuentran almacenadas; el contexto dado, que es representado por el contenido o valores que puede adquirir: seguridad, representa los diferentes roles que se definen para acceder a los datos; y por último, el modelaje de datos, que está constituido por la flexibilidad, el contenido, el alcance, su normalización y relevancia.
[4] Metodología para el Diagnóstico de la Calidad de dos Datos, expresan que la calidad de los datos tienen procedimientos para los diagnósticos de datos
...