Fases De Integracion Y Recopilacion
Enviado por choconso • 9 de Febrero de 2015 • 1.908 Palabras (8 Páginas) • 943 Visitas
Introducción
Muchas organizaciones han acumulado una enorme cantidad de datos en lo que denominamos Bases de datos, cuando lo que realmente necesitan es información que les ayude a definir potenciales clientes y mercados, maneras de entregarles un mejor servicio a los mismos, en definitiva, a agregar valor a sus procesos.
Una de las maneras de lograr estos objetivos que desde luego no son triviales es la minería de datos. La minería de datos usa estadística avanzada y algoritmos de inteligencia artificial para descubrir patrones y relaciones escondidas en las bases de datos.
Desarrollo
Fases de integración y recopilación
Las bases de datos y los sistemas de procesamiento en línea OLTP son suficientes para cubrir las necesidades diarias de organización, pero insuficientes para otras actividades tales como el análisis, la planificación y la predicción, métodos empleados para la toma de decisiones a largo plazo, puesto que los datos para realizar un KDD pueden provenir de diversos departamentos, siendo esto que en muchas ocasiones los datos necesarios para poder hacer esto ni siquiera hayan sido recogidos en el ámbito de la organización pues no eran tan necesarios para las aplicaciones esto implica obtener datos externos desde bases de datos publicas como de bases de datos privadas representando un gran reto ya que cada base de datos tienen diferentes formas de hacer sus registros, diferentes formas de hacer la agregación de datos, diferentes claves primarias, etc.
Para resolver esto se debe de hacer una integración de los datos, con esta forma se da paso a la tecnología de almacenes de datos el cual hace referencia a la tendencia actual de coleccionar datos de las bases de datos transaccionales y otras fuentes para lograr que sean accesibles para el análisis y toma de decisiones
Definiendo un almacén de datos es un repositorio de información coleccionada desde varias fuentes almacenada bajo en esquema unificado que reside en un único emplazamiento.
Entre las diferentes formas de mesclar las diferentes bases de datos una de las mas fáciles es generar copias de las bases de datos integrantes, pero esto limita el acceso a otras bases como lo son las heterogéneas.
Los almacenes de datos se crean con el fin de poder agregar y cruzar eficientemente la información de manera sofisticada, y para ello los datos se modelan de una manera multidimensional donde cada dimensión corresponde a un atributo en el esquema en torno al hecho que almacenan el valor de alguna medida agregada.
De esta manera se hace que los almacenes de datos sean adecuados para el procesamiento analítico en lineamiento este tipo de operaciones las que permiten dicho análisis, siendo muy superior al SQL para computar y desglosar en muchas dimensiones. Existe una gran diferencia entre la minería de datos y la OLAP, en donde el usuario del OLAP busca información agregada, patrones hipotéticos y la minería de datos mas que encontrar patrones hipotético, usa los datos para encontrar los patrones siendo que entre las dos herramientas se pueden complementar siendo el almacén de datos muy bueno para complementar la minería de datos pero sin ser indispensable .
Fase de selección y limpieza
En la fase de selección, limpieza y transformaciones resume que la calidad de los datos no dependen de un solo algoritmo de minería, sino también de de la calidad de los datos minados y para ello después de la recopilación lo que sigue en el KDD es seleccionar y preparar el subconjunto de datos que se va a minar ayudando a la vista minable ayudando a localizar datos irrelevantes para la tarea de minería que se va a hacer.
Otro problema seria la presencia de valores que no se ajustan al comportamiento de los datos estos pueden representar errores en donde algunos algoritmos ignoran estos datos, otros los descartan pero hay otros muy sensibles y estos perjudican el resultado arrojado, pero no siempre es bueno descartar esos datos son buenos en ocasiones como en la detección de actos fraudulentos.
La presencia de datos faltantes o perdidos puede ser otro problema que puede conducir a resultados poco exactos y para ello es necesario reconocer el valor de los datos faltantes antes de cualquier toma de decisiones sobre como tratarlos y esto puede ser por diferentes causas.
En estos casos estos son dos ejemplos de porque es importante la limpieza de datos para mejorar la calidad de la información.
La selección de atributos relevantes es uno de los pre procesamientos mas importantes ya que es crucial que los atributos sean de utilidad en la tarea de minería a realizar, en este caso se puede construir el modelo a partir del uso de todos los datos seleccionando una muestra y que esta sea aleatoria para poder procesar los datos, otra tarea de reparación puede ser el construir nuevos atributos a partir de los existentes de forma que estos ayudan al procesamiento de minería esta tarea es fuerte cuando los atributos originales no tienen mucho poder para poder predecir correctamente otra tarea puede ser el modificar los datos para facilitar el uso de técnicas que requieren datos específicos otro proceso es el inverso en el cual consiste en discretizar, es decir transformar los valores numéricos en atributos discretos o nominales.
Fases de minería de datos
El objetivo de esta fase es producir nuevos conocimientos que pueda usar el usuario mediante la construcción de un modelo basado en los datos recopilados siendo el modelo una descripción de los patrones y relaciones que se usan para hacer predicciones y entender mejor los datos o explicar situaciones pasadas y para ello es necesario tomar una serie de decisiones que son:
1.- determinar que tipo de tarea de minería es el mas apropiado
2.-elegir el tipo de modelo
3.-elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que se busca
tareas de la minería de datos
dentro de la minería existen diferentes tipos de tareas que requieren diferentes requisitos y diferentes formas
...