Datamining (Minería de datos)

Enviado por cindypm • 1 de Septiembre de 2012 • Trabajo • 2.239 Palabras (9 Páginas) • 527 Visitas

Página 1 de 9

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre datos, información y conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.

Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Carga de trabajo en las fases de un proyecto de datamining

En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".

Datamart

Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.

Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts:

Datamart OLAP

Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.

Datamart OLTP

Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).

Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:

Poco volumen de datos

Mayor rapidez de consulta

Consultas SQL y/o MDX sencillas

Validación directa de la información

Facilidad para la historización de los datos

Datawarehouse

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió el propio Bill Inmon, un datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional.

...

Descargar como (para miembros actualizados) txt (15 Kb)

Leer 8 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com

Información sobre ensayo

Denunciar este ensayo

Ensayos relacionados

Rendimiento De Base De Datos
Rendimiento de la Base de Datos Orientadas a Objetos Sabemos que las BDOO representan el siguiente paso en la evolución de las bases de datos,

3 Páginas • 2145 Visualizaciones
Paquetes De Datos
Envío de Paquetes de Datos Inicialmente, se puede pensar que los datos se envían desde un equipo a otro como una serie continua de unos

4 Páginas • 1251 Visualizaciones
Machu Picchu, Datos Varios
Machu Picchu MACHU PICCHU ¿Qué fue Machu Picchu? Fue una hacienda real para el descanso del Inca y santuario destinado al culto de los dioses.

2 Páginas • 1309 Visualizaciones
EVALUACIÓN E INTERPRETACIÓN DE DATOS
CAPÍTULO 4. EVALUACIÓN E INTERPRETACIÓN DE DATOS. 4.1 EVALUACIÓN La evaluación aplicada a la enseñanza y el aprendizaje consiste en un proceso sistemático y riguroso

3 Páginas • 2026 Visualizaciones
Control De Enlace De Datos Intranet Y Redes Inalambricas
Control de Enlace de Datos Los aspectos relacionados con el control de enlace de datos están reflejados en la mayoría de diseños de arquitectura de

4 Páginas • 1313 Visualizaciones
Representación Gráfica De Datos Estadísticos
Representación gráfica de datos estadísticos En los análisis estadísticos, es frecuente utilizar representaciones visuales complementarias de las tablas que resumen los datos de estudio. Con

3 Páginas • 3243 Visualizaciones
El SPSS potente aplicación de análisis estadísticos de datos
El SPSS es una potente aplicación de análisis estadísticos de datos, dotada de una intuitiva interfaz gráfica que resulta muy fácil de manejar. Respecto a

47 Páginas • 1851 Visualizaciones
DATOS IMPORTANTES DE DERECHO FISCAL
PAE PROCEDIMIENTO ADMNINISTRATIVO DE EJECUCION NOTIFICACION EMBARGO REMOCION AVALUO ADJUDICACION 15 DIAS 15 DIAS 15 DIAS 15 DIAS 15 DIAS 1.- ¿Qué es el acto

6 Páginas • 1849 Visualizaciones
Examen Bases De Datos
Guía de Examen 1. ¿Qué es un Sistema Gestor de base datos (SGBD)? R: Una Colección de datos interrelacionados y un conjunto de programas para

2 Páginas • 1546 Visualizaciones
Gastronomia Tipica Mineral Del Monte
Mineral del Monte El Mineral del Monte (Maghots’i o “paso alto” en otomí) cuenta con una superficie de alrededor de 7,200 hectáreas. Linda al Norte

7 Páginas • 4143 Visualizaciones