Mineria De Datos
Enviado por gergarcia21 • 30 de Mayo de 2012 • 3.265 Palabras (14 Páginas) • 707 Visitas
La minería de datos, consistente en la extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus bases de información.
Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información que un experto humano difícilmente encontraría, estableciendo relaciones y patrones de las cuales las empresas pueden obtener grandes beneficios.
El nombre de minería de datos deriva de las similitudes entre la búsqueda de valiosa información de negocios en grandes bases de datos y el hecho de minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente dónde residen los valores.
Con sólo la ventaja de no duplicar la información y almacenar dicho cubo en disco; y las desventajas de buscar optimizar los tiempos necesarios para su cálculo, que dependería de la región de interés a analizar y el algoritmo que definiese el área de almacenamiento temporal.
Esto es un problema que se mantiene vigente y necesario de resolver [MingJiawei]. Aunado a este desafío existen otros como el de generar en forma automática los algoritmos de los procesos de extracción y carga de datos a la base de datos que se usa para la minería.
2. BODEGA DE DATOS ( Data Warehouse )
Es un conjunto de datos integrados o orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y esta orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.
Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.
RIESGOS.
- Desactualización de esquemas a nuevas necesidades del negocio.
- Acceso no restringido a objetos de Data Warehouese.
- Respaldo de los datos almacenados
SISTEMA OPERATIVO
La bodega de datos se encuentra sobre la plataforma del sistema operativo. La seguridad representada en la disponibilidad, confidencialidad y controles de accesos y privilegios sobre las áreas de almacenamiento y procesamiento están en gran medida dependientes de esta plataforma.
Etapas
Definición de requerimientos
Definición de arquitectura
Presentación del proyecto
Análisis de proveedores,
Construcción RFP
Envío RFP
Evaluación
Contratación
Capacitación
Implementación
Ventajas:
1. Proporciona información clave para la toma de decisiones empresariales.
2. Mejora la calidad de las decisiones tomadas.
3. Especialmente útil para el medio y largo plazo.
4. Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros.
5. Muy útiles para el almacenamiento de análisis y consultas de históricos.
6. Proporciona un gran poder de procesamiento de información.
7. Permite una mayor flexibilidad y rapidez en el acceso a la información.
8. Facilita la toma de decisiones en los negocios.
9. Las empresas obtienen un aumento de la productividad.
10. Proporciona una comunicación fiable entre todos los departamentos de la empresa.
11. Mejora las relaciones con los proveedores y los clientes.
12. Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.
13. Transforma los datos en información y la información en conocimiento
14. Permite hacer planes de forma más efectiva.
15. Reduce los tiempos de respuesta y los costes de operación.
Datawarehouse proporciona una información de gestión
accesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos.
Desventajas:
1. No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja.
2. Requiere de continua limpieza, transformación e integración de datos.
3. Mantenimiento.
4. En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización.
5. Una vez implementado puede ser complicado añadir nuevas fuentes de datos.
6. Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento.
7. Tienen un diseño complejo y multidisciplinar.
8. Requieren una reestructuración de los sistemas operacionales.
9. Tienen un alto coste.
10. Requieren sistemas, aplicaciones y almacenamiento específico.
Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones. como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc.
Caracterisitcas:
No volatil
Variable en el tiempo
Orientado a temas
Integrado- Datos consistentes
Favorece el analisis y divulgacion de datos especialmente OLAP ( procesamiento analitico en linea )
3¿Qué es una base de datos Centralizada?
Una base de datos centralizada es una base de datos almacenada en su totalidad en un solo lugar físico, es decir, es una base de datos almacenada en una sola maquina y en una sola CPU, en donde los usuarios trabajan en terminales "tontas" que solo muestran resultados.
Los sistemas de bases de datos centralizadas son aquellos que se ejecutan en un único sistema informático sin interaccionar con ninguna otra computadora. Tales sistemas comprenden el rango desde los sistemas de bases de datos mono usuarios ejecutándose en computadoras personales hasta los sistemas de bases de datos de alto rendimiento encuitándose en grandes sistemas.
...