ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Resumen de Data mining


Enviado por   •  3 de Enero de 2016  •  Ensayo  •  1.216 Palabras (5 Páginas)  •  427 Visitas

Página 1 de 5

Resumen PEP Data

  1. Definiciones Data Mining:
  • Transformación de datos en información valiosa, decisiones y productos, usando algoritmos matemáticos y estadísticos  CENTRADO EN NEGOCIOS
  • Proceso de extracción de información útil y relevante a partir de grandes volúmenes de datos  CENTRADO EN PROCESOS
  • Proceso de análisis y exploración de datos por medio de técnicas estadísticas y matemáticas para encontrar patrones, relaciones y tendencias ocultos en bases de datos  CENTRADO EN PREDICCIONES

  1. Fundamentos de Data Mining
  • Estadística
  • Inteligencia Artificial  Algoritmos
  • Técnicas BBDD  Base de Datos
  1. Razones de crecimiento de Data Mining
  • El explosivo aumento en recolección de datos
  • El almacenamiento de datos en data warehouses
  • La disminución ostensible en el costo de almacenamiento de información
  • Más poder en los computadores
  • El desarrollo de software de DM
  • Fuerte interés en CRM (administración de relaciones con el cliente)
  1. Tareas de Data Mining
  • CLASIFICACIÓN  ESTIMAR CATEGORIAS
  • Elaboración de un modelo predictivo en función variable categórica pronostica la clase a la cual pertenece una observación en virtud de sus atributos.
  • Uso de variables Categóricas
  • Cuando se encuentra modelo, se concluyen nuevos sujetos (variables) asignados a alguna de las clases predefinidas.
  • Los árboles de decisión son adecuados para las tareas de clasificación. También sirven las redes neuronales artificiales, SVM, KNN y Redes Bayesianas.
  • ESTIMACIÓN  ESTIMAR NUMEROS ACTUALES
  • Elaboración de un modelo predictivo en función variable numérica
  • variable objetivo es numérica en vez de ser categórica.
  • La regresión múltiple (MICO) y los árboles de decisión (CRT) son adecuados para hacer estimaciones. También sirven las redes neuronales artificiales y KNN.
  • Permite la creación de modelos a partir de Algoritmos (Grafico Dispersión, Correlación Lineal, R2, P-value)
  • PREDICCIÓN  ESTIMAR NUMEROS FUTUROS
  • Elaboración de un modelo predictivo donde el resultado se da en el futuro.
  • La predicción entrega como resultado un número.
  • Se pueden usar las redes neuronales artificiales para predecir series de tiempo. También se puede recurrir a la estadística clásica de series de tiempo como asimismo modelos ARIMA.
  • CLUSTERING  ESTIMAR DIFERENTES CLASES
  • El clustering o segmentación, consiste en encontrar, dentro de una población heterogénea, un número determinado de subgrupos homogéneos o clusters.
  • En clustering, a diferencia de la clasificación, no hay clases definidas.
  • Los sujetos son agrupados en forma conjunta en función de su grado de similitud.
  • Existe numerosos algoritmos para segmentación: Clustering jerárquico, K Medias, EM, etc.
  • ASOCIACIÓN  ESTIMAR RELACIONES ENTRE VARIABLES
  • Trabajo de encontrar qué atributos “van juntos”  encontrar atributos a partir de conclusiones
  • Expresan patrones de comportamiento entre atributos.
  • Estas reglas son usadas por los retailers en el layout de las góndolas o en los catálogos. Además se pueden usar para identificar oportunidades de cross-selling y para diseñar atractivos “packs”.
  • Las reglas de asociación son de la forma “Si antecedente, entonces consecuente”. A => B. “Si compra pañales, entonces compra cerveza”.
  • Uno de los algoritmos más famosos para encontrar reglas de asociación es A priori. Otro es el PT Growth.
  1. Tipos de Aprendizaje
  • SUPERVISADO
  • Se pretende entrenar a un modelo para que sea capaz de predecir una clase o bien un valor numérico.
  • Ya se conoce la clase o el valor numérico que el modelo debe aprender a predecir, por lo tanto, se cuenta con un “tutor” que detecta los fallos y aciertos.
  • NO SUPERVISADO
  • No hay clases o valores numéricos que predecir, por lo tanto, en este caso, al algoritmo debe buscar un patrón oculto pero sin tener una idea clara de lo que está buscando.
  • No tiene un objetivo que cumplir como en el supervisado.
  • Es una Búsqueda de patrones y relaciones  Entregar información sin conclusión.
  • Un ejemplo clásico de aprendizaje no supervisado es clustering analysis.
  1. Proceso de Transformación Data Mining
  • Datos  Datos Duros
  • Información  Datos en Contexto
  • Conocimiento  Datos en contexto que permite conclusiones
  • Decisiones  Conclusiones, Aplicaciones de Negocios y Toma de decisiones.
  1. Programas de Data Mining
  • Open Source (Gratis)
  • Knime
  • Rapid Miner
  • Weeka
  • R Proyect
  • Orange
  • Tanagra
  • Licenciados
  • IBM
  • SAS
  1. Tipos de Datos
  • I = Interjer  Dato Numérico  Variable Numérica
  • S = String  Dato Alfanumérico  Variable Categórica
  • D = Double  Dato Numérico Decimal  Variable Numérica
  1. Metodologías para Data Mining
  • CRISP-DM  Uso en Negocios (software SPSS)
  • Comprensión del negocio

- Determinar Objetivos del Negocio

- Evaluar la situación del negocio  Inventario, Requerimientos, Costos y beneficio.

- Determinar objetivos de la minería de datos

- Construir plan del proyecto

  • Comprensión de los Datos

- Recopilación inicial de datos.

- Descripción de datos

- Exploración de datos

- Verificar la calidad de los datos

  • Preparación de Datos

- Selección de datos

- Integración de datos

- Limpieza de datos

- Construcción y transformación de datos

- Formato de datos

  • Modelación

- Seleccionar la técnica de modelado

- Generar el diseño de test

...

Descargar como (para miembros actualizados) txt (8 Kb) pdf (257 Kb) docx (117 Kb)
Leer 4 páginas más »
Disponible sólo en Clubensayos.com