Resumen de Data mining
Enviado por Francisca Gonzalez • 3 de Enero de 2016 • Ensayo • 1.216 Palabras (5 Páginas) • 427 Visitas
Página 1 de 5
Resumen PEP Data
- Definiciones Data Mining:
- Transformación de datos en información valiosa, decisiones y productos, usando algoritmos matemáticos y estadísticos → CENTRADO EN NEGOCIOS
- Proceso de extracción de información útil y relevante a partir de grandes volúmenes de datos → CENTRADO EN PROCESOS
- Proceso de análisis y exploración de datos por medio de técnicas estadísticas y matemáticas para encontrar patrones, relaciones y tendencias ocultos en bases de datos → CENTRADO EN PREDICCIONES
- Fundamentos de Data Mining
- Estadística
- Inteligencia Artificial → Algoritmos
- Técnicas BBDD → Base de Datos
- Razones de crecimiento de Data Mining
- El explosivo aumento en recolección de datos
- El almacenamiento de datos en data warehouses
- La disminución ostensible en el costo de almacenamiento de información
- Más poder en los computadores
- El desarrollo de software de DM
- Fuerte interés en CRM (administración de relaciones con el cliente)
- Tareas de Data Mining
- CLASIFICACIÓN → ESTIMAR CATEGORIAS
- Elaboración de un modelo predictivo en función variable categórica→ pronostica la clase a la cual pertenece una observación en virtud de sus atributos.
- Uso de variables Categóricas
- Cuando se encuentra modelo, se concluyen nuevos sujetos (variables) asignados a alguna de las clases predefinidas.
- Los árboles de decisión son adecuados para las tareas de clasificación. También sirven las redes neuronales artificiales, SVM, KNN y Redes Bayesianas.
- ESTIMACIÓN → ESTIMAR NUMEROS ACTUALES
- Elaboración de un modelo predictivo en función variable numérica
- variable objetivo es numérica en vez de ser categórica.
- La regresión múltiple (MICO) y los árboles de decisión (CRT) son adecuados para hacer estimaciones. También sirven las redes neuronales artificiales y KNN.
- Permite la creación de modelos a partir de Algoritmos (Grafico Dispersión, Correlación Lineal, R2, P-value)
- PREDICCIÓN → ESTIMAR NUMEROS FUTUROS
- Elaboración de un modelo predictivo donde el resultado se da en el futuro.
- La predicción entrega como resultado un número.
- Se pueden usar las redes neuronales artificiales para predecir series de tiempo. También se puede recurrir a la estadística clásica de series de tiempo como asimismo modelos ARIMA.
- CLUSTERING → ESTIMAR DIFERENTES CLASES
- El clustering o segmentación, consiste en encontrar, dentro de una población heterogénea, un número determinado de subgrupos homogéneos o clusters.
- En clustering, a diferencia de la clasificación, no hay clases definidas.
- Los sujetos son agrupados en forma conjunta en función de su grado de similitud.
- Existe numerosos algoritmos para segmentación: Clustering jerárquico, K Medias, EM, etc.
- ASOCIACIÓN → ESTIMAR RELACIONES ENTRE VARIABLES
- Trabajo de encontrar qué atributos “van juntos” → encontrar atributos a partir de conclusiones
- Expresan patrones de comportamiento entre atributos.
- Estas reglas son usadas por los retailers en el layout de las góndolas o en los catálogos. Además se pueden usar para identificar oportunidades de cross-selling y para diseñar atractivos “packs”.
- Las reglas de asociación son de la forma “Si antecedente, entonces consecuente”. A => B. “Si compra pañales, entonces compra cerveza”.
- Uno de los algoritmos más famosos para encontrar reglas de asociación es A priori. Otro es el PT Growth.
- Tipos de Aprendizaje
- SUPERVISADO
- Se pretende entrenar a un modelo para que sea capaz de predecir una clase o bien un valor numérico.
- Ya se conoce la clase o el valor numérico que el modelo debe aprender a predecir, por lo tanto, se cuenta con un “tutor” que detecta los fallos y aciertos.
- NO SUPERVISADO
- No hay clases o valores numéricos que predecir, por lo tanto, en este caso, al algoritmo debe buscar un patrón oculto pero sin tener una idea clara de lo que está buscando.
- No tiene un objetivo que cumplir como en el supervisado.
- Es una Búsqueda de patrones y relaciones → Entregar información sin conclusión.
- Un ejemplo clásico de aprendizaje no supervisado es clustering analysis.
- Proceso de Transformación Data Mining
- Datos → Datos Duros
- Información → Datos en Contexto
- Conocimiento → Datos en contexto que permite conclusiones
- Decisiones → Conclusiones, Aplicaciones de Negocios y Toma de decisiones.
- Programas de Data Mining
- Open Source (Gratis)
- Knime
- Rapid Miner
- Weeka
- R Proyect
- Orange
- Tanagra
- Licenciados
- IBM
- SAS
- Tipos de Datos
- I = Interjer → Dato Numérico → Variable Numérica
- S = String → Dato Alfanumérico → Variable Categórica
- D = Double → Dato Numérico Decimal → Variable Numérica
- Metodologías para Data Mining
- CRISP-DM → Uso en Negocios (software SPSS)
- Comprensión del negocio
- Determinar Objetivos del Negocio
- Evaluar la situación del negocio → Inventario, Requerimientos, Costos y beneficio.
- Determinar objetivos de la minería de datos
- Construir plan del proyecto
- Comprensión de los Datos
- Recopilación inicial de datos.
- Descripción de datos
- Exploración de datos
- Verificar la calidad de los datos
- Preparación de Datos
- Selección de datos
- Integración de datos
- Limpieza de datos
- Construcción y transformación de datos
- Formato de datos
- Modelación
- Seleccionar la técnica de modelado
- Generar el diseño de test
...
Disponible sólo en Clubensayos.com