Estado Del Arte
Enviado por lecamacho1 • 10 de Febrero de 2015 • 548 Palabras (3 Páginas) • 167 Visitas
METODOLOGIA CRISP METODOLOGIA SEMA
Cross Industry Standard Process for Data Mining
Sample: Muestreo
Explore: Exploración
Modify: Modificar
Model: Modelaje
Assess: Evaluar
Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS, y Daimer-Chrysler.
Proponen a partir de diferentes versiones de
KDD (Knowledge Discovery in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman,
1996], [Fayyad, 1996], el desarrollo de una guía de referencia de libre distribución denominada
CRISP-DM (Cross Industry Standard Process for Data Mining). Fue desarrollada por SAS institute y define como una herramienta que ayuda a los procesos de selección , exploración y modelación de cantidades significativas de datos .
FASES DEL ESTUDIO
Entendimiento del negocio
Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio
Después de esto se convierte en la definición de un problema de minería de datos
Entendimiento de los datos
Se trata sobre la recolección de los datos continua con actividades para normalizar los datos .También para determinar se hay subconjuntos en estos datos y variables de estos datos a tener en cuenta
Preparación de los datos
En esta se construyen el conjunto de datos que se utilizara para el modelaje del problema inicial planteado.
Modelaje
En este punto se utilizan una técnica de modelado con los datos seleccionados para validar el modelo y la respuesta que se quieren llegar .
Evaluación (objetivo del negocio )
Determinar si el modelo planteado es válido para el problema.
Puesta en producción
Puesta en producción del modelo planteado .
FASES DEL ESTUDIO
Extracción de muestra representativa
Se realiza una extracción de una buena parte de datos con el fin de tener una idea de la información que se tiene .
Exploración de los datos de la muestra
Se hace un recorrido de los datos extraídos en los datos de la muestra para detectar , identificar y eliminar datos anómalos , ayudando a refinar el proceso de descubrimiento de información en fases siguientes .
Modificación de los datos
Esta se hace creando , seleccionando y trasformando las variables en las cuales se va a enfocar el proceso de selección
...