La Metodología Crisp
Enviado por Rolando2411 • 1 de Agosto de 2011 • 9.266 Palabras (38 Páginas) • 663 Visitas
1. La metodología CRISP-DM
1. Interrupción jerárquica
La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico, consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase, tarea genérica, tarea especializada, e instancia de procesos. (Ver la figura 1.)
En el nivel superior, el proceso de minería de datos es organizado en un número de fases; cada fase consiste de varias tareas genéricas de segundo nivel. Este segundo nivel lo llaman genérico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minería de datos. Las tareas genéricas están destinadas a ser tan completas y estables como sea posible. Completo significa que cubre tanto al proceso entero de minería de datos y todas las aplicaciones de minería de datos posibles. Estable significa que el modelo debería ser válido para acontecimientos normales y aún para desarrollos imprevistos como técnicas de modelado nuevo.
El tercer nivel, el nivel de tarea especializado, es el lugar para describir como las acciones en las tareas genéricas deberían ser realizadas en ciertas situaciones específicas. Por ejemplo, en el segundo nivel podría haber una tarea genérica llamada limpieza de datos. El tercer nivel describe como esta tarea se diferencia en situaciones diferentes, como la limpieza de valores numéricos contra la limpieza de valores categóricos, o si el tipo de problema es agrupamiento o el modelado predictivo.
La descripción de fases y tareas como pasos discretos realizados en un orden específico representa una secuencia idealizada de eventos.
En la práctica, muchas de las tareas pueden ser realizadas en una orden diferente, y esto a menudo será necesario volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. Nuestro modelo de proceso no intenta capturar todas estas posibles rutas del proceso de la minería de datos porque esto requeriría un modelo de proceso demasiado complejo.
El cuarto nivel, la instancia de proceso, es un registro de las acciones, decisiones, y de los resultados de una minería de datos real contratada.
Una instancia de proceso esta organizado según las tareas definidas en los niveles más altos, pero representa lo que en realidad pasó en un contrato particular más bien que lo que pasa en general.
Figura 1: Cuatro niveles de interrupción de la metodología CRISP-DM
2. Modelo de referencia y guía de usuario
Horizontalmente, la metodología de CRISP-DM se distingue entre el modelo de referencia y la guía de usuario. El modelo de referencia presenta una descripción rápida de fases, las tareas, y sus salidas, y describen que hacer en el proyecto de minería de datos. La guía de usuario da consejos más detallados e insinuaciones para cada fase y cada tarea dentro de una fase, y representa como realizar un proyecto de minería de datos
Este documento cubre tanto el modelo de referencia como la guía de usuario en el nivel genérico.
2. Pasaje de modelos genéricos a modelos especializados
1. Contexto de la minería de datos
El contexto de minería de datos traza un mapa entre lo genérico y el nivel especializado en CRISP-DM. Actualmente, distinguimos entre cuatro dimensiones diferentes de contextos de minería de datos:
• el dominio de aplicación es el área específica en la que el proyecto de minería de datos toma lugar
• los tipos de problemas de minería de datos describen la(s) clase(s) específica(s) de objetivo(s) con el que el proyecto de minería de datos trata (ver también el Apéndice 2)
• el aspecto técnico cubre cuestiones específicas en minería de datos que describe diferentes (técnicas) dificultades que por lo general ocurren durante la minería de datos
• la herramienta y las especificaciones de dimensión técnica en la que las herramienta(s) de minería de datos y/o técnicas son aplicadas durante el proyecto de minería de datos
La Tabla 1 de abajo resume estas dimensiones de contextos de minería de datos y muestra ejemplos específicos para cada dimensión.
Tabla 1. Dimensión de contextos y ejemplos de minería de datos
Un contexto específico de minería de datos es un valor concreto para una o más de estas dimensiones. Por ejemplo, un proyecto de minería de datos tratando con un problema de clasificación que se revuelve con la predicción constituye un contexto específico. Lo más específico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas), lo mas concreto es el contexto de minería de datos.
2. Pasaje con contextos
Distinguimos entre dos tipos diferentes de pasajes (plan) entre el nivel genérico y un especializado en el CRISP-DM.
Pasaje para el presente: Si sólo aplicamos el modelo de proceso genérico para realizar un proyecto de minería simple, e intentar pasar de tareas genéricas y sus descripciones al proyecto específico como requerido, hablamos sobre un pasaje solo para (probablemente) un solo uso.
Pasaje para el futuro: Si sistemáticamente especializamos el modelo de proceso genérico según un contexto predefinido (o analizando sistemáticamente de modo similar y consolidando las experiencias de un único proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables), hablamos explícitamente de la sobre escritura de un modelo de proceso especializado en términos de CRISP-DM.
Cualquiera de los tipos de trazados es apropiado según sus propios objetivos, depende de su contexto de minería de datos específicos y las necesidades de su organización.
3. Pasaje
La estrategia básica para pasar un mapa del modelo de proceso genérico al nivel especializado es la misma para ambos tipos de pasaje:
• Analizar su contexto específico
• Quitar cualquier detalle no aplicable a su contexto
• Agregar cualquier detalle específico a su contexto
• Especializar (o instanciar) el contenido genérico según las características concretas de su contexto
• Renombrar el contenido genérico posible para proporcionar significados más explícitos en su contexto para la aclaración.
3. Descripción de partes
1. Contenido
El modelo de proceso de CRISP-DM (este documento) es organizado en cinco partes diferentes:
• Parte I: es esta una introducción a la metodología de CRISP-DM, que proporciona algunas directrices generales para pasar un modelo de proceso genérico a modelos de proceso especializados
• Parte II: describe el modelo de referencia de CRISP-DM, sus fases, tareas genéricas, y salidas
• Parte III presenta la guía
...