Desarrollo De Un Programa
Enviado por julianalassor • 17 de Diciembre de 2014 • 718 Palabras (3 Páginas) • 157 Visitas
PROCEDIMIENTO PARA LA BÚSQUEDA DE INFORMACIÓN EN BASES DE DATOS
El proceso de KDD consiste de varios pasos, a través de los cuales se creara un modelo para el análisis de la base de datos. Estos pasos son:
1. Aprender el dominio de la aplicación. Implica el adquirir conocimiento del área de estudio del sistema y la meta a obtener.
Se puede descomponer esta tarea en tres áreas:
a. Aprendizaje del tema. El analista debe conocer el proceso detrás de la generación de la información para poder formular las preguntas correctas, aleccionar las variables relevantes a cada pregunta, interpretar los resultados y sugerir el curso de acción después de concluido el análisis.
2. Creación de la base de datos de trabajo. Consiste en elegir un subconjunto de variables o datos de muestra, de los cuales se obtendrá conocimiento. Esto con el fin de eliminar valores redundantes e inconsistencias en los datos de varias fuentes al juntarlos dentro de una sola base de datos.
3. Limpieza y pre-procesamiento de los datos. Incluye operaciones básicas sobre los datos, como el filtrado para reducir ruido y decidir qué hacer con los datos faltantes. Otras tareas de pre procesamiento no tan evidentes son:
a. Derivar nuevos atributos. Crear campos explícitos con relaciones entre los atributos conocidos (como relaciones entre ingresos y gastos) puede hacer el análisis más sencillo.
b. Agrupación. Donde hay relaciones uno-a-muchos en las bases de datos, podemos convertir estas relaciones en uno-a-uno y agregar un campo de conteo o suma, que contabilice todos los registros de la relación.
4. Reducción de datos y proyección. En este paso el analista trata de buscar características útiles para representar los datos en función de las metas del proyecto y posiblemente también reducir las dimensiones de la base de datos.
5. Elegir la función del algoritmo de minería de datos. El propósito del modelo se decidirá en este paso. Usualmente los algoritmos de DM realizan una de las siguientes tareas:
a. Síntesis. Dados una gran cantidad de atributos, es necesario sintetizar los datos usando varias reglas características que simplificaran la construcción del modelo.
b. Asociación. Los algoritmos en esta clase generan reglas que asocian patrones de transacciones con cierta probabilidad.
c. Agrupamiento. Agrupar objetos dentro de clases, basados en sus características,
Maximizando la semejanza dentro de la misma clase, y minimizando la semejanza entre clases diferentes.
d. Clasificación y predicción. Categorizar datos basándose en un conjunto de datos de entrenamiento y hacer un modelo para cada clase. Este modelo sirve para clasificar los nuevos datos agregados a la base de datos.
6.
...