Minería Base De Datos: Una Perspectiva De Rendimiento
Enviado por sulamitatrrs • 11 de Enero de 2014 • 8.576 Palabras (35 Páginas) • 329 Visitas
Minería base de datos: una perspectiva de rendimiento
Resumen Presentamos nuestra perspectiva de la minería de base de datos como conSECuencia de aprendizaje automático técnicas y el énfasis rendimiento de la tecnología de base de datos. Se describen tres clases de problemas de minería de bases de datos que implican clasi caci, asociaciones y secuencias, y argumentar que estos problemas se pueden ver de manera uniforme como que requiere descubrimiento de reglas incrustados en datos masivos. Se describe un modelo y algunas operaciones básicas para el proceso de la regla descubrimiento. Se muestra cómo los problemas de minería de bases de datos que consideramos mapa para este modelo y cómo pueden ser resueltos mediante el uso de las operaciones básicas que proponemos. Damos un ejemplo de un algoritmo para la clasificación de cationes obtiene mediante la combinación de las operaciones básicas de descubrimiento de reglas. Este algoritmo no sólo es e? Ciente en el descubrimiento de reglas de clasi caci pero también tiene una precisión comparable a ID3, uno de los actuales mejores ERS clasi.
Términos de indexación. base de datos de minería, descubrimiento de conocimiento, clasi cación, las asociaciones, las secuencias, los árboles de decisión.
introducción
La tecnología de base de datos se ha utilizado con gran éxito en el procesamiento de los datos de negocio tradicional. Hay un creciente deseo de utilizar esta tecnología en nuevos campos de aplicación. Uno de tales dominio de aplicación que pueda adquirir considerable signi cancia en un futuro próximo es la base de datos la minería [12] [3] [5] [8] [9] [11] [15] [16] [18] [19]. Un número creciente de organizaciones están la creación de bases de datos ultra-grandes (medido en gigabytes e incluso terabytes) de datos empresariales, tales como los datos de consumo, historiales de transacciones, registros de ventas, etc Esta información constituye un potencial mina de oro de información comercial valiosa.
Desafortunadamente, los sistemas de base de datos de hoy en día o? Poca funcionalidad er para apoyar este tipo de aplicaciones \ mineras ". Al mismo tiempo, las técnicas de aprendizaje estadístico y la máquina suelen realizar mal cuando se aplica a los conjuntos de datos de gran tamaño. Esta situación es probablemente la razón principal por la que grandes cantidades de datos son todavía en gran parte inexplorado y son almacenadas principalmente en una o? Ine almacenar o están a punto de ser tirado. Presentamos en este trabajo nuestra perspectiva de la minería como base de datos con la uencia de la máquina técnicas y el énfasis rendimiento de la tecnología de base de datos de aprendizaje. Sostenemos que una número de problemas de minería de bases de datos puede ser visto de manera uniforme como que requiere descubrimiento de reglas incrustado en los datos masivos. Se describe un modelo y algunas operaciones básicas para el proceso de descubrimiento regla. También se muestra cómo estos problemas de minería de bases de datos se asignan a este modelo y cómo
pueden ser resueltos mediante el uso de las operaciones básicas que proponemos.
Nuestra vista de la minería de bases de datos y complementa la visión presentado en [ 9 , 19 ] . Ambos estos documentos argumentan a favor de un proceso para la minería con un ser humano en el bucle iterativo . El usuario comienza con una hipótesis y utiliza los datos para refutar o con rmar la hipótesis. La hipótesis es re Ned , dependiendo de la respuesta y este proceso continúa hasta que una teoría satisfactoria tiene sido obtenido . El énfasis en [ 19 ] es en tener un lenguaje declarativo que hace que sea más fácil formular y revisar las hipótesis. El énfasis en [9 ] es proporcionar un gran ancho de banda entre la máquina y humano para que el usuario de interés se mantiene entre iteraciones sucesivas . Aunque no discutimos este aspecto en detalle en este documento , se admite la posibilidad de ser humano intervención en el proceso minero. Esta intervención puede ser en la forma de conocimiento de dominio para guiar el proceso de la minería , o el conocimiento adicional que las normas se extraen . Se ha trabajado en la cuantificación de la \ utilidad "o \ interestingness " de una regla [ 17 ] . Estas ideas pueden ser construido como ltros en la parte superior del núcleo de las técnicas de descubrimiento de reglas. El resto del trabajo se organiza de la siguiente manera. En la Sección 2 , se presentan tres tipos de problemas de minería de bases de datos que implican clasi cación , asociaciones y secuencias. En la sección 3, presentar un marco unificador y mostrar cómo estas tres clases de problemas pueden ser uniformemente visto como que requiere descubrimiento de reglas . En el punto 4 , introducimos las operaciones que pueden constituir la núcleo computacional para el proceso de descubrimiento regla. Se muestra cómo los problemas de minería de bases de datos bajo consideración pueden ser resueltos mediante la combinación de estas operaciones . Para que la discusión concreta , consideramos que el problema de clasi caci en detalle en la Sección 5 , y presenta un hormigón algoritmo para problemas de cationes clasi obtenidos mediante la combinación de estas operaciones . Se demuestra que la clasificación er así obtenida no sólo es e? ciente , pero tiene una precisión comparable a la clasi caci la conocida clasificación er ID3 [ 14 ] . Presentamos nuestras conclusiones y orientaciones para el trabajo futuro en
Sección 6 .
2 Problemas minería de bases de datos
Se presentan tres tipos de problemas de minería de bases de datos que tenemos identi cados mediante el examen de algunos de las aplicaciones a menudo citados de minería de datos . Estas clases ciertamente no agotan todas las aplicaciones de minería de bases de datos , pero sí capturar una interesante subconjunto de ellos.
En la Sección 3 , presentaremos un marco unificador para el estudio y la solución de estos problemas.
2.1 Clasi cación
El problema clasi caci [ 6 ] [ 10 ] [ 11 ] [ 18 ], contiene normas Nding que dividir los datos dados en grupos disjuntos . Como un ejemplo de un problema de cationes clasificación , considerar el problema de localización de la tienda . Se supone que el éxito de la tienda está determinado por las características del vecindario , y la empresa está interesada en la identificación de los barrios que deberían ser los principales candidatos para una mayor investigación para la ubicación de una nueva tienda propuesta . La empresa tiene acceso a una base de datos vecindario. Se clasifica primera de sus tiendas actuales en éxito , promedio y tiendas sin éxito . Con base en los datos del vecindario de estas tiendas,
...