Data Mining
Enviado por lugogrimaldi • 20 de Marzo de 2015 • 1.330 Palabras (6 Páginas) • 835 Visitas
Introducción
El término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, así como en este trabajo, ambos términos se usan de manera indistinta.
Lo que hace el data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definición tradicional es la siguiente: "Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" . Desde otro punto de vista, lo definimos como "la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" .
El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales dedata mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
¿Cómo es el funcionamiento del Data Mining?
Data Mining permite buscar patrones en los datos de manera automática o semiautomática. Es decir, no se trata de verificar una hipótesis en los datos, sino más bien de generarla. Los algoritmos de Data Mining buscan información, o patrones,sin necesidad de que el usuario sospeche siquiera que esa información existe. En relación a esto, existe una leyenda urbana que cuenta que un gerente de una tienda minorista descubrió, gracias a un software de Data Mining, que los clientes de sexo masculino que compraban cerveza los fines de semana tendían a recordar el pedido de sus esposas de comprar pañales. Entonces, decidió ubicar los pañales al lado de la cerveza, lo cual desencadenó un crecimiento explosivo de las ventas. Seguramente el gerente del supermercado ni imaginaba que existiera esa regla de asociación entre esos productos.
¿Cómo interactúan todos los elementos que conforman el data mining?
El data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que están interesadas en explorar sus bases de datos.
el proceso se compone de cuatro etapas principales:
1. Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
2. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
3. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
4. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
¿De qué manera el data mining apoya a la detección de fraude bancario?
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida enalmacenes de datos (en inglés, datawarehouses). No obstante, está cobrando una importancia cada vez mayor la minería de datos desestructurados como es la información contenida en ficheros de texto o minería de textos (en inglés, text mining), en Internet (web mining),
...