ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Minería De Datos: Conceptos Y Aplicaciones


Enviado por   •  22 de Enero de 2015  •  2.464 Palabras (10 Páginas)  •  165 Visitas

Página 1 de 10

Recibido: 21 de enero de 2013. Aceptado: 15 de abril de 2013.

Resumen Se presenta la miner´ıa de datos como un conjunto de t´ecnicas para obtener informaci´on u´til y no evidente en datos de diversos tipos. Primero se revisa el concepto y su evoluci´on, para repasar varias de las aplicaciones actuales y describir su potencial. Especialmente en Internet. La conclusi´on principal es la importancia de su desarrollo y la formaci´on de profesionales en esta ´area.

Palabras clave: miner´ıa de datos, bases de datos, inteligencia artificial.

1. Introduccio´n En el an˜o 1889, Herman Hollerit patento´ en los Estados Unidos de Am´erica una m´aquina tabuladora autom´atica, que le´ıa tarjetas perforadas. Los patrones registrados en las tarjetas disingu´ıan los diferentes aspectos en los registros de personas. El objetivo del invento fue procesar la informaci´on del censo de 1890 en ese pa´ıs, gracias a lo cual fue posible realizar esta tarea en un an˜o en lugar de casi una d´ecada que se requer´ıa en el procesamiento manual. Esta referencia la podemos considerar como el primer desarrollo de una herramienta maquinal para procesar gran cantidad de datos, lo cual constituye uno de los principios fundamentales de la miner´ıa de datos.

Como concepto, la miner´ıa de datos se utiliza de la manera que se entiende en la actualidad hasta principios de 1990. Pretende una analog´ıa con el proceso de extraer materiales valiosos en una mina: En ´esta hay gran cantidad de materiales (datos), que se procesan de forma extensa para obtener esas menores cantidades de material precioso buscado y que no era visible en el conjunto original (informacio´n u´til). En el caso de la m´aquina de Hollerit, la miner´ıa, en su estado primitivo, consistio´ en llegar a conclusiones num´ericas b´asicas, con la ventaja del tiempo que fue posible obtenerlas. La tabla 1 resume la evoluci´on de las tecnolog´ıas utilizadas y las caracter´ısticas del concepto desde 1960. La caracter´ıstica actual de ser prospectiva se refiere a su utilizacio´n para prever resultados futuros, lo cual es de sumo inter´es para la toma de decisiones en mercados dina´micos y de alta competencia, como los que se desarrollan en Internet. Como se describira´ en la secci´on 3, los desarrolladores y empresas que funcionan en la red Internet tienen gran inter´es en los resultados que estas t´ecnicas pueden ofrecer.

El proceso de miner´ıa de datos es visto como una evoluci´on natural de la tecnolog´ıa de la informaci´on, en el que la informaci´on se extrae de bases y almacenes de datos. La funcionalidad de los resultados buscados con ´esta se pueden clasificar en dos grandes categor´ıas [1]:

1. Funcionalidades descriptivas: Enfocadas en buscar patrones en los datos que puedan ser interpretables por el ser humano. Por ejemplo, caracterizaciones (generalidades de los datos), an´alisis de asociaciones (reglas presentes en el conjunto) o de agrupamientos (subconjuntos semejantes de datos) no evidentes. 2. Funcionalidades predictivas: Enfocadas en buscar predicciones basadas en inferencias, generalmente sobre modelos abstractos. Por ejemplo, clasificaci´on y regresi´on (modelos que describan y distingan subconjuntos de datos).

En la secci´on 3 se detallan varios ejemplos concretos de cada uno de estos tipos.

Una distincio´n que plantea el obtener datos adicionales, a manera de informaci´on u´til, de tener solamente los datos, es el valor que ´estos tienen. Contar con gran cantidad de datos, por ejemplo un banco sobre sus clientes, no garantiza que sea de utilidad para alcanzar o mejorar los objetivos de la entidad, a menos que se pueda extraer de esa informaci´on algo u´til sobre lo que se pueda tomar decisiones y despu´es evaluarlas. La cantidad de informaci´on puede ser m´as bien un obsta´culo si no se cuenta con las t´ecnicas y capacidad adecuada para procesarla para pasar de solo informaci´on a conocimiento en la forma de informaci´on u´til.

2. Implementacio´n y metodologı´a Las t´ecnicas utilizadas en miner´ıa van desde herramientas estad´ısticas hasta herramientas de inteligencia artificial. De estas u´ltimas, cuatro de las principales utilizadas son [3]:

1. Redes Neuronales: Son modelos no-lineales inspirados en las redes de neuronas. En principio consisten en un conjunto de nodos organizados en capas con determinados enlaces entre ellos. Tanto la configuracio´n de los nodos como los valores en sus enlaces se ajustan, buscando una configuracio´n ´optima que permita obtener valores acertados en problemas de clasificacio´n y prediccio´n. La configuracio´n ´optima se realiza en un ajuste llamado entrenamiento, que utiliza los datos para determinar la estructura y caracter´ısticas de

62 ContactoS 91, 60–65 (2014)

Tabla 1: Evoluci´on de la miner´ıa de datos 1960 a la actualidad. Evoluci´on Tecnolog´ıas presentes Caracter´ısticas Colecciones de datos (1960-) Computadoras, cintas, discos Manipulaci´on estad´ıstica. Acceso a datos (1980-) Bases de datos relacionales, Resultados din´amicos lenguajes de bu´squeda de bu´squeda a nivel estructurados (SQL) de registros. Almacenes de datos (1990-) Bases de datos Resultados din´amicos multidimensionales, de bu´squeda en almacenes de datos mu´ltiples niveles Miner´ıa de datos (2000-) Algoritmos avanzados, Informaci´on prospectiva computadoras multiprocesador. y proactiva.

Fuente: Aldana, 2000 [2]

la red que mejores prestaciones dara´ al proceso buscado. Tienen la ventaja de que no pretenden establecer un modelo cerrado sobre un conjunto de datos, sino un modelo que pueda ajustarse y que utilice solamente los datos [4]. 2. Arboles de decisi´on: Son estructuras en forma de ´arbol, con nodos organizados de forma jer´arquica, y que representan conjuntos de decisiones capaces de generar reglas para la clasificacio´n de los datos. Existen diversas t´ecnicas para construirlos y optimizarlos, pues es cr´ıtico la eficiencia en cuanto al tiempo en que puedan realizar la clasificacio´n, la cual depende del algoritmo utilizado y el taman˜o del ´arbol [5]. Un ejemplo de ´arbol de decisi´on se muestra en la figura 1.

Figura 1: Ejemplo de ´arbol de decisi´on. Fuente: Barrientos et al. 2009.[6]

La importancia de los ´arboles para clasificacio´n de datos radica en que una vez establecidos, un conjunto grande de datos puede ser proceso de forma autom´atica y obtener resultados en tiempos relativamente cortos. En la figura 1 anterior, consis

tir´ıan en una clasificacio´n -1, +1. 3. Algoritmos gen´eticos: Son modelos inspirados en la evoluci´on de las especies y que se aplican generalmente en problemas de optimizacio´n. Parte de la abstracci´on de individuos como cadenas de nu´meros, y se establecen reglas para caracter´ısticas

...

Descargar como (para miembros actualizados) txt (17 Kb)
Leer 9 páginas más »
Disponible sólo en Clubensayos.com