DATA MINING
Enviado por omarltrejo2 • 7 de Mayo de 2015 • 4.768 Palabras (20 Páginas) • 231 Visitas
Data mining: torturando a los datos hasta
que confiesen[*]
Luis Carlos Molina Félix
Coordinador del programa de Data mining (UOC)
lmolinaf@uoc.edu
Resumen: El título de este artículo es una explicación informal de la actividad que realiza
una tecnología denominada data mining (minería de datos). Lo que se pretende con esta
tecnología es descubrir conocimiento oculto a partir de grandes volúmenes de datos. Desde
la década pasada, debido a los grandes avances computacionales, se ha ido incorporando
a las organizaciones para constituirse en un apoyo esencial al momento de tomar
decisiones. Organizaciones tales como empresas, clubes profesionales deportivos,
universidades y gobiernos, entre otros, hacen uso de esta tecnología como ayuda en la
toma de sus decisiones. Algunos de estos ejemplos serán citados en el presente trabajo.
1. Introducción
Cada día generamos una gran cantidad de información, algunas veces conscientes de que lo
hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de
que generamos información cuando registramos nuestra entrada en el trabajo, cuando
entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crédito o
cuando reservamos un billete de avión. Otras veces no nos damos cuenta de que generamos
información, como cuando conducimos por una vía donde están contabilizando el número de
automóviles que pasan por minuto, cuando se sigue nuestra navegación por Internet o cuando
nos sacan una fotografía del rostro al haber pasado cerca de una oficina gubernamental.
¿Con qué finalidad queremos generar información? Son muchos los motivos que nos llevan a
generar información, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar,
investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según
el dominio en que nos desarrollemos. La información por sí misma está considerada un bien
patrimonial. De esta forma, si una empresa tiene una pérdida total o parcial de información
provoca bastantes perjuicios. Es evidente que la información debe ser protegida, pero también
explotada.
¿Qué nos ha permitido poder generar tanta información? En los últimos años, debido al
desarrollo tecnológico a niveles exponenciales tanto en el área de cómputo como en la de
transmisión de datos, ha sido posible que se gestionen de una mejor manera el manejo y
almacenamiento de la información. Sin duda existen cuatro factores importantes que nos han
llevado a este suceso:
1. El abaratamiento de los sistemas de almacenamiento tanto temporal como
permanente.
Data mining: torturando a los datos hasta que confiesen
http://www.uoc.edu/molina1102/esp/art/molina1102/molina1102.html
Luis Carlos Molina Félix, 2002
de esta edición: FUOC, 2002
-1-
2. El incremento de las velocidades de cómputo en los procesadores.
3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de
datos.
4. El desarrollo de sistemas administradores de bases de datos más poderosos.
Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la
información en las bases de datos. Podemos decir que algunas empresas almacenan un cierto
tipo de datos al que hemos denominado dato-escritura, ya que sólo se guarda (o escribe) en el
disco duro, pero nunca se hace uso de él. Generalmente, todas las empresas usan un dato
llamado dato-escritura-lectura, que utilizan para hacer consultas dirigidas. Un nuevo tipo de
dato al cual hemos denominado dato-escritura-lectura-análisis es el que proporciona en
conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones. Es necesario
contar con tecnologías que nos ayuden a explotar el potencial de este tipo de datos.
La cantidad de información que nos llega cada día es tan inmensa que nos resulta difícil
asimilarla. Basta con ir al buscador Altavista[url2] y solicitar la palabra information para ver que
existen 171.769.416 sitios donde nos pueden decir algo al respecto. Suponiendo que nos
tomemos un minuto para ver el contenido de cada página, tardaríamos entonces 326 años en
visitarlas todas. Esto es imposible, y, por lo tanto, existe una clara necesidad de disponer de
tecnologías que nos ayuden en nuestros procesos de búsqueda y, aún más, de tecnologías
que nos ayuden a comprender su contenido.
El data mining surge como una tecnología que intenta ayudar a comprender el contenido de
una base de datos. De forma general, los datos son la materia prima bruta. En el momento que
el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando
los especialistas elaboran o encuentran un modelo, haciendo que la interpretación del
confronto entre la información y ese modelo represente un valor agregado, entonces nos
referimos al conocimiento. En la figura 1 se ilustra la jerarquía que existe en una base de datos
entre dato, información y conocimiento (Molina, 1998). Se observa igualmente el volumen que
presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa
jerarquía. El área interna dentro del triángulo representa los objetivos que se han propuesto. La
separación del triángulo representa la estrecha unión entre dato e información, no así entre la
información y el conocimiento. El data mining trabaja en el nivel superior buscando patrones,
comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar
algún modelo que nos permita comprender mejor el dominio para ayudar en una posible toma
de decisión.
Data mining: torturando a los datos hasta que confiesen
http://www.uoc.edu/molina1102/esp/art/molina1102/molina1102.html
Luis Carlos Molina Félix, 2002
de esta edición: FUOC, 2002
-2-
3. Más detalles en http://www.kdnuggets.com.[url3].
Figura 1. Relación entre dato, información y conocimiento (Molina, 1998).
2. Data mining: conceptos e historia
Aunque desde un punto de vista académico el término data mining es una etapa dentro de un
proceso mayor llamado extracción de conocimiento en bases de datos (Knowledge Discovery in
Databases o KDD) en el entorno comercial, así como en este trabajo, ambos términos se usan
de manera indistinta. Lo que en verdad hace el data mining es reunir
...