Mineria Datos
Enviado por quarks • 4 de Marzo de 2014 • 1.665 Palabras (7 Páginas) • 497 Visitas
DETERMINAR QUIEN REALIZA MAS COMPRA EL SEXO MASCULINO O EL SEXO FEMENINO EN LA CIUDAD DUITAMA Y TUNJA
DETERMINE WHO MAKES BUY MORE MALE OR FEMALE AT CITY DUITAMA, TUNJA
Henry Mauricio Amézquita Rivera y Javier Enrique Fonseca
Universidad UPTC Tunja, Minería de Datos.
quarksfisica@gmail.com , javier.e.fonseca@gmail.com
Resumen
El objetivo genera es lograr determinar que sexo realiza más compras en la ciudad de Duitama y Tunja mediante las predicciones utilizando el programa Weka, además se usara la opciones de Use Training set, del modelo predictivo, en este caso un árbol de decisión donde nos mostrara unos datos para el análisis y visualizaremos mediante el árbol de decisiones.
Palabras clave: Minería de datos, toma de decisiones, preprocess, modelo predictivo, árbol de decisión, bases de datos…
DETERMINE WHO MAKES BUY MORE MALE OR FEMALE AT CITY DUITAMA, TUNJA
Abstract
The goal is to determine that generates sex performed by more purchases in Boyacá predictions using the Weka program also was used Training Use the options set, the predictive model, in this case a decision tree where we show some data for analyze and visualize through the decision tree.
I. INTRODUCCIÓN
En la actualidad las organizaciones suelen moverse dentro de estructuras identificadas con un cambio continuo, por ello, las empresas privadas tanto como las públicas
deben tener la capacidad de ser adaptativas, aprender cómo resolver problemas y generar conocimiento, para establecer nuevos métodos en pro de la resolución de los mismos.
II. DESARROLLO DE CONTENIDO
J48[1] El algoritmo J48 es una implementación del C4.5 (algoritmo de Minería de Datos muy utilizado en el análisis de información), que amplia un conjunto de funcionalidades entre las que se destaca el permitir la realización del proceso de podado mediante la especificación del parámetro reducedErrorPruning. El algoritmo J48 se basa en la utilización del criterio ratio de ganancia (gain ratio). De esta manera se consigue evitar que las variables con mayor número de posibles valores salgan beneficiadas en la selección. Además el algoritmo incorpora una poda del árbol de clasificación una vez que éste ha sido inducido. Entre sus principales características se destaca que: - Admite como variables productoras atributos tanto numéricos como simbólicos (nominal), sin embargo requiere que la clase o variable a predecir sea de tipo nominal. - Permite el trabajo con pesos en los ejemplos. - Admite faltas en los atributos (valores perdidos) tanto en el entrenamiento como en la predicción del ejemplo.
III. PREPOCESAMIENTO DATOS
Algoritmo C4.5 o J48, [1] permite trabajar con valores continuos para los atributos. En este artículo se expone el uso de la minería de datos a través de algoritmos de árboles de clasificación (J48)1 y reglas de asociación (apriori). En general, la minería de datos es el proceso de analizar los datos desde diferentes perspectivas y resumiéndolos en información útil información que se puede utilizar para la toma de decisiones.
Fig. 1 Autor
Se obtuvo una base de datos para determinar el sexo que realiza más compra en la ciudad de Tunja y Duitama, usando Training Set, del modelo predictivo, árbol de decisiones con el programa Weka,[2].
Se tomaron cuatro atributos relevantes para la toma de decisiones Número de tarjeta, Ciudad, sexo y Compras. Los datos recogidos de la base de datos fueron guardados en un fichero CSV (separado por comas), luego los datos categóricos los pasamos a numéricos para desarrollar el problema y fuera más entendible el árbol de decisiones, los datos faltantes se realizó manualmente para el llenado de datos, el formato utilizado .arff, después se pasó la base de datos al formato estándar de Weka2 para poder cargar los datos.
Al cargar la base de datos con Weka[2] podemos observar tenemos 2182 Datos, Con los cuatro atributos son Tipo Tarjeta, sexo, ciudad y compras.
Fig. 2 Árbol generado por el algoritmo J48.
Se aplicó el algoritmo J48, [1] es una implementación open source en el lenguaje de programación del algoritmo C4.5 en la herramienta weka de minería de datos. Dentro de la transformación se utilizó algoritmo a priori.
IV.IV. MINERIA DE DATOS
Se puede definir la Minería de DatosSe puede definir la Minería de DatosSe puede definir la Minería de DatosSe puede definir la Minería de Datos Se puede definir la Minería de Datos Se puede definir la Minería de DatosSe puede definir la Minería de DatosSe puede definir la Minería de DatosSe puede definir la Minería de Datos Se puede definir la Minería de Datos Se puede definir la Minería de Datos Se puede definir la Minería de DatosSe puede definir la Minería de Datos Se puede definir la Minería de DatosSe puede definir la Minería de Datos Se puede definir la Minería de DatosSe puede definir la Minería de Datos Se puede definir la Minería de Datos [3] como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento como El proceso de extraer conocimiento útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente útil y comprensible, previamente desconocido, desde grandes cantidades de desconocido, desde grandes cantidades de desconocido, desde grandes cantidades de desconocido, desde grandes cantidades de desconocido, desde grandes cantidades de desconocido, desde grandes
...