Minería De Datos
Enviado por jaivr • 12 de Mayo de 2014 • 1.697 Palabras (7 Páginas) • 273 Visitas
TRABAJO FINAL DE MINERIA DE DATOS
PRESENTADO POR:
JAIVER ARIAS JARABA
PRESENTADO A:
ING. ALEXANDRA SORAYA BELTRAN
MATERIA:
MINERIA DE DATOS
USO DE LA HERRAMIENTE WEKA
UNIVERSITARIA DE DESARROLLO E INVESTIGACION – UDI
FACULTAD DE INGENIERIA DE SISTEMAS
DECIMO SEMESTRE
BUCARAMANGA
2013
INTRODUCCIÓN
El siguiente trabajo, nos permitió lograr la implementación de una bodega de datos en un software libre llamado Weka, el cual es utilizado para el aprendizaje automático y minería de datos, basado en plataforma Java.
Se utilizó la herramienta SQLyog, y logramos obtener varios Data Set, los cuales fueron generados a partir de una consulta y previa vista, con base en la medida aplicada en el hecho de nuestra bodega de datos.
Dando como resultado los registros estadísticos aplicados según la metodología vistas en clase.
OBJETIVOS
• Crear los Data Set, a partir de las consultas y vistas generadas con la bodega de datos, teniendo como base la medida del Hecho.
• Utilizar la herramienta Weka, para aplicar las técnicas de aprendizaje.
• Evaluación de las pruebas obtenidas y comparación de resultados obtenidos.
• Generación de reportes CSV, mediante el software aplicativo pertinente, en nuestro caso, PHPMyAdmin – MySQL
• Importación de reporte CSV a la aplicación Weka
1. Primer Data Set, Clase Valoración de Inmuebles por Precio venta
Consulta Para Generar el Data Set, se asignó una clase valoración para determinar mediantes precio de venta a que clase pertenece cada inmueble, Los inmuebles con un precio de venta menor o igual a 89.000.000 entran en un rango de inmuebles baratos y aquellos con un precio de venta superior a 89.000.000 entran en un rango de inmuebles costosos
Figura 1: Consulta para Generar el Data Set
CREATE VIEW Estado_Inmueble AS
(
SELECT i.tipo_inmueble_fk AS Tipo_Inmueble ,i.proyecto_fk,p.nombre,es.descripcion AS Estado,precioventa,
CASE WHEN (precioventa)>0 AND (precioventa)<=89000000 THEN 'Barato'
WHEN (precioventa)>89000000 THEN 'Costosa' END AS Valoracion
FROM inmueble i INNER JOIN proyecto p ON i.proyecto_fk=p.id INNER JOIN estados es ON i.estado_fk=es.id
)
Figura 2: Vista por Atributo
Con base en esta consulta, se crea una vista dentro de la Base de Datos, la cual nos sirve para exportar como archivo CSV, el cual es fundamental para su debida importación con la herramienta Weka. El cual toma los datos e instancias del Data Set, para luego aplicar las medidas deseadas.
Descripción, Como se Puede Observar en la FIGURA 2 existen 48 Tipos de inmuebles con una clasificación de ‘’Baratos’’ de color azul y 97 con una clasificación de Costosos de Color Rozo
Generando el Árbol de decisión en weka (Aprendizaje Supervisado), Se Puede Observar la Siguiente Grafica
Figura 3: Vista por Estado
Se observa que hay 85 vendidos y 60 disponibles
Figura 4: Vista por Atributo de Clase, Árbol de decisión.
Para Generar el árbol nos dirigimos a la pestaña de clasificación y presionamos chosse,
Luego nos dirigimos a la carpeta tres en J48 y presionamos Start, seguidamente clik derecho sobre el resultado generado en Visualiza tree.
Los inmuebles con un precio de venta menor o igual a 88.530.000 entran en un rango de inmuebles baratos y aquellos con un precio de venta superior a 88.530.000 entran en un rango de inmuebles costosos
Figura 5: Inmuebles vendidos y disponibles por clase, Árbol de decisión
Descripción, Se puede Observar en la figura 4 las cantidades de apartamentos vendidos y disponibles.
Ejemplo1
De la Clase Costosa, de los tipos inmuebles menores o iguales a 1 hay 3 vendidos de 17 que existen
Ejemplo2
De la Clase Costosa, de los tipos inmuebles mayores que 1 y con id de proyecto menor o igual a 2 se encuentran disponibles 15 de 56 que existen.
2. Segundo Data Set, Cantidad Vendidos por Usuario-Objetivo bodega de Datos 1
Consulta Para Generar el Data Set, se asignó una clase valoración para determinar mediantes la Cantidad de Inmuebles Vendidos por Clientes a que clase pertenece, los usuarios con ventas mayores que 6 y menores o iguales que 40 entra en una clasificación de Buenos, y los clientes con ventas mayores que 40 entran en un clasificación de excelente
Figura 6: Consulta para Generar el Data Set
CREATE VIEW Segundo_Data_Set AS
(
SELECT v.cuotas,tip.descripcion AS Tipo_Inmueble,COUNT(v.id) AS Cantidad_vendidos,
CASE WHEN COUNT(v.id)>=6 AND COUNT(v.id)<=40 THEN 'Bueno'
WHEN COUNT(v.id)>40 THEN 'Exelente'
END AS Clase
FROM
ventas v INNER JOIN inmueble i ON v.inmueble_fk=i.codigo INNER JOIN usuario us ON v.usuario_fk=us.id
INNER JOIN proyecto p ON v.proyecto_fk=p.id INNER JOIN
ciudad ci ON p.ciudad_fk=ci.id INNER JOIN departamento dep ON ci.depto_fk=dep.id INNER JOIN pais pas
ON dep.pais_fk=pas.id INNER JOIN tipo_inmueble tip ON i.tipo_inmueble_fk=tip.id GROUP BY us.cedula
)
Figura 7: Vista por Atributo
Se Observa que de 4 Registros 2 entran en la clasificación de Buenos y 2 en la clasificación de excelentes
Figura 8: Uso del Aprendizaje no Supervisado Clúster
Después de haber
...