En el presente trabajo se plantea hacer uso de distintas herramientas utilizadas a lo largo del curso como son los modelos de árboles de decisión, regresión logística y red neuronal
Enviado por Carlos De La Vega • 11 de Mayo de 2017 • Ensayo • 891 Palabras (4 Páginas) • 305 Visitas
UNIVERSIDAD ANÁHUAC
[pic 1]
Trabajo Final Minería de datos
Profesor: Dr. Mauricio José Carrera Abarca
Materia: Minería de datos
Luis Antonio Alarcón García 00178176
Carlos de la Vega Sánchez 00195598
Julio Arístides Flores Morales 00158874
Said Abraham Pérez Jiménez 00037326
Equipo Cruz Azul
Fecha de entrega 09/Mayo/2017
Universidad Anáhuac México Norte
UNIVERSIDAD ANÁHUAC
[pic 2]
Trabajo Final Minería de datos
Profesor: Dr. Mauricio José Carrera Abarca
Materia: Minería de datos
Luis Antonio Alarcón García 00178176
Carlos de la Vega Sánchez 00195598
Julio Arístides Flores Morales 00158874
Said Abraham Pérez Jiménez 00037326
Equipo Cruz Azul
Fecha de entrega 09/Mayo/2017
Universidad Anáhuac México Norte
Presentación | Desarrollo | Conclusiones | Promedio | |
Julio Arístides Flores Morales | ||||
Carlos de la Vega | ||||
Said Abraham Pérez Jiménez | ||||
Luis Antonio Alarcón García |
Introducción
En el presente trabajo se plantea hacer uso de distintas herramientas utilizadas a lo largo del curso como son los modelos de árboles de decisión, regresión logística y red neuronal, teniendo como objetivo la capacidad de poder analizar una base datos utilizando el software SAS Miner Workstation, así como deducir y estudiar los resultados obtenidos.
Desarrollo del modelo
- Base de datos: Con 3 variables y 194 observaciones,
- Definimos variable C como binaria y su rol como variable objetivo,
- Definimos variables (x, y) como variables entrada
- Se procede a realizar el grafico de dispersión usando las variables ya mencionadas.
[pic 3]
Con base al grafico anterior se puede observar una acumulación de los datos en el centro, lo que nos indica una relación dependiente entre las 2 variables (x,y) y podemos deducir que a medida que giramos los datos se van alejando del centro y la dispersión aumentara en proporción a la distancia entre los datos de las dos variables respecto al origen, el patrón en espiral presente en la gráfica nos muestra una correlación positiva, ya que los datos aumentan de forma proporcional pero con signo inverso.
Modelos Predictivos
Se deben usar 3 modelos predictivos, usando parámetros por defecto
- Arboles de decisión
- Regresión Logística
- Red neuronal
[pic 4]
[pic 5]
[pic 6]
Tasa de mal clasificados [pic 7][pic 8]
[pic 9]
Analizando el diagrama de dispersion del arbol de decision deducimos que el punto que se encuentra en las coordenadas (0.49,0.49) concuerda con la tasa de mal clasificados (TMC) con lo que predecimos un fallo de alrededor de 51% de las predicciones totales.
Regresión Logistica
[pic 10]
Este gráfico nos muestra una correlación lineal positiva ya que a medida que x va aumentando, y tambien aumenta de forma proporcional en las dos variables.
...