Licenciatura en Administración de Tecnología de Información
Enviado por 30sebas30 • 9 de Mayo de 2017 • Resumen • 1.447 Palabras (6 Páginas) • 179 Visitas
Instituto Tecnológico de Costa Rica
Licenciatura en Administración de Tecnología de Información
[pic 1]
Curso:
Inteligencia de Negocios (TI-6900)
Laboratorio#4:
Profesor:
Lorena Segura Zuñiga[pic 2]
Integrantes del grupo:
Ramírez Ramírez Sebastián 2014057096
Solórzano Corella Lizeth 2014014567
Ureña Cordero Mónica 2014160636
2 de Mayo 2016
I semestre 2017
Ejercicio #1
Se tienen los datos de una serie de pasajeros del Titanic (archivo Titanic-data.csv), debe generar un modelo que permita predecir si la persona sobrevive o no. Recuerde que usted puede no utilizar atributos que considere no tendrían influencia en el resultado que se desea predecir. Si excluye algún atributo debe indicarlo. Utilice la técnica de árboles de decisión.
Primera mente se mostrará un screenshot de la ejecución correcta del proceso:
[pic 3]
[pic 4]
- Indique el tipo de problema de minería de datos
-El tipo de problema de minería de datos es: predictivo
- Indique la tarea de minería de datos.
-La tarea de minería de datos es: Clasificación
- Debe dividir los datos en dos conjuntos, uno de training y otro de testing. Para training use el 80% de los datos y el resto para testing. (Debe adjuntar screenshot donde se observe este paso claramente).
Se puede observar en la siguiente imagen que se predetermina un training de 80% y un testing del 20%, esto se puede comprobar observando el recuadro gris a la derecha (remarcado con el cuadro rojo)
[pic 5][pic 6]
- ¿Según el modelo generado, bajo cuáles condiciones una persona sobrevive? ¿Bajo cuáles no sobrevive? Debe incluir un screenshot donde se observe claramente el modelo, en este caso, el árbol de
decisión.
La primera condición que dispone el árbol, es dividirlo por sexo de los sobrevivientes en el cuál la división que corresponde al sexo masculino es dividida por la tarifa del pasaje en el cual los que pagaron un boleto mayor que $387 hubieron 2 supervivientes y 0 decesos; mientras que si la tarifa del boleto era menor o igual a $387 predice que hubo más muertes que sobrevivientes, por lo que se comprueba que los sobrevivientes masculinos sobrevivían bajo la condición de que el tiquete de viaje tenía que ser mayor a los $387
En la rama de sexo femenino, podemos observar que se realizan más separaciones para realizar las predicciones la primera lo divide por SibSp lo cual significa que se separa por número de hermanos o conyugues a bordo, lo cual entre más tuviera más sobrevivían, mientras que los que no tuvieran tenían menos posibilidades de no sobrevivir. Luego por pasajeros de primera clase y por la tarifa del boleto, entre los que tuviera una mejor clase y tuvieran boleto más caro sobrevivirían, mientras los que tuvieran menor murieron, se realiza otra operación tomando en cuenta la identificación de los pasajeros, y deduce que cantidad sobrevivieron y cuáles no. A continuación, podremos observar más detalladamente estos números, con la siguiente imagen.
[pic 7]
-Se adjunta descripción del árbol para entenderlo de una forma más amplia:
Tree
Sex = female
| SibSp > 4.500: N {N=4, S=0}
| SibSp ≤ 4.500
| | Pclass > 2.500
| | | Fare > 32.881: N {N=5, S=0}
| | | Fare ≤ 32.881
| | | | PassengerId > 879.500: N {N=3, S=0}
| | | | PassengerId ≤ 879.500
| | | | | PassengerId > 13
| | | | | | PassengerId > 19.500: S {N=58, S=69}
| | | | | | PassengerId ≤ 19.500: N {N=2, S=0}
| | | | | PassengerId ≤ 13: S {N=0, S=3}
| | Pclass ≤ 2.500: S {N=9, S=161}
Sex = male
| Fare > 387.665: S {N=0, S=2}
| Fare ≤ 387.665: N {N=468, S=107}
- Explique los resultados de la matriz de confusión. Además, incluya un screenshot donde se observe claramente la matriz de confusión.
Como podemos observar, el análisis de los datos obtuvo un 55% de exactitud.
Nos muestra que predijo N (No sobreviviente), 9 individuos que realmente eran N, sin embargo, predijo 6 individuos N que verdaderamente eran S, es por esto que la precisión fue de un 60%.
Cuando la predicción fue de S (Si sobrevivió) predijo 3 individuos S que verdaderamente eran N y predijo 2 individuos S que verdaderamente si eran S, por lo tanto, obtiene un 40% de precisión.
...