Tarea árbol de decisiones

cristian Sobarzo MDocumentos de Investigación25 de Abril de 2018

1.581 Palabras (7 Páginas)425 Visitas

Página 1 de 7

Tarea Parte 1:

Calcule las medidas de Precisión y Exhaustividad (class precisión y el call recall) de acuerdo a las siguientes fórmulas (ver imagen) para los resultados entregados por los algoritmos y luego compare. ¿Qué conclusiones puede inferir a partir de ello?

En una primera medida, de forma de optimizar análisis, se realizará un ranking con los dos primeros modelos que posean mejor accuracy (medida de bondad de clasificación del modelo en general)

[pic 1]

Dado esta clasificación se analizarán los dos primeros modelos los cuales corresponden al C5.0 y al CR&T

Para realizar el cálculo del "Call Recall" y el "Class Precisión" es necesario utilizar dentro del nodo análisis la opción tablas de "matriz de coincidencias" lo cuales representan tablas de clasificación del modelo y son una medida de bondad del modelo

En primera instancia analizaremos el CR&T y C5.0 en base a las muestras de entrenamiento, estas se presentan a continuación respectivamente:

[pic 2][pic 3]

A continuación, se presentan las tablas obtenidas desde Excel, que ayudaron a clasificar de cada uno de los modelos de acuerdo a su precisión y call recall^[a]

Para realizar los análisis respectos es importante notar que

[pic 4]

Datos modelo C5.0:

[pic 5]

Datos modelo CR&T:

[pic 6]

De esta forma podemos definir el Call Recall como una medida de exhaustividad, el cual viene desde la división entre los verdaderos positivos sobre la suma tanto de los verdaderos positivos y los falsos negativos. En la situación de que el valor del Call Recall sea unitario, es decir 1, quiere decir que se encontraron todos los datos que eran necesarios.

Por otro lado, se tiene la precisión por clase, el cual representa una razón entre los verdaderos positivos sobre la suma de los verdaderos tanto positivos como falsos positivos. En la situación que el valor esté más cerca de 1, este nos dirá que los datos son muy significativos, mientras que si este se acerca al valor cero, podemos decir que los datos encontrados no poseen gran significancia, además en este caso se tiene presente un mayor margen de error, debido a la baja capacidad de poder predecir los verdaderos valores.

Finalmente al analizar los dos modelos anteriores es importante notar tanto el modelo CR&T y C5.0 dentro de la categoría 30 días tarde posee que todos los datos poseen un precisión de 100%, por lo que todos los datos han sido relevantes, por otro lado en relación a ambos en la categoría balanceado se tiende a encontrar todos los datos que son necesarios, sin embargo para el resto de las categorías se tiene un porcentaje considerablemente menor.

2. Utilizando el árbol creado ¿Cuál es el account status más probable para un cliente con un hijo? ¿Cuál es la probabilidad asociada a esta predicción? ¿Por qué?

Árbol CR&T:

[pic 7]

Árbol C5.0:

[pic 8]

Mediante el análisis de ambos modelos, podemos realizar un bechmarketing de forma comparativa que permita analizar las probabilidades establecidas en ambos árboles de decisión sobre el estado de cuenta más probable de un cliente con hijo.

Modelo CR&T:

Según el modelo CR&T, en primera instancia escoger la opción un cliente con al menos un hijo y

medio, cabe destacar que ese “medio es invalido” (dado que no se puede dar en la realidad que una persona tenga medio hijo). Bajo este análisis se tiene que un cliente con un hijo es más probable encontrarlo en la categoría “60 días tarde” con un 87,5% de probabilidad, teniendo por otro lado “30 días tarde” con un 12,5% de probabilidad.

[pic 9]

Modelo C5.0:

Según el modelo C5.0, en primera instancia escoger la opción un cliente con al menos un hijo o menos, considerando ese “menos” invalido (dado que no se puede dar en la realidad), bajo este análisis se tiene que la persona con un hijo tiene mayor probabilidad de encontrarse en “60 días tarde “ con un 47% de probabilidad, mientras que en balanceado posee un 35% .

[pic 10]

Es esperable que de alguna manera se tienda a estar más atrasado en la cuenta cuantas se tiene un hijo, debido que al ser el primer hijo posiblemente no se tiene experiencia o noción del nivel de gasto que este representa, por lo que muchas veces se pueden crear desajustes entre el nivel de ingresos y gastos que inciden que los clientes se atrasen, tal como se puede analizar con la tenencia de mayor cantidad de hijos ( Lado izquierdo) se podría pensar que las personas se endeudan más por concepto de este mayor gasto, sin embargo posiblemente internalizan este nivel de gasto a través de su experiencia logrando un estado de cuenta más balanceado.

Parte 3)

Realice otro modelo en que no se haya descartado la variable Gender y en la que sí se incluya la variable Mo_Expenses. Compare los resultados y el árbol de decisión creado con el creado anteriormente. ¿Nota alguna diferencia significativa? ¿Qué modelo es mejor?

Dado que para los análisis anteriores habíamos desactivado la variable gender dentro de nuestra muestra de entrenamiento, y en una medida de comparación con esos modelos no podemos activarla dentro del mismo nodo (con objetivo de mantener los análisis), se procede a conectar un nodo tipo donde se incluyan todas las variables utilizadas anteriormente, pero esta vez con la variable genero activada, además incluyendo la variable Mo_expenses.

...

Descargar como (para miembros actualizados) txt (10 Kb) pdf (1 Mb) docx (631 Kb)

Leer 6 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com