Regresión logística binaria
Enviado por Juanpi Avilés • 9 de Febrero de 2022 • Síntesis • 1.094 Palabras (5 Páginas) • 91 Visitas
[pic 1]
UNIVERSIDAD DE CUENCA
FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS
ESCUELA DE MARKETING
INVESTIGACIÓN DE MERCADOS II/II
“REGRESIÓN LOGÍSTICA BINARIA”
JUAN PABLO AVILÉS MONTENEGRO
IM 05-01
ING. PABLO GONZÁLEZ LOYOLA
SEPTIEMBRE 2021 – FEBRERO 2022
De acuerdo con (Núm & Canela, 2012) al tener una variable dependiente dicotómica como: 0/1; SI/NO; o la variable a utilizar para predecir o evaluar la asociación o relación con otras variables independientes y de control, el procedimiento a realizar es una REGRESIÓN LOGÍSTICA (RL) BINARIA MULTIVARIANTE.
La Regresión Logística permite:
- Introducir como variables predictoras de la respuesta (efecto o v. dependiente) una mezcla de variables categóricas y cuantitativas.
- Mediante los coeficientes de regresión (β) de las variables independientes introducidas en el modelo puede obtenerse de forma directa la OR (base del logaritmo neperiano) de cada una correspondiente al riesgo de tener el resultado o efecto evaluado para un determinado valor (x) respecto al valor disminuido en una unidad (x-1). La variable independiente es una variable cuantitativa, la OR (base del logaritmo neperiano) obtenida representa la probabilidad del evento predicho que tiene un individuo con un valor x frente a la probabilidad que tiene un individuo con valor (x-1). Si la variable independiente es cualitativa, la RL sólo admite categóricas dicotómicas, de manera que la OR (base del logaritmo neperiano) es el riesgo de los sujetos con un valor frente al riesgo de los sujetos con el otro valor para esa variable.
- En la RL la variable dependiente (la que se desea modelizar, Y) es categórica, habitualmente dicotómica (RL binaria).
- Lo que se pretende expresar la probabilidad de que ocurra el evento en cuestión como función de ciertas variables, que se presumen relevantes o influyentes. Si ese hecho que queremos modelizar o predecir lo representamos por Y (la variable dependiente), y las k variables explicativas (independientes y de control) se designan por X1, X2, X3,…,Xk, la ecuación general (o función logística) es:
[pic 2]
donde α β1, β 2, β 3…, β k son los parámetros del modelo, y exp denota la función exponencial. Esta función exponencial es una expresión simplificada que corresponde a elevar el número e a la potencia contenida dentro del paréntesis, siendo e el número o constante de Euler, o base de los logaritmos neperianos (cuyo valor aproximado a la milésima es 2,718).
Se debe tener en cuenta:
- Cuáles podrían ser variables realmente predictoras (independientes)
- Cuáles podrían ser variables confundentes.
- Cuáles podrían ser variables modificadoras de efecto o de interacción.
- Qué sentido tiene nuestro análisis.
De acuerdo con (Berlanga-silvente, 2014) existen tres opciones para seleccionar las variables en el modelo, permite especificar cómo se introducen las variables independientes en el análisis. Utilizando diferentes métodos se pueden armar varios modelos de regresión partiendo del mismo conjunto de variables:
1. El método “Introducir”: permite al investigador decidir qué variables se introducen o extraen del modelo.
2. El método “Adelante”: deja que el programa vaya introduciendo variables en el modelo, empezando por aquellas que tienen coeficientes de regresión más grandes, estadísticamente significativos. En cada paso se reevalúan los coeficientes y su significación, se pueden eliminar del modelo aquellos que no son estadísticamente significativos.
3. El método “Atrás”: parte de un modelo con todas las covariables que se hayan seleccionado en el cuadro de diálogo, y se van eliminando del modelo aquellas sin significación estadística.
el programa SPSS permite las opciones de elegir entre criterios o estadísticos, con el objetivo de comprobar la significación estadística de cada uno de los coeficientes de regresión en el modelo:
Selección hacia adelante (Condicional). contrasta la entrada según la significación del estadístico de puntuación y contrasta la eliminación basándose en la probabilidad de un estadístico de la razón de verosimilitud que se fundamenta en estimaciones condicionales de los parámetros.
Selección hacia adelante (Razón de verosimilitud). contrasta la entrada basándose en la significación del estadístico de puntuación y contrasta la eliminación según la probabilidad del estadístico de la razón de verosimilitud, que se sustenta en estimaciones de la máxima verosimilitud parcial.
Selección hacia adelante (Wald). contrasta la entrada basándose en la significación del estadístico de puntuación y contrasta la eliminación según la probabilidad del estadístico de Wald.
Eliminación hacia atrás (Condicional). Selección hacia atrás por pasos. El contraste para la eliminación se basa en la probabilidad del estadístico de la razón de verosimilitud, el cual se fundamenta en las estimaciones condicionales de los parámetros.
Según el ejemplo del libro de (Sánchez Castañeda & Barrero Ramírez, 2021)
Ejemplo:
[pic 3]
Resumen de procesamiento de casos | |||
Casos sin ponderara | N | Porcentaje | |
Casos seleccionados | Incluido en el análisis | 30 | 100,0 |
Casos perdidos | 0 | ,0 | |
Total | 30 | 100,0 | |
Casos no seleccionados | 0 | ,0 | |
Total | 30 | 100,0 | |
a. Si la ponderación está en vigor, consulte la tabla de clasificación para el número total de casos. |
Codificación de variable dependiente | |
Valor original | Valor interno |
no leales | 0 |
leales | 1 |
0: no son clientes leales
1: son clientes leales
Bloque 0: bloque de inicio
Tabla de clasificacióna,b | |||||
Observado | Pronosticado | ||||
lealtad | Porcentaje correcto | ||||
no leales | leales | ||||
Paso 0 | lealtad | no leales | 0 | 15 | ,0 |
leales | 0 | 15 | 100,0 | ||
Porcentaje global | 50,0 | ||||
a. La constante se incluye en el modelo. | |||||
b. El valor de corte es ,500 |
El 50% de los casos fueron ajustados correctamente
...