Regresion logistica.
Enviado por clamunozg • 22 de Noviembre de 2016 • Apuntes • 1.877 Palabras (8 Páginas) • 216 Visitas
Regresión Logística.
Regresión logística
Permite modelar la relación entre una variable respuesta de naturaleza dicotómica (binaria) en relación a una o más variables independientes o regresoras.
Consideremos el siguiente modelo simple:
Yi β0 β1Xi εi
Donde Y = 1 (Si tiene la característica ) ,Y= 0 (Si no)
Suponiendo que E(εi) = 0, como es lo usual, se obtiene que
E(Yi / Xi) = β0 + β1Xi
Regresión logística ,
Ahora suponiendo que pi = P(Yi = 1), es decir, la probabilidad que el evento ocurra, y 1 - pi = P(Yi = 0), es decir la probabilidad que el evento no ocurra, la variable Y tiene una distribución Bernoulli.
Donde:
E(Yi) = 0* (1 - pi) + 1*pi = pi
Comparando las ecuaciones (1) y (2), se puede igualar
E(Yi / Xi) = β0 + β1Xi = pi
Pero, como pi es una probabilidad, 0 ≤ E(Yi / Xi) ≤ 1.
El modelo de regresión convencional no puede asegurar
que los valores predichos estén entre 0 y 1.
Modelo logit o modelo logistico
El modelo de regresión logística puede ser usado para predecir la probabilidad (pi) de que la variable respuesta asuma un valor determinado, por ejemplo, probabilidad de éxito (y=1) en una variable dicotómica que asume los valores 0 y 1.
De lo anterior se obtiene la siguiente relación, que sí satisface la condición de asegurar predicciones en el intervalo (0,1):
pi E(Y
1 | Xi )
1 _
1 e(β1 β2 Xi )
La ecuación representa lo que se conoce como función de
distribución logística (acumulada).
Modelo logit o modelo logistico
Para simplificar la exposición, asumiremos Zi=1+2Xi ,
de donde:
pi
1 _
1 eZi
ez _
1 ez
Si pi es la probabilidad éxito (tiene la característica), entonces (1 – pi) es la probabilidad de no poseer dicha
característica:
1 p
1 _
i 1
e Zi
Por consiguiente, se puede escribir el cuociente de
probabilidades a favor y en contra del éxito:
pi _
1 pi
1 eZi
1 e _ Zi
eZi
[pic 1]
Esta expresión se conoce como la razón de probabilidad
a favor del éxito.
Modelo logit o modelo logistico
Si se toma el logaritmo natural a dicho cuociente, se obtiene un resultado muy interesante, a saber:
pi
Li ln
Zi
β1 β2 Xi
1 pi
Note que L, el logaritmo de la razón de probabilidades a
favor y en contra del éxito, no es solamente lineal en X, sino también (desde el punto de vista de estimación) lineal en los parámetros. L es llamado logit y de ahí surge el nombre modelo logit o modelo logistico.
Para fines de estimación, se escribe de la siguiente manera:
pi
Li ln
1 pi
β1 β2 Xi
εi
Modelo logit o modelo logistico
Cuando se analiza un modelo de regresión logística, se
opera en forma muy similar al modelo de regresión convencional, pero hay algunos aspectos importantes a tener en cuenta:
No se calcula R2. Una forma de saber si un modelo es mejor que otro es a través de la DEVIANZA, pero en este caso, los valores pequeños (incluso negativos) son los que indican un mejor ajuste.
...