Regresión Logistica
Enviado por Jose_mar • 29 de Abril de 2014 • 3.099 Palabras (13 Páginas) • 243 Visitas
Regresión Logística (1)
Al igual que la regresión lineal, esta regresión tiene el propósito de investigar la relación funcional entre una variable respuesta o dependiente y una o más variables que la afectan llamadas independientes o predictoras.
Mientras que en la regresión lineal la variable de respuesta (Y) es continua, en la regresión logística la variable de respuesta es de naturaleza categórica, asimismo, mientras la estimación en la regresión lineal se sustenta en la teoría de los mínimos cuadrados, se utiliza el método de máxima verosimilitud para la regresión logística.
La regresión logística permite estudiar, por ejemplo, la influencia de los niveles de colesterol total en el desarrollo de una enfermedad coronaria, la relación entre una o más variables cuantitativas como el peso y el nivel de colesterol de la persona y la incidencia de infarto al miocardio. Por otro lado, la regresión logística múltiple puede darse en los ejemplos anteriores en el caso de querer considerar variables independientes adicionales, de naturaleza categórica como la costumbre o hábito como el fumar, hacer o no ejercicios.
Se consideran hasta tres procedimientos de regresión logística
Variable Respuesta
N°
Categorías
Características
Ejemplos
Binaria
2
Dos niveles
Éxito – fracaso (Sí – No)
Ordinal
3 o más
Ordenamiento natural de los niveles
Ninguno - suave - severo
Extrafino - fino - mediano - grueso - muy grueso
Nominal
3 o más
Ordenamiento de niveles de naturaleza diferente
Azul - negro - rojo - verde
Soleado - lluvioso - nublado
Restricciones del modelo
La regresión logística presenta las mismas restricciones que el modelo de regresión general. La muestra debe ser lo suficientemente grande para poder estimar todos los términos del modelo y no debe faltar dato alguno. El modelo debe ser de rango completo, y debe ser jerárquico es decir si una interacción es incluida, todas las interacciones de menor orden y sus efectos principales también deben ser incluidos.
Algunas Recomendaciones sobre los Coeficientes de Regresión
Si el valor absoluto de un coeficiente de regresión es elevado su desviación estándar también suele ser elevado. Esto puede conducirnos a la conclusión que el coeficiente no es significativo. Cuando ello ocurre debemos revisar el nivel de probabilidades, y además realizar la regresión logística con y sin este factor.
1. Regresión Logística Binaria
Esta regresión es utilizada cuando la variable de respuesta sólo puede tener dos posibles valores, tales como la presencia o ausencia de una característica. El modelo puede tener una o más variables independientes.
Presentaremos en primer lugar la regresión logística binaria con solo una variable independiente y de naturaleza cualitativa, y luego con dos variables independientes una de ellas categórica y la otra cuantitativa.
1.1 Regresión Logística Binaria con sólo una variable independiente categórica
El modelo aditivo para esta regresión está dado por la siguiente ecuación:
x = 0, 1
en la que π es la probabilidad de éxito y es la probabilidad de fracaso, para un determinado valor de x. A la razón se le conoce como chance u Odds.
Si aplicamos logaritmos neperianos a la ecuación tendremos:
donde y son constante, y coeficiente de regresión respectivamente, y x es la variable categórica que puede tomar los valores 0 y 1.
Cuando x = 0 entonces la ecuación es:
, de modo que
Cuando x = 1
Si en esta última ecuación reemplazamos el valor de tendremos:
Este resultado nos indica que es el logaritmo neperiano del cociente de la razón de chances (Odds ratio, OR) para los dos valores de la variable x (0 y 1). Los valores de pueden ser iguales o mayores de cero.
a. Sí = 0, la chance u Odds cuando X = 1 es igual a la chance u Odds cuando X = 0, entonces OR = 1.
b. Sí > 0, la chance u Odds cuando X = 1 es mayor que cuando X=0, entonces OR >1.
c. Sí < 0, la chance u Odds cuando X = 1 es menor que cuando X=0, entonces OR<1.
Para ilustrar este modelo de regresión supongamos que estamos interesados en investigar si un hábito influye en la incidencia de una enfermedad. Para realizar el estudio seleccionamos, al azar, una muestra de 150 personas sin el hábito y otras 150 con el hábito. Supongamos que obtenemos los siguientes resultados:
Respuesta
Hábito o Costumbre
Fuma
No Fuma
Enfermo (caso)
Sano (control)
70
80
30
120
Total
150
150
Si aplicamos estos resultados a las ecuaciones desarrolladas podemos encontrar la regresión logística binaria.
Estimación de
Efectuando los cálculos, conforme se muestra a continuación.
Cuando X=0
y , entonces
Cuando X=1
y , entonces
El valor de se halla de la siguiente manera:
Luego, la razón de chances es:
Los cálculos realizados por MINITAB son los siguientes:
Hábito
Respuesta
No Fuma
Fuma
Sano
120
80
Enfermo
30
70
Total
150
150
Link Function: Logit
Response Information
Variable Value Count
Sanos Si 200 (Event)
No 100
Total 300
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant 0.1335 0.1637 0.82 0.415
Trat
NoFu 1.2528 0.2616 4.79 0.000 3.50 2.10 5.84
Intervalo de confianza para la razón de chances (OR)
Los límites de confianza de OR se hallan mediante la siguiente ecuación:
(2.10, 5.84)
1.2 Regresión Logística Binaria con una variable independiente cuantitativa
Considérese la muestra de 64 pacientes que llegaron a emergencia de un hospital para atención debido a un infarto, ellos fueron confinados a la unidad
...