Regresión Logistica

Jose_mar29 de Abril de 2014

3.099 Palabras (13 Páginas)306 Visitas

Página 1 de 13

Regresión Logística (1)

Al igual que la regresión lineal, esta regresión tiene el propósito de investigar la relación funcional entre una variable respuesta o dependiente y una o más variables que la afectan llamadas independientes o predictoras.

Mientras que en la regresión lineal la variable de respuesta (Y) es continua, en la regresión logística la variable de respuesta es de naturaleza categórica, asimismo, mientras la estimación en la regresión lineal se sustenta en la teoría de los mínimos cuadrados, se utiliza el método de máxima verosimilitud para la regresión logística.

La regresión logística permite estudiar, por ejemplo, la influencia de los niveles de colesterol total en el desarrollo de una enfermedad coronaria, la relación entre una o más variables cuantitativas como el peso y el nivel de colesterol de la persona y la incidencia de infarto al miocardio. Por otro lado, la regresión logística múltiple puede darse en los ejemplos anteriores en el caso de querer considerar variables independientes adicionales, de naturaleza categórica como la costumbre o hábito como el fumar, hacer o no ejercicios.

Se consideran hasta tres procedimientos de regresión logística

Variable Respuesta

N°

Categorías

Características

Ejemplos

Binaria

Dos niveles

Éxito – fracaso (Sí – No)

Ordinal

3 o más

Ordenamiento natural de los niveles

Ninguno - suave - severo

Extrafino - fino - mediano - grueso - muy grueso

Nominal

3 o más

Ordenamiento de niveles de naturaleza diferente

Azul - negro - rojo - verde

Soleado - lluvioso - nublado

Restricciones del modelo

La regresión logística presenta las mismas restricciones que el modelo de regresión general. La muestra debe ser lo suficientemente grande para poder estimar todos los términos del modelo y no debe faltar dato alguno. El modelo debe ser de rango completo, y debe ser jerárquico es decir si una interacción es incluida, todas las interacciones de menor orden y sus efectos principales también deben ser incluidos.

Algunas Recomendaciones sobre los Coeficientes de Regresión

Si el valor absoluto de un coeficiente de regresión es elevado su desviación estándar también suele ser elevado. Esto puede conducirnos a la conclusión que el coeficiente no es significativo. Cuando ello ocurre debemos revisar el nivel de probabilidades, y además realizar la regresión logística con y sin este factor.

1. Regresión Logística Binaria

Esta regresión es utilizada cuando la variable de respuesta sólo puede tener dos posibles valores, tales como la presencia o ausencia de una característica. El modelo puede tener una o más variables independientes.

Presentaremos en primer lugar la regresión logística binaria con solo una variable independiente y de naturaleza cualitativa, y luego con dos variables independientes una de ellas categórica y la otra cuantitativa.

1.1 Regresión Logística Binaria con sólo una variable independiente categórica

El modelo aditivo para esta regresión está dado por la siguiente ecuación:

x = 0, 1

en la que π es la probabilidad de éxito y es la probabilidad de fracaso, para un determinado valor de x. A la razón se le conoce como chance u Odds.

Si aplicamos logaritmos neperianos a la ecuación tendremos:

donde  y son constante, y coeficiente de regresión respectivamente, y x es la variable categórica que puede tomar los valores 0 y 1.

Cuando x = 0 entonces la ecuación es:

, de modo que

Cuando x = 1

Si en esta última ecuación reemplazamos el valor de  tendremos:

Este resultado nos indica que es el logaritmo neperiano del cociente de la razón de chances (Odds ratio, OR) para los dos valores de la variable x (0 y 1). Los valores de pueden ser iguales o mayores de cero.

a. Sí = 0, la chance u Odds cuando X = 1 es igual a la chance u Odds cuando X = 0, entonces OR = 1.

b. Sí > 0, la chance u Odds cuando X = 1 es mayor que cuando X=0, entonces OR >1.

c. Sí < 0, la chance u Odds cuando X = 1 es menor que cuando X=0, entonces OR<1.

Para ilustrar este modelo de regresión supongamos que estamos interesados en investigar si un hábito influye en la incidencia de una enfermedad. Para realizar el estudio seleccionamos, al azar, una muestra de 150 personas sin el hábito y otras 150 con el hábito. Supongamos que obtenemos los siguientes resultados:

Respuesta

Hábito o Costumbre

Fuma

No Fuma

Enfermo (caso)

Sano (control)

120

Total

150

Si aplicamos estos resultados a las ecuaciones desarrolladas podemos encontrar la regresión logística binaria.

Estimación de

Efectuando los cálculos, conforme se muestra a continuación.

Cuando X=0

y , entonces

Cuando X=1

y , entonces

El valor de se halla de la siguiente manera:

Luego, la razón de chances es:

Los cálculos realizados por MINITAB son los siguientes:

Hábito

Respuesta

No Fuma

Fuma

Sano

120

Enfermo

Total

150

Link Function: Logit

Response Information

Variable Value Count

Sanos Si 200 (Event)

No 100

Total 300

Logistic Regression Table

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Constant 0.1335 0.1637 0.82 0.415

Trat

NoFu 1.2528 0.2616 4.79 0.000 3.50 2.10 5.84

Intervalo de confianza para la razón de chances (OR)

Los límites de confianza de OR se hallan mediante la siguiente ecuación:

(2.10, 5.84)

1.2 Regresión Logística Binaria con una variable independiente cuantitativa

Considérese la muestra de 64 pacientes que llegaron a emergencia de un hospital para atención debido a un infarto, ellos fueron confinados a la unidad de cuidados intensivos y quienes sobrevivieron, fueron analizados en las características tales como edad, sexo, hipertensión arterial, además del análisis del perfil lipídico. Se buscaron controles de estos pacientes, pareados en todas las características, excepto en los niveles de colesterol.

Los datos se presentan a continuación con los códigos

IM = 1 casos, pacientes sobrevivientes al infarto

= 0 controles

SEXO = 1 masculino

= 0 femenino

HTA = 1 condición de hipertensión arterial

= 0 sin hipertensión

CT, HDL, CT/HDL Mediciones del perfil lipídico:

IM SEXO EDAD HTA CT HDL CT/HDL

1 1 68 0 148 30 4.9333

0 1 69 0 269 34 7.9118

1 0 64 1 245 20 12.2500

0 0 64 1 236 46 5.1304

1 1 71 1 207 40 5.1750

0 1 72 0 155 30 5.1667

Sea Y la variable dicotómica tal que el valor resultante 1 representa la presencia de IM (los casos) y 0 indica su ausencia (los controles). Basado en la muestra, se podría estimar la probabilidad de que un paciente de la población desarrolle IM mediante

= P (Y = 1)

Es correcto sospechar que existen ciertos factores, que afectan la probabilidad de que un individuo particular desarrolle IM. Si los individuos pueden ser clasificados de acuerdo a estas características, entonces es posible estimar la probabilidad de desarrollar IM con mayor precisión que la alcanzada por y en consecuencia tomar medidas para disminuir este valor.

Un factor de interés es la medición del colesterol total. Si la respuesta

...

Descargar como (para miembros actualizados) txt (14 Kb)

Leer 12 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com