Regresión Con Variables Independientes Cualitativas
Enviado por 5cgun2 • 2 de Febrero de 2013 • 1.592 Palabras (7 Páginas) • 955 Visitas
Regresión con variables independientes cualitativas
1.- Introducción ........................................................................................................................2
2.- Regresión con variable cualitativa dicotómica ...................................................................2
3.- Regresión con variable cualitativa de varias categorías ......................................................6
1.- Introducción.
Aunque el modelo de regresión lineal parece indicado cuando la naturaleza de ambas variables X e Y sean cuantitativas, no obstante es fácilmente demostrable que no es problema alguno operar con variables independientes cualitativas. En el caso de una variable X dicotómica, la regresión simple equivale a un contraste de medias. El supuesto de normalidad en las distribuciones ligadas (para los diferentes valores de X) es equivalente al supuesto de normalidad en las poblaciones orígenes de las dos muestras en el contraste de medias. El supuesto de homocedasticidad es el equivalente al de igualdad de varianza en las poblaciones orígenes. Y por último, el de linealidad (entre los puntos medio de las distribuciones ligadas), se cumple por cuanto entre dos puntos (las medias de ambas muestras) siempre se puede definir una recta.
Comenzaremos por desarrollar el caso en que la variable independiente presenta dos categorías, lo que permitirá asimilarlo al contraste de medias. Posteriormente trataremos el caso en el la variable independiente presenta mas categorías, lo que será asimilado al análisis de la varianza. Se observará una total equivalencia de la regresión con ambas pruebas, con la ventaja de que la regresión ofrece un enfoque más parsimonioso y permite además conocer la proporción de variabilidad explicada por la variable independiente ( R 2 ).
2.- Regresión con variable cualitativa dicotómica.
Supongamos que tenemos las siguientes puntuaciones obtenidas en una determinada prueba de habilidad verbal por un grupo de varones y otro de mujeres:
Varones: 10, 12, 15, 8, 11
Mujeres: 12, 13, 9, 18, 16
Pretendemos estudiar si la variable sexo afecta al rendimiento. Como se sabe, habitualmente este tipo de contraste se resuelve mediante el contraste de medias: comparamos las media de los varones con la de las mujeres y estudiamos la significación de la diferencia de medias obtenida. Tales pruebas pueden ser abordadas igualmente desde la regresión. Comenzaremos con el contraste de medias y mostraremos su equivalencia.
Si hacemos los análisis mediante un contraste de medias, los datos quedarían dispuestos de la siguiente manera:
Los varones se han agrupado con el valor de 1 y las mujeres, con el valor de 2. Los resultados son:
Estadísticos de grupo
Sexo
N
Media Desviación típ. Error típ. de la media
Habilidad verbal 1
2 5
5 11,20000
13,60000 2,58844
3,50714 1,15758
1,56844
Prueba de muestras independientes
Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
Sig.
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia 95% Intervalo de confianza para la diferencia
Inferior Superior
Habilidad verba Se han asumido
varianzas iguales
No se han asumid varianzas iguales ,701 ,427 -1,231
-1,231 8
7,361 ,253
,256 -2,40000
-2,40000 1,94936
1,94936 -6,89523
-6,96412 2,09523
2,16412
Se observa, como dato más relevante, que las medias de varones y mujeres son 11.2 y 13.6 respectivamente, junto que el valor de t es -1.231, con una significación de 0.253, que indica que no hay diferencias entre ambos sexos.
Si estos cálculos los realizamos mediante la regresión simple, habremos primeramente de efectuar una cierta modificación sobre la variable X en el sentido de someterla a una cierta codificación, la codificación dummy, o en español, ficticia, de forma tal que sea susceptible de ser tratada con la regresión lineal. Se trata de codificar una categoría como 0 -ausencia de un determinado rasgo- y 1 la otra categoría -presencia de ese rasgo-. En el caso que nos concierne si codificamos varones como 0 y mujeres como 1, estaremos queriendo decir, que en primer caso hay ausencia del "sexo mujer" y en otro presencia. Así, el fichero de datos será:
Y el resultado del análisis de regresión:
Resumen del modelo
Modelo
R
R cuadrado R cuadrado corregida Error típ. de la estimación
1 ,399a ,159 ,054 3,08221
a. Variables predictoras: (Constante), Sexo
ANOVAb
Modelo Suma de cuadrados
gl Media cuadrática
F
Sig.
1 Regresión
Residual
Total 14,400
76,000
90,400 1
8
9 14,400
9,500 1,516 ,253a
a. Variables predictoras: (Constante), Sexo
b. Variable dependiente: Habilidad verbal
Coeficientesa
Modelo
Coeficientes no estandarizados Coeficient es estandari zados
t
Sig.
B Error típ. Beta
1 (Constante)
Sexo 11,200
2,400 1,378
1,949
,399 8,125
1,231 ,000
,253
a. Variable dependiente: Habilidad verbal
Se observa una total equivalencia. El contraste se realiza mediante el análisis de la varianza que da un valor de 1.515 (el valor de t al cuadrado 1.2312=1.516) y También el valor de t para la pendiente
...