Análisis De Regresión Lineal
Enviado por nicolasito • 5 de Diciembre de 2013 • 2.543 Palabras (11 Páginas) • 466 Visitas
Tema 2 Análisis de regresión lineal
2.1. Los problemas de la causalidad en Ciencias sociales
2.2. El modelo de la regresión lineal múltiple
2.3 Supuestos del modelo de regresión
2.4 SPSS (regresión múltiple)
Análisis de regresión lineal
2.1. Los problemas de la causalidad en Ciencias sociales
Por el momento no existe técnica que sea capaz de probar los enunciados causales empíricamente. Lo que se puede hacer es comprobar si las inferencias causales que formula un investigador son consistentes con los datos disponibles.
Definiremos modelo como conjunto de relaciones que se usan para representar de forma sencilla una porción de la realidad empírica.
Cuando un investigador elabora un modelo y posteriormente se comprueba que el modelo no se ajusta a los datos, se pueden tomar dos decisiones: modificar el modelo o abandonarlo. Pero si el modelo es consistente con los datos, esto nunca prueba los efectos causales. La consistencia entre los datos y el modelo no implica la consistencia entre el modelo y la realidad. Lo único que se puede afirmar es que los supuestos del investigador no son contradictorios y por lo tanto pueden ser válidos. Pero el "ser válidos", no quiere decir que sean la única explicación del fenómeno objeto de estudio, ya que es posible que otros modelos también se adapten a los mismos datos.
Asociación no implica causalidad: Que exista una fuerte asociación entre dos variables no es suficiente para sacar conclusiones sobre las relaciones causa - efecto.
Ejemplo: existe fuerte correlación entre el número de bomberos que actúan en un incendio y la importancia del daño ocasionado por el mismo.
2.2. El modelo de la regresión lineal múltiple
El objetivo del análisis de la regresión lineal es analizar un modelo que pretende explicar el comportamiento de una variable (Variable endógena, explicada o dependiente), que denotaremos por Y, utilizando la información proporcionada por los valores tomados por un conjunto de variables (explicativas, exógenas o independientes), que denotaremos por X1 , X2 , ....., X n
Las variables del modelo de regresión deben ser cuantitativas. Pero dada la robustez de la regresión es frecuente encontrar incluidas en el modelo como variables independientes a variables ordinales e incluso nominales transformadas en variables ficticias. Pero la variable dependiente debe ser cuantitativa. Para una variable dependiente binaria de emplea la regresión logística.
El modelo lineal viene dado por la ecuación lineal:
Y = b0 + b1 X1 + b2 X2 + ... b k X k + u
Los coeficientes (parámetros) b1 , b2 , ... , b k denotan la magnitud del efecto de las variables explicativas (exógenas o independientes), esto es, representan los pesos de la regresión o de la combinación lineal de las predictoras X1 , X2 , ... X k sobre la variable explicada (endógena o dependiente) Y. El coeficiente b0 se denomina término constante (o independiente) del modelo. Y al término u se le llama término de error del modelo o componente de Y no explicada por las variables predictoras.
Si disponemos de T observaciones para cada variable, el modelo de expresa así:
Y t = b0 + b1 X1 t + b2 X2 t + ... b k X k t + u t t = 1, 2 , 3 ,.... T
El problema fundamental que se aborda es el siguiente: suponiendo que la relación entre la variable Y y el conjunto de variables X1 , X2 , ... X k es como se ha descrito en el modelo, y que se dispone de un conjunto de T observaciones para cada una de las variables ¿cómo pueden asignarse valores numéricos a los parámetros b0 , b1 , b2 , ... b k basándonos en la información muestral?.
Estos valores son la estimación de los parámetros llamados coeficientes de regresión. Representan las unidades de cambio en la variable dependiente por unidad de cambio en la variable independiente correspondiente. En el caso de que sólo haya una variable dependiente se llega a la ecuación de una recta donde b0 es la ordenada en el origen y b1 la pendiente de la recta. Una vez encontradas las estimaciones de los parámetros del modelo, podremos hacer predicciones sobre el comportamiento de la variable Y en la población.
El análisis de regresión sirve tanto para EXPLORAR datos como para CONFIRMAR teorías.
Si el análisis de regresión se realiza con variables tipificadas los coeficientes b, pasan a denominarse β (coeficientes de regresión estandarizados) β i = b i ( Desv. Típica Xi /Desv. Típica Y )
Al coeficiente de correlación R elevado al cuadrado se le llama coeficiente de determinación y es una medida de la bondad del ajuste del modelo ya que da la proporción de variación de Y explicada por el modelo.
Se suele emplear R2 ajustado, que es una corrección de R2 para ajustar mejor el modelo a la población objeto de estudio.
2.3 Supuestos del modelo de regresión
El modelo lineal se formula bajo los siguientes supuestos:
• Tamaño adecuado de la muestra: se recomienda n= 20 x nº de variables predictoras.
• Las variables X1 , X2 , ... X k son deterministas (no son variables aleatorias) ya que sus valores vienen de la muestra tomada.
• Se supone que todas las variables X relevantes para la explicación de Y están incluidas en la definición del modelo lineal.
• Las variables X1 , X2 , ... X k son linealmente independientes (no se puede poner a una de ellas como combinación lineal de las otras). Esta es la hipótesis de independencia y cuando no se cumple se dice que el modelo presenta multicolinealidad. O sea: Ninguna v. Independiente da un R2 = 1 con las otras v.i.
• Linealidad de las relaciones: la v. Independiente presenta relación lineal con cada una de las dependientes. Se comprueba con los gráficos de regresión parcial. Su incumplimiento se arregla mediante transformaciones de los datos
• Los residuos siguen una distribución Normal N(0, σ 2) , no están correlacionados con ninguna de la variables independientes, ni están autocorrelacionados. Hay homocedasticidad : la varianza del error es constante para los distintos valores de las variables independientes.
El primer objetivo es el de obtener estimaciones, es decir, valores numéricos de los coeficientes b0 , b1 , b2 , ... b k (coeficientes de regresión parcial) en función de la información muestral. Las estimaciones de los parámetros se suelen hacer por el método de los mínimos cuadrados que consiste en minimizar la suma de los cuadrados de los residuos, también llamada suma residual
...