Undad 1 Egresion Lineal Simple
Enviado por gallgos • 31 de Diciembre de 2012 • 3.876 Palabras (16 Páginas) • 546 Visitas
1 Regresión lineal simple y correlación.
1.1 Modelo de regresión simple.
El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta y la variable regresora , a partir de una muestra i = 1n, que sigue el siguiente modelo:
(6.1)
Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial
(6.2)
donde t = , t = , t = , t = .
Se supone que se verifican las siguientes hipótesis:
La función de regresión es lineal,
o, equivalentemente, E = 0, i = 1,...,n.
La varianza es constante (homocedasticidad),
o, equivalentemente, V ar = 2, i = 1,...,n.
La distribución es normal,
o, equivalentemente, i ~ N , i = 1,...,n.
Las observaciones Y i son independientes. Bajo las hipótesis de normalidad, esto equivale a que la Cov(Y i,Y j) = 0, si i j.
Esta hipótesis en función de los errores sería “los i son independientes”, que bajo normalidad, equivale a que Cov = 0, si i j.
1.2 Supuestos.
1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificación.
En el caso de que sean varias variables independientes, la opción Analizar-RegresiónLineal-Gráficos-Generar todos los gráficos parciales nos da los diagramas de dispersión parcial para cada variable independiente. En ellos se ha eliminado el efecto proveniente de las otras variables y así la relación que muestran es la relación neta entre las variables representadas.
2. Independencia de la variable aleatoria “residuos” (especialmente importante si los datos se han obtenidos siguiendo una secuencia temporal).
Independencia entre los residuos mediante el estadístico de Durbin-Watson que toma valor 2 cuando los residuos son completamente independientes (entre 1.5 y 2.5 se considera que existe independencia), DW<2 indica autocorrelación positiva y DW>2 autocorrelación negativa
3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados mediante:
• el estadístico de Levene (ver explorar)
• un gráfico de dispersión .Que se obtiene en Analizar-Regresión-Lineal-Gráficos.
El supuesto de homocedasticidad implica que la variación de los residuos sea uniforme en
todo el rango de valores de los pronósticos (gráfico sin pautas de asociación).
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante:
• La prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q
(cuantiles) o P-P(proporciones) (ver explorar)
• gráficamente en Analizar-Regresión-Lineal-Gráficos . La opción
Histograma: añade una curva N(0,1)
Gráfico de Probabilidad Normal de tipo P-P: Representa las proporciones acumuladas de la variable esperada respecto a las proporciones acumuladas de la variable observada.
5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser: colinealidad perfecta si una de las variables independientes tiene una relación lineal con otra/as independientes, colinealidad parcial si entre las variables independientes existen altas correlaciones
1.3 Determinación de la ecuación de regresión.
El primer paso para determinar si existe o no una relación entre dos variables es observar la grafica de datos observados. Esta grafica se llama diagrama de dispersión.
Un diagrama nos puede da dos tipos de información, visualmente podemos buscar patrones que nos indiquen que las variables están relacionadas. Entonces si esto sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta relación.
Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar se construye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre estas dos variables. Como resultado, también podemos trazar, “o ajustar” una línea recta a través de nuestro diagrama de dispersión para representar la relación. Es común intentar trazar estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la línea.
Estimación mediante la línea de regresión
Hasta el momento las líneas de regresión se colocaron al ajustar las líneas visualmente entre los puntos de datos, pero para graficar estas líneas de una forma más precisa podemos utilizar una ecuación que relaciona las dos variables matemáticamente.
La ecuación para una línea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es:
Usando esta ecuación podemos tomar un valor dado en X y calcular el valor de Y la a se denomina intersección en Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la pendiente de la línea, representa que tanto cada cambio de unidad de la variable independiente X cambia la variable dependiente Y. Tanto a como b son constantes numéricas, puesto que para cada recta dada, sus valores no cambian.
Recta de regresión por el método de mínimos cuadrados.
Ahora que hemos visto como determinar la ecuación para una línea recta, pensemos como podemos calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión. Para esto debemos minimizar el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla.
Para esto debemos introducir un nuevo símbolo, para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que caen en la línea de estimación. En consecuencia escribiremos la ecuación para la línea de estimación como
Una forma en que podemos medir el error de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos observados y los puntos estimados.
La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.
El problema al añadir los errores individuales es el efecto de cancelación de los valores positivos y negativos, por eso usamos
...