Regresión Lineal Simple
Enviado por FIANCE • 5 de Noviembre de 2012 • 4.205 Palabras (17 Páginas) • 2.604 Visitas
REGRESIÓN LINEAL SIMPLE.
En muchos problemas hay dos o más variables inherentes relacionados, y es necesario explorar la naturaleza de esta relación. El análisis de regresión es una técnica estadística para modelar e investigar la relación entre dos o más variables.
Deseamos determinar la relación entre una sola variable regresiva X y una variable de repuesto Y. La variable regresiva X se supone como una variable matemática continua, controlable por el experimentador. Supóngase que la verdadera relación entre Y y X es una línea recta, y que la observación Y en cada nivel de X es una variable aleatoria. Luego, el valor esperado de Y para cada valor de X es:
EC.1
Donde:
La ordenada de origen 0 y la pendiente 1 son constantes desconocidas.
Suponemos que cada observación Y, puede describirse mediante el modelo siguiente:
EC.2
Donde:
E = error aleatorio con media cero y varianza 2 .
Por medio del método de mínimos cuadrados estimaremos 0 y 1 de manera que la suma de los cuadrados de las desviaciones entre las observaciones y la línea de regresión sean mínimas.
Empleando la EC. 2, podemos escribir:
i = 1 , 2 , 3 , … , n EC.3
Y la suma de los cuadrados de las desviaciones de las observaciones respecto a la línea de regresión verdadera es:
EC.4
Los estimadores de mínimos cuadrados de 0 y 1, digamos deben satisfacer:
EC.5
La simplificación de estas dos ecuaciones produce:
EC.6
Las ecuaciones 6 se denominan ecuaciones normales de mínimos cuadrados.
La solución para la ecuación normal es:
EC.7
EC.8
Donde:
Por lo tanto, las ecuaciones 7 y 8 son los estimadores por mínimos cuadrados, de la ordenada al origen y la pendiente, respectivamente. El modelo de regresión lineal simple ajustado es:
EC.9
Respecto a la notación, es conveniente dar símbolos especiales al numerador y al denominador de la ecuación 8, esto es:
EC.10
EC.11
Llamaremos a Sxx la suma corregidora de cuadrados de “x” y a Sxy la suma corregida de productos cruzados de “x” y “y”. Los datos del extremo derecho de las ecuaciones 10 y 11 son las fórmulas de cómputo usuales.
Al emplear esta nueva notación, el estimador de mínimos cuadrados de la pendiente es:
EC.12
Ejemplo 1:
Un ingeniero químico está investigando el efecto de la temperatura de operación de proceso en el rendimiento del producto. El estudio da como resultado los siguientes datos:
Temperatura Rendimiento
°C “X” % “Y” XjYj Xj2 Yj2
100 45 4500 10000 2025
110 51 5610 12100 2601
120 54 6480 14400 2916
130 61 7930 16900 3721
140 66 9240 19600 4356
150 70 10500 22500 4900
160 74 11840 25600 5476
170 78 13260 28900 6084
180 85 15300 32400 7225
190 89 16910 36100 7921
∑ 1450 673 101570 218500 47225
El examen de este diagrama de dispersión indica que hay una fuerte relación entre el rendimiento y la temperatura, y la suposición tentativa del modelo de línea recta parece razonable.
n = 10
Sustituyendo en EC.10 y EC.11
Los estimadores de mínimos cuadrados de la pendiente y la ordenada al origen son:
El modelo de regresión lineal simple ajustado es:
Suele ser necesario obtener una estimación de . La diferencia entre la observación Yj y el correspondiente valor predicho , la diferencia digamos ej = Yj - , se denomina un residuo. La suma de los cuadrados de los residuos, o la suma de cuadrados del error, sería:
SSE = ej2 SSE = (Yj – )2 EC. 14
Una fórmula de cálculo más conveniente para SSE puede encontrarse sustituyendo el modelo ajustado en la EC. 14 y simplificando considerando que (Yj – )2 entonces podemos escribir SSE como:
SSE = Syy - Sxy EC. 15
El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo tanto:
el cual es un estimador de .
PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE.
Una parte importante de la evaluación de la suficiencia del modelo de regresión lineal simple es la prueba de hipótesis estadística en torno a los parámetros del modelo y la construcción de ciertos intervalos de confianza. Para probar la hipótesis con respecto a la pendiente y la ordenada al origen del modelo de regresión, debemos de hacer la suposición adicional de que la componente del error “ej” se distribuye normalmente. Por consiguiente, las suposiciones completas son que los errores son NIP (0, 2). Después analizaremos como pueden verificarse estas suposiciones mediante el ANÁLISIS RESIDUAL.
Supóngase que deseamos probar la hipótesis de que la pendiente es igual a una constante, digamos , las hipótesis apropiadas son:
EC. 16
Donde hemos supuesto una alternativa de dos lados (bilateral). Como resultado de la suposición de normalidad, el estadístico es:
EC. 17
Sigue la distribución t con n-2 grados de libertad bajo
Rechazaríamos H0 sí: EC. 18
Donde se calcula a partir de la EC. 17 puede emplearse un procedimiento similar para probar la hipótesis respecto a la ordenada al origen. Para probar
...