Regresión Lineal Simple
Enviado por cordovafrias • 23 de Abril de 2013 • 1.761 Palabras (8 Páginas) • 292 Visitas
Regresión Lineal Simple
Nos centraremos en primer lugar, en el caso de que la función que relaciona las dos variables X e Y sea la más simple posible, es decir, una línea recta.
Por ello pasaremos a interpretar los coeficientes que determinan una línea recta.
Toda función de la forma Y=a+bX determina, al representarla en el plano una línea recta, donde X e Y son variables y a y b son constantes. Por ejemplo: Y=3+2X.
SIGNIFICADO DE a y b
a es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y. Se denomina también término independiente.
b, también denominada pendiente es la inclinación de la recta, es decir, es el incremento que se produce en la variable Y cuando la variable X aumenta una unidad.
Por ejemplo, en el caso anterior Y=3+2X, por cada unidad que incrementa la X, la Y presenta un incremento medio de 2 unidades.
En la recta de regresión -como ya veremos- b recibe el nombre de Coeficiente de regresión.
Si b>0, entonces cuando X aumenta Y también lo hace (relación directa).
Si b<0, entonces, cuando X aumenta Y disminuye (relación inversa).
Ver figura 6.4a y b respectivamente.
Figura 6.4: Signo de la pendiente en una recta de regresión
ESTIMACIÓN DE LA RECTA DE REGRESIÓN POR EL MÉTODO DE LOS MÍNIMOS CUADRADOS
Sean X e Y dos variables aleatorias medidas sobre los mismos individuos, y sean (xi,yi) los pares de observaciones sobre dichos individuos.
En primer lugar procederemos a representar el diagrama de dispersión, o nube de puntos. Supongamos que es la obtenida en la figura 6.5. Aunque la nube revele una gran dispersión, podemos observar una cierta tendencia lineal al aumentar X e Y (tendencia que no es del todo exacta; por ejemplo si suponemos que X es la edad e Y es la talla, obviamente, la talla no sólo depende de la edad, además también puede haber errores de medida).
Por esa nube de puntos podemos hacer pasar infinitas rectas. De todas ellas debemos elegir una ¿cual?... Obviamente elegiremos la mejor de todas en algún sentido.
La recta de regresión debe tener carácter de línea media, debe ajustarse bien a la mayoría de los datos, es decir, pasar lo más cerca posible de todos y cada uno de los puntos.
Llamaremos a la mejor de todas Y*=a+bX (Y* para distinguir los valores de la tabla de los que se habrían producido con la recta si la relación fuese funcional).
Figura 6.5: Nube de puntos y posibles rectas que pueden pasar por ella.
Que pase lo más cerca posible de todos los puntos, es decir que diste poco de todos y cada uno de ellos significa que hemos de adoptar un criterio particular que en general se conoce como MÍNIMOS CUADRADOS. Este criterio significa que la suma de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo más pequeña posible (ver figura 6.6). (Obviamente, este es uno de los posibles criterios a adoptar, pero es el más utilizado).
Figura 6.6: Recta de regresión mostrando los residuos o errores que se minimizan
en el procedimiento de ajuste de los Mínimos cuadrados.
Estas distancias verticales se denominan errores o residuos.
Entonces el criterio puede expresarse:
Dado que la recta de regresión deberá tener carácter de línea media, esa suma de distancias deberá anularse (lo mismo que sucedía, como veíamos en la primera unidad didáctica al tratar de hallar la suma de las diferencias con respecto a la media aritmética). Por las mismas razones que entonces, para evaluar la dispersión, trabajaremos con esas distancias, pero al cuadrado, de modo que la función que deberemos minimizar será:
donde son los valores estimados según el modelo Y=a+bX
En la anterior expresión lo conocemos todo, excepto a y b. Para encontrar dichos valores, con la condición de que D sea mínima, deberemos hallar las derivadas parciales de D con respecto a a y a b, y resolver el sistema resultante, al igualar las ecuaciones obtenidas a 0. Es decir, el problema se reduce a un problema de mínimos.
Así, obtendremos:
Adecuando convenientemente las ecuaciones anteriores, obtenemos:
Operando y reorganizando términos, obtenemos las denominadas Ecuaciones Normales de Gauss:
Resolviendo el sistema, obtenemos las expresiones para a y b:
La interpretación de a y b, es análoga a la que comentábamos en el apartado 6.1.3.2, sólo que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.
Como podemos observar, en el numerador de b, aparece la covarianza, y en el denominador la varianza de la variable independiente. Esto hace que el signo de b sea el mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relación directa entre las variables, y si b<0 entonces la relación es inversa.
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en la talla, por cada incremento unitario de edad; si la edad está en años, por cada año aumente la edad.
Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la expresión de la ecuación donde ahora ya, a y b son conocidos. No olvidemos que ese era uno de los objetivos del análisis, tratar de conocer valores de Y a partir de los de X:
y*i = a+bxi
REPRESENTATIVIDAD
...