RECTA DE REGRESIÓN

naci8 de Junio de 2012

4.065 Palabras (17 Páginas)549 Visitas

Página 1 de 17

LA RECTA DE REGRESIÓN

Considérese una variable aleatoria respuesta (o dependiente) y, que se supone relacionada con otra variable (no necesariamente aleatoria) que se llamará explicativa, predictora o independiente y que se denotará por x.

A partir de una muestra de n individuos para los que se dispone de los valores de ambas variables, {(xi,yi),i = 1,...n}, se puede visualizar gráficamente la relación existente entre ambas mediante un gráfico de dispersión, en el que los valores de la variable x se disponen en el eje horizontal y los de y en el vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores de y a partir de los de x. La ecuación general de la recta de regresión será entonces de la forma: .x.

El problema radica en encontrar aquella recta que mejor ajuste a los datos. Tradicionalmente se ha recurrido para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las distancias verticales de las observaciones a la recta.

Cualquier observación i-ésima yi diferirá verticalmente de esa recta (por ahora desconocida) en un valor i. Luego  es el valor de una variable aleatoria.

El valor de  para cualquier observación determinada dependerá de un posible error de medición y de los valores de otras variables distintas de x que podrían influir sobre y.

Habrá que calcular los valores de y  de la línea de regresión, es decir la ecuación de la recta que de alguna manera da el mejor ajuste. En referencia al gráfico anterior, es relativamente fácil trazarla a simple vista con un poco de sentido común. Sin embargo, lo habitual es recurrir a un método menos subjetivo.

Para plantear este problema de manera formal, considérese n parejas de observaciones (xi,yi) en las cuales es razonable suponer que la regresión de y sobre x es lineal, y se desea determinar la recta del mejor ajuste. Si se predice y por medio de la ecuación:

sea ei el error de predecir el valor de y correspondiente a la xi es:

Se quiere determinar a y b de modo que estos errores sean, en cierto modo, lo más pequeños posibles. Ya que no se pueden minimizar cada uno de los ei por separado, esto sugiere intentar

tan cercano a cero como sea posible.

Esto no es aconsejable puesto que errores positivos y negativos se compensarán dando líneas inadecuadas como respuesta. Por lo tanto, se minimizará la suma de los cuadrados de ei. Es decir, se elegirán a y b de modo que:

Esto equivale a minimizar la suma de los cuadrados de las distancias verticales a partir de los puntos respecto de la línea. Este método (llamado de los Mínimos Cuadrados) da valores de a y b (estimaciones de  y ) que tienen muchas propiedades convenientes.

Una condición necesaria para que exista un mínimo relativo es la anulación de las derivadas parciales con respecto a a y b:

lo que se puede reescribir como:

esto es un conjunto de ecuaciones lineales con incógnitas a y b, denominadas Ecuaciones Normales.

Resolviendo por determinantes:

Ejemplo: Los siguientes datos son las mediciones de la Tensión Arterial en 14 pacientes

de distintas edades:

ajustar una línea recta a estos datos por el método de mínimos cuadrados y utilizarla para estimar la tensión arterial para una persona de 36 años.

de aquí el sistema de ecuaciones queda:

con la soluciones:

Para una persona de 36 años de edad:

y = 0.79.(36)+109.7715 = 138.2122

En el siguiente gráfico se puede apreciar el Diagrama de Dispersión y la recta del mejor ajuste (desde el punto de vista de los mínimos cuadrados) y la estimación para una persona de 36 años de edad:

La siguiente función Matlab permite obtener los resultados vistos del proceso:

function recta

% Ajuste lineal de un conjunto de datos por Minimos Cuadrados

% con datos presentes en el archivo ascii regre.txt

% Entradas: u, vector, obtenido del archivo ascii "regre.txt"

% Salida: a, real, Ordenada al origen

% b, real, pendiente de la recta

load regre.txt;u=regre;n=size(u,1);

sy=0; for i=1:n, sy=sy+u(i,2);end

sx=0; for i=1:n, sx=sx+u(i,1);end

sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end

sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end

A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;

C=inv(A)*B;a=C(1,1);b=C(2,1);

i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),u(i,2),'*')

El Teorema de Gauss-Markov establece: Entre los estimadores insesgados de  y  que son lineales en los yi, los estimadores de mínimos cuadrados tienen la varianza más pequeña.

INFERENCIAS BASADAS EN ESTIMADORES DE MÍNIMOS CUADRADOS

En lo que sigue se supondrá que la regresión es lineal y, más aún, que las n variables aleatorias que tienen valores yi (i=1, 2, …, n) son independientes y que están distribuidos normalmente con las medias .xi y la varianza común 2.

Si se escribe: yi = .xi + i se deriva que los i son valores de variables aleatorias independientes, distribuidas normalmente, y que tienen medias 0 y varianza común 2. Gráficamente:

En las suposiciones hechas hasta aquí, como se ilustra, se pueden advertir las distribuciones de los yi para varios valores de las xi.

Antes de establecer un teorema relativo a la distribución de los estimadores de mínimos cuadrados de  y , es conveniente introducir una notación especial:

en base a esto, las ecuaciones normales, resueltas por determinantes, quedan:

donde e son, respectivamente las medias de las x y de las y. Debe notarse también la estrecha relación entre las Sxx y Syy con las varianzas muestrales respectivas de las x y las y (sx y sy).

La varianza común 2 puede estimarse en término de las desviaciones verticales de los puntos muestrales a partir de la línea de mínimos cuadrados. La i-ésima de tales desviaciones es:

De aquí, la estimación, se2, es:

donde se se denomina Error Estándar de Estimación, también la suma de los cuadrados dada por se2.(n-2) recibe el nombre de Suma de Cuadrados Residual o Suma de Cuadrados de Error.

Una fórmula equivalente de esa estimación de 2 es:

el divisor n-2 se emplea para que el estimador resultante de 2 sea insesgado.

En base a las suposiciones efectuadas relativas a la distribución de las y, se pueden probar los siguientes teoremas:

Teorema 1: Con las suposiciones dadas, los estadísticos:

con valores de variables aleatorias que tienen la distribución t-Student con n-2 grados de libertad.

Si se requieren intervalos de confianza para los coeficientes de regresión  y , se sustituye el término medio de –t < t < t por el estadístico t adecuado del teorema anterior. Luego, por medio de cálculos simples, se determinan los correspondientes intervalos de confianza:

Problema: Los siguientes datos son las mediciones de la velocidad del aire y del coeficiente de evaporación de las gotitas de combustible en una turbina de propulsión:

Velocidad del aire (cm/s) 20 60 100 140 180 220 260 300 340 380

Coeficiente de Eva-poración (mm2/seg) .18 .37 .35 .78 .56 .75 1.18 1.36 1.17 1.65

Construir un intervalo de confianza del 95% para el coeficiente de regresión .

Gráficamente:

1-= 0.05; = 0.025; t = 2.306 con  = n – 2 = 8 g.d.l.

los límites de confianza del 95%, para  se calculan entonces:

luego, el intervalo es:



En las pruebas de hipótesis relativas a los coeficientes de regresión  y , las que se refieren a  son muy importantes ya que  es la pendiente de la línea de regresión. Esto es,  es el “cambio promedio” de las y correspondiente a un incremento unitario de x. Si  la línea de regresión es horizontal y la media de las y no “depende linealmente” de x.

Ejemplo: En base al problema anterior, probar la Hipótesis Nula de que  contra la Hipótesis Alterna que , con un nivel de significación de 0.05.

1. Hipótesis nula: 

Hipótesis alterna: 

2. Nivel de significación 0.05

3. Criterio: Se rechaza Ho si t > 2.306 o t < -2.306, con  = n – 2 = 8 g.d.l.

4. Cálculos:

5. Decisión: Ya que 8.749 > 2.306 Se Rechaza la Hipótesis Nula. Luego, existe relación entre la velocidad del aire y el coeficiente de evaporación

...

Descargar como (para miembros actualizados) txt (26 Kb)

Leer 16 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com