ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

RECTA DE REGRESIÓN


Enviado por   •  8 de Junio de 2012  •  4.065 Palabras (17 Páginas)  •  491 Visitas

Página 1 de 17

LA RECTA DE REGRESIÓN

Considérese una variable aleatoria respuesta (o dependiente) y, que se supone relacionada con otra variable (no necesariamente aleatoria) que se llamará explicativa, predictora o independiente y que se denotará por x.

A partir de una muestra de n individuos para los que se dispone de los valores de ambas variables, {(xi,yi),i = 1,...n}, se puede visualizar gráficamente la relación existente entre ambas mediante un gráfico de dispersión, en el que los valores de la variable x se disponen en el eje horizontal y los de y en el vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores de y a partir de los de x. La ecuación general de la recta de regresión será entonces de la forma: .x.

El problema radica en encontrar aquella recta que mejor ajuste a los datos. Tradicionalmente se ha recurrido para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las distancias verticales de las observaciones a la recta.

Cualquier observación i-ésima yi diferirá verticalmente de esa recta (por ahora desconocida) en un valor i. Luego  es el valor de una variable aleatoria.

El valor de  para cualquier observación determinada dependerá de un posible error de medición y de los valores de otras variables distintas de x que podrían influir sobre y.

Habrá que calcular los valores de y  de la línea de regresión, es decir la ecuación de la recta que de alguna manera da el mejor ajuste. En referencia al gráfico anterior, es relativamente fácil trazarla a simple vista con un poco de sentido común. Sin embargo, lo habitual es recurrir a un método menos subjetivo.

Para plantear este problema de manera formal, considérese n parejas de observaciones (xi,yi) en las cuales es razonable suponer que la regresión de y sobre x es lineal, y se desea determinar la recta del mejor ajuste. Si se predice y por medio de la ecuación:

sea ei el error de predecir el valor de y correspondiente a la xi es:

Se quiere determinar a y b de modo que estos errores sean, en cierto modo, lo más pequeños posibles. Ya que no se pueden minimizar cada uno de los ei por separado, esto sugiere intentar

tan cercano a cero como sea posible.

Esto no es aconsejable puesto que errores positivos y negativos se compensarán dando líneas inadecuadas como respuesta. Por lo tanto, se minimizará la suma de los cuadrados de ei. Es decir, se elegirán a y b de modo que:

Esto equivale a minimizar la suma de los cuadrados de las distancias verticales a partir de los puntos respecto de la línea. Este método (llamado de los Mínimos Cuadrados) da valores de a y b (estimaciones de  y ) que tienen muchas propiedades convenientes.

Una condición necesaria para que exista un mínimo relativo es la anulación de las derivadas parciales con respecto a a y b:

lo que se puede reescribir como:

esto es un conjunto de ecuaciones lineales con incógnitas a y b, denominadas Ecuaciones Normales.

Resolviendo por determinantes:

Ejemplo: Los siguientes datos son las mediciones de la Tensión Arterial en 14 pacientes

de distintas edades:

ajustar una línea recta a estos datos por el método de mínimos cuadrados y utilizarla para estimar la tensión arterial para una persona de 36 años.

de aquí el sistema de ecuaciones queda:

con la soluciones:

Para una persona de 36 años de edad:

y = 0.79.(36)+109.7715 = 138.2122

En el siguiente gráfico se puede apreciar el Diagrama de Dispersión y la recta del mejor ajuste (desde el punto de vista de los mínimos cuadrados) y la estimación para una persona de 36 años de edad:

La siguiente función Matlab permite obtener los resultados vistos del proceso:

function recta

% Ajuste lineal de un conjunto de datos por Minimos Cuadrados

% con datos presentes en el archivo ascii regre.txt

% Entradas: u, vector, obtenido del archivo ascii "regre.txt"

% Salida: a, real, Ordenada al origen

% b, real, pendiente de la recta

load regre.txt;u=regre;n=size(u,1);

sy=0; for i=1:n, sy=sy+u(i,2);end

sx=0; for i=1:n, sx=sx+u(i,1);end

sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end

sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end

A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;

C=inv(A)*B;a=C(1,1);b=C(2,1);

i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),u(i,2),'*')

a

b

El Teorema de Gauss-Markov establece: Entre los estimadores insesgados de  y  que son lineales en los yi, los estimadores de mínimos cuadrados tienen la varianza más pequeña.

INFERENCIAS BASADAS EN ESTIMADORES DE MÍNIMOS CUADRADOS

En lo que sigue se supondrá que la regresión es lineal y, más aún, que las n variables aleatorias que tienen valores yi (i=1, 2, …, n) son independientes y que están distribuidos normalmente con las medias .xi y la varianza común 2.

Si se escribe: yi = .xi + i se deriva que los i son valores de variables aleatorias independientes, distribuidas normalmente, y que tienen medias 0 y varianza común 2. Gráficamente:

En las suposiciones hechas hasta aquí, como se ilustra, se pueden advertir las distribuciones de los yi para varios valores de las xi.

Antes de establecer un teorema relativo a la distribución de los estimadores de mínimos cuadrados de  y , es conveniente introducir una notación especial:

en base a esto, las ecuaciones normales, resueltas por determinantes, quedan:

donde e son, respectivamente las medias de las x y de las y. Debe notarse también la estrecha relación entre las Sxx y Syy con las varianzas muestrales respectivas de las x y las y (sx y sy).

La varianza común 2 puede estimarse en término de las desviaciones verticales de los puntos muestrales a partir de la línea de mínimos cuadrados. La i-ésima de tales desviaciones es:

De aquí, la estimación, se2, es:

...

Descargar como (para miembros actualizados) txt (26 Kb)
Leer 16 páginas más »
Disponible sólo en Clubensayos.com