Ajuste De Curvas
Enviado por hanico • 6 de Febrero de 2014 • 6.736 Palabras (27 Páginas) • 295 Visitas
AJUSTE DE CURVAS
En múltiples ocasiones se encuentran situaciones en las que se requiere analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis serán:
• Determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si los valores de una de las variables tienden a aumentar –o disminuir- al aumentar los valores de la otra);
• Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.
La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación. Sin embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda cuestión: se limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo simétrico, mientras que lo que interesa es modelizar dicha relación y usar una de las variables para explicar la otra.
Para tal propósito se recurrirá a la técnica de regresión. Aquí se analizará el caso más sencillo en el que se considera únicamente la relación entre dos variables (x e y). Así mismo, se limita al caso en el que la relación que se pretende modelizar es de tipo lineal. En este caso, la media de la distribución de las y sobre x está dada por .x.
LA RECTA DE REGRESIÓN
Considérese una variable aleatoria respuesta (o dependiente) y, que se supone relacionada con otra variable (no necesariamente aleatoria) que se llamará explicativa, predictora o independiente y que se denotará por x.
A partir de una muestra de n individuos para los que se dispone de los valores de ambas variables, {(xi,yi),i = 1,...n}, se puede visualizar gráficamente la relación existente entre ambas mediante un gráfico de dispersión, en el que los valores de la variable x se disponen en el eje horizontal y los de y en el vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores de y a partir de los de x. La ecuación general de la recta de regresión será entonces de la forma: .x.
El problema radica en encontrar aquella recta que mejor ajuste a los datos. Tradicionalmente se ha recurrido para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las distancias verticales de las observaciones a la recta.
Cualquier observación i-ésima yi diferirá verticalmente de esa recta (por ahora desconocida) en un valor i. Luego es el valor de una variable aleatoria.
El valor de para cualquier observación determinada dependerá de un posible error de medición y de los valores de otras variables distintas de x que podrían influir sobre y.
Habrá que calcular los valores de y de la línea de regresión, es decir la ecuación de la recta que de alguna manera da el mejor ajuste. En referencia al gráfico anterior, es relativamente fácil trazarla a simple vista con un poco de sentido común. Sin embargo, lo habitual es recurrir a un método menos subjetivo.
Para plantear este problema de manera formal, considérese n parejas de observaciones (xi,yi) en las cuales es razonable suponer que la regresión de y sobre x es lineal, y se desea determinar la recta del mejor ajuste. Si se predice y por medio de la ecuación:
sea ei el error de predecir el valor de y correspondiente a la xi es:
Se quiere determinar a y b de modo que estos errores sean, en cierto modo, lo más pequeños posibles. Ya que no se pueden minimizar cada uno de los ei por separado, esto sugiere intentar
tan cercano a cero como sea posible.
Esto no es aconsejable puesto que errores positivos y negativos se compensarán dando líneas inadecuadas como respuesta. Por lo tanto, se minimizará la suma de los cuadrados de ei. Es decir, se elegirán a y b de modo que:
Esto equivale a minimizar la suma de los cuadrados de las distancias verticales a partir de los puntos respecto de la línea. Este método (llamado de los Mínimos Cuadrados) da valores de a y b (estimaciones de y ) que tienen muchas propiedades convenientes.
Una condición necesaria para que exista un mínimo relativo es la anulación de las derivadas parciales con respecto a a y b:
lo que se puede reescribir como:
esto es un conjunto de ecuaciones lineales con incógnitas a y b, denominadas Ecuaciones Normales.
Resolviendo por determinantes:
Ejemplo: Los siguientes datos son las mediciones de la Tensión Arterial en 14 pacientes
de distintas edades:
ajustar una línea recta a estos datos por el método de mínimos cuadrados y utilizarla para estimar la tensión arterial para una persona de 36 años.
de aquí el sistema de ecuaciones queda:
con la soluciones:
Para una persona de 36 años de edad:
y = 0.79.(36)+109.7715 = 138.2122
En el siguiente gráfico se puede apreciar el Diagrama de Dispersión y la recta del mejor ajuste (desde el punto de vista de los mínimos cuadrados) y la estimación para una persona de 36 años de edad:
La siguiente función Matlab permite obtener los resultados vistos del proceso:
function recta
% Ajuste lineal de un conjunto de datos por Minimos Cuadrados
% con datos presentes en el archivo ascii regre.txt
% Entradas: u, vector, obtenido del archivo ascii "regre.txt"
% Salida: a, real, Ordenada al origen
% b, real, pendiente de la recta
load regre.txt;u=regre;n=size(u,1);
sy=0; for i=1:n, sy=sy+u(i,2);end
sx=0; for i=1:n, sx=sx+u(i,1);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end
A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),u(i,2),'*')
a
b
El Teorema de Gauss-Markov establece: Entre los estimadores insesgados de y que son lineales en los yi, los estimadores de mínimos cuadrados tienen la varianza más pequeña.
INFERENCIAS BASADAS EN ESTIMADORES DE MÍNIMOS CUADRADOS
En lo que sigue se supondrá que la regresión es lineal
...