Diagrama De Hilos
Enviado por DAJM • 29 de Mayo de 2013 • 1.959 Palabras (8 Páginas) • 547 Visitas
REGRESION LINEAL.
Regresión es un conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes llamadas variables predictoras. Las variables independientes también deberían ser cuantitativas, sin embargo es permitido que algunas de ellas sean cualitativas. La ecuación que representa la relación es llamada el modelo de regresión. Si todas las variables independientes fueran cualitativas entonces el modelo de regression se convierte en un modelo de diseños experimentales. Ejemplos de modelos de regression:
a) La variable de respuesta puede ser la tasa de divorcio y una variable predictora puede ser el
nivel de ingreso familiar.
b) El precio de una casa puede ser la variable dependiente y el área, número de cuartos,
número de baños, años de antiguedad pueden ser usadas como variables predictoras.
Para estimar la ecuación del modelo se debe tener una muestra de entrenamiento. En el caso de una sola variable independiente, esta muestra consiste de n pares ordenados (xi,yi) para i=1,..,n. En el caso de varias variables independientes se deben tener n nuplas (xi,yi), para i=1,..,n, domde xi es el vector de mediciones de las variables predictoras para la i-ésima observación.
La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definidas anteriormente sea algo de la forma3.1
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
con el menor error posible entre e Y, o bien
de forma que sea una variable que toma valores próximos a cero.
3.12.4.1 Observación
Obsérvese que la relación 3.12 explica cosas como que si X varía en 1 unidad, varía la cantidad b. Por tanto:
Si b>0, las dos variables aumentan o disminuyen a la vez;
Si b<0, cuando una variable aumenta, la otra disminuye.
Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que b>0.
El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemática, las que siguen:
1.
Dadas dos variables X, Y, sobre las que definimos
medimos el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):
2.
Una aproximación de Y, se define a partir de dos cantidades a y b. Vamos a calcular aquellas que minimizan la función
3.
Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para cualquier problema.
3.12.4.2 Regresión de Y sobre X
Para calcular la recta de regresión de Y sobre X nos basamos en la figura 3.9.
Figura: Los errores a minimizar son las cantidades
Una vez que tenemos definido el error de aproximación mediante la relación (3.13) las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mínimos cuadrados):
La relación (3.15), no es más que otra manera de escribir la relación (3.14), que se denomina ecuaciones normales. La primera de (3.14) se escribe como
Sustituyendo se tiene que
Lo que nos da las relaciones buscadas:
La cantidad b se denomina coeficiente de regresión de Ysobre X.
3.12.4.3 Regresión de X sobre Y
Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es totalmente incorrecto despejar de
Pues esto nos da la regresión de X sobre , que no es lo que buscamos. La regresión de X sobre Y se hace aproximando X por , del modo
donde
pues de este modo se minimiza, en el sentido de los mínimos cuadrados, los errores entre las cantidades xi y las (figura 3.10.)
Figura: Los errores a minimizar son las cantidades
Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solución:
Lo que se busca es la recta, , que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:
Así, el modelo lineal consiste en:
Por tanto, si x=15, el modelo lineal predice un valor de Y de:
En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.
3.12.4.5 Propiedades de la regresión lineal
Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:
3.12.4.6 Proposición
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables
...