REGRESIÓN LINEAL SIMPLE
Enviado por ARTUREYPE • 5 de Septiembre de 2011 • 3.833 Palabras (16 Páginas) • 2.897 Visitas
El propósito de este estudio es proporcionar los conceptos y técnicas para determinar una ecuación que describa de manera razonable a un conjunto de datos dado. Este estudio se denomina análisis de regresión y la ecuación empírica obtenida se denomina ecuación de regresión la cual sustituye a un modelo teórico no disponible
En este primer enfoque se supondrá que se tiene un conjunto de n mediciones u observaciones y1, y2, ..., yn de una variable Y denominada variable de respuesta las cuales corresponden a un conjunto x1, x2, ..., xn que representan los valores de una variable X denominada variable de predicción.
Se supondrá que existe una correspondencia de X a Y¸de tal manera que cada valor yi está asociado con un valor xi.
Es importante reconocer que cada valor yi es el resultado de una medición, por lo tanto, es posible que pudiesen haber otros valores yi para el mismo valor dado xi. Esto nos permite reconocer que yi proviene de una variable aleatoria Yi la cual debe tener alguna distribución de probabilidad. Tratemos de visualizarlo en el siguiente gráfico:
Supondremos que existe una relación lineal entre X y Y. Este hecho puede reconocerse graficando los puntos (xi, yi), i = 1, 2, ..., n y observando la “tendencia lineal” de los puntos. Esta representación se denomina gráfico de dispersión.
Se propone un modelo lineal que tome en cuenta la aleatoriedad de Y y permita luego explicar los errores de medición.
Modelo probabilista propuesto:
Y = 0 + 1 x + .
siendo el componente aleatorio de Y
Se supondrá que para cada variable aleatoria Yi el componente aleatorio i tiene la misma distribución de probabilidad y que además son independientes.
i N(0, 2) (distribución normal con media 0 y varianza 2)
Por lo tanto, el valor esperado de este modelo, es una recta teórica (desconocida) con los parámetros 0 y 1 que deben estimarse
E[Y] = 0 + 1 x .
RECTA DE MÍNIMOS CUADRADOS
Es un procedimiento matemático para estimar los parámetros 0 y 1 de la recta de regresión utilizando los datos dados.
El objetivo es colocar una recta entre los puntos de tal manera la suma de las distancias de esta recta a los puntos sea la menor posible.
Definición
.
Es la recta de mínimos cuadrados. son los estimadores de 0 y 1
Para cada valor se tiene el valor observado y un valor obtenido con la recta de mínimos cuadrados:
Sea ei = - ,
Entonces, el criterio de mínimos cuadrados consiste en minimizar para todos los puntos. El cuadrado puede interpretarse como una manera de cuantificar las distancias. No importa si el punto está sobre o debajo de la recta
Criterio de mínimos cuadrados
Minimizar
SCE = .
(Lea SCE: “Suma de Cuadrados del Error”)
El procedimiento matemático para realizar esta optimización es:
Con facilidad se llega al sistema de ecuaciones lineales:
De donde se obtienen finalmente los estimadores
Ejemplo
Los siguientes datos corresponden a una muestra aleatoria de 10 estudiantes que han tomado cierta materia. Los datos incluyen la calificación parcial y la calificación final. Se pretende encontrar un modelo de regresión que permita predecir la calificación final que obtendría un estudiante dada su calificación parcial.
Estudiante Nota Parcial Nota final
1 39 65
2 43 75
3 21 52
4 64 82
5 57 92
6 43 80
7 38 73
8 75 98
9 34 56
10 52 75
Solución
Primero representamos los datos en un diagrama de dispersión
Se observa que al incrementar x (variable de predicción) también se incrementa y ( variable de respuesta)
Obtención de la recta de mínimos cuadrados
Cálculos
i xi yi x2i xiyi
1 39 65 1521 2535
2 43 75 1849 3225
3 21 52 441 1092
4 64 82 4096 5248
5 57 92 3249 5244
6 43 80 1849 3440
7 38 73 1444 2774
8 75 98 5625 7350
9 34 56 1156 1904
10 52 75 2704 3900
466 748 23934 36712
Sustituimos en el sistema de ecuaciones lineales:
De donde se obtienen:
Ecuación de mínimos cuadrados: = 35.83 + 0.836 x
Gráfico de la recta de mínimos cuadrados
Ahora pretendamos predecir la calificación final que obtendrá un estudiante que obtuvo 50 en su calificación parcial:
= 35.83 + 0.836 (50) = 77.63
REGRESIÓN LINEAL MÚLTIPLE
Considere que una variable Y depende de k variables x1, x2, ... , xk
Para describir esta relación se propone un modelo de regresión lineal múltiple
Modelo teórico probabilista propuesto:
Y = 0 + 1 x1 + 2 x2 + ... + k xk + .
Siendo el componente aleatorio de Y
Note que cuando k = 1, se reduce al modelo de regresión lineal simple visto.
Suponer que se tiene una muestra aleatoria (x1,i, x2,i, ..., xk,i, yi), i = 1, 2, ..., n
Fijados los k valores x1,i, x2,i, ..., xk,i se tiene una observación o medición yi la cual es uno de los posibles valores de la variable aleatoria Yi
Se supondrá que para cada variable aleatoria Yi el componente aleatorio i tiene la misma distribución de probabilidad, y que además son independientes.
i N(0, 2) (distribución normal con media 0 y varianza 2)
MODELO DE REGRESIÓN LINEAL MÚLTIPLE DE MÍNIMOS CUADRADOS
Para estimar los k + 1 parámetros 0 , 1 , 2 , ..., k se usará un procedimiento similar al modelo
...