Analisis De Regresion Lineal
Enviado por golgo • 7 de Octubre de 2013 • 3.438 Palabras (14 Páginas) • 717 Visitas
ANALISIS DE REGRESION LINEAL
La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x) variable de predicción.
En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos de optimización o control del proceso.
Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x).
REGRESIÓN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales.
Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un maestro, y la variable independiente o variable de predicción es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PM
Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable independiente.
Supuestos para el modelo de regresión lineal1
1. Para cada valor de x, la variable aleatoria se distribuye normalmente.
2. Para cada valor de x, la media o valor esperado de es 0; esto es, .
3. Para cada valor de x, la varianza de es la constante (llamada varianza del error).
4. Los valores del término de error son independientes.
5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen de los de .
6. Para un valor fijo x, es posible predecir el valor de y.
7. Para un valor fijo x, es posible estimar el valor promedio de y
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que compara el tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón (mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.
Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de los ocho pares de datos (x,y) como muestra de una población de pares, donde las medidas pulgadas cúbicas de desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño del motor de 97 hay un gran número de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos que existe una relación lineal para la población de pares de datos de pcd y mpg. (Se entiende por relación lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).
Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la relación lineal entre tamaño de motor (x) y millas por galón (y).
Modelo de regresión lineal
Donde
y = variable dependiente
ordenada al origen
= pendiente
x = variable independiente
= Error aleatorio
La expresión se denomina componente determinística del modelo de regresión lineal. La muestra de pares de datos se usará para estimar los parámetros de la componente determinística.
La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un término de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos para un mismo tamaño de motor se atribuyen al término de error en el modelo de regresión.
Cálculo de la ecuación de regresión
También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión estimada es:
Donde:
Valor predicho de para un valor particular de x.
b0 = Estimador puntual de .(ordenada al origen)
b1= Estimador puntual de (pendiente)
Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = número de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
La ecuación de predicción de mínimos cuadrados es:
=>
Error
Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los errores indicados por segmentos verticales.
Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)
...