Analisis De Regresion Lineal

golgo7 de Octubre de 2013

3.438 Palabras (14 Páginas)869 Visitas

Página 1 de 14

ANALISIS DE REGRESION LINEAL

La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x) variable de predicción.

En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos de optimización o control del proceso.

Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x).

REGRESIÓN LINEAL SIMPLE

Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.

a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales.

Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un maestro, y la variable independiente o variable de predicción es el salario anual del docente.

b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PM

Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable independiente.

Supuestos para el modelo de regresión lineal1

1. Para cada valor de x, la variable aleatoria se distribuye normalmente.

2. Para cada valor de x, la media o valor esperado de es 0; esto es, .

3. Para cada valor de x, la varianza de es la constante (llamada varianza del error).

4. Los valores del término de error son independientes.

5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen de los de .

6. Para un valor fijo x, es posible predecir el valor de y.

7. Para un valor fijo x, es posible estimar el valor promedio de y

Ejemplo 1:

La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que compara el tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón (mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.

Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de los ocho pares de datos (x,y) como muestra de una población de pares, donde las medidas pulgadas cúbicas de desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño del motor de 97 hay un gran número de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos que existe una relación lineal para la población de pares de datos de pcd y mpg. (Se entiende por relación lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).

Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la relación lineal entre tamaño de motor (x) y millas por galón (y).

Modelo de regresión lineal

Donde

y = variable dependiente

ordenada al origen

= pendiente

x = variable independiente

= Error aleatorio

La expresión se denomina componente determinística del modelo de regresión lineal. La muestra de pares de datos se usará para estimar los parámetros de la componente determinística.

La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un término de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos para un mismo tamaño de motor se atribuyen al término de error en el modelo de regresión.

Cálculo de la ecuación de regresión

También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión estimada es:

Donde:

Valor predicho de para un valor particular de x.

b0 = Estimador puntual de .(ordenada al origen)

b1= Estimador puntual de (pendiente)

Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:

Donde:

SS = suma de cuadrados

b1 = pendiente

b0 = ordenada al origen

n = número de pares de datos

En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.

Calculando b0 y b1 tenemos:

SSx = 1575.50

SSy = 82.88

SSxy = -212.25

b1 = -0.13472

b0 = 46.39099

La ecuación de predicción de mínimos cuadrados es:

Error

Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los errores indicados por segmentos verticales.

Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)

A la varianza de los errores e se le llama varianza residual siendo denotada por , se encuentra dividiendo SSE entre n-2

La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se denota por Se.

Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estándar de la estimación:

SSE = 82.88-(-0.13472)(-212.25) =54.2849

Se = 3.007

Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de mantenimiento y, y las millas recorridas x para siete de sus automóviles.

Encuentre:

a) Una estimación puntual para .

b) Una estimación puntual para

c) Una estimación puntual para la varianza del error .

d) Una estimación puntual para el costo promedio del mantenimiento de un coche con 36,000 millas recorridas.

e) Prediga el costo para un coche con 29,000 millas recorridas.

SSx = 1154.86

SSy = 24207.71

SSxy = 5193.43

b1 = 4.4970

b0 =57.5567

SSE = 852.70

= 170.54

y = 57.5567 + 4.497x

a) b0 =57.5567

b) b1 = 4.4970

c) = 170.54

d) 57.5567 + 4.497(36) = 219.44 usd

e) 57.5567 + 4.497(29) = 187.96 usd

Inferencias sobre el modelo de regresión lineal.

Para usar la ecuación de regresión , con propósitos de predicción, queremos estar razonablemente seguros de que la pendiente de la ecuación de regresión no es cero. Ya que si , entonces para cualquier valor de x, sería idéntica a , como se muestra en la figura. Siendo este el caso el modelo no sería apropiado.

Con el propósito de determinar si la pendiente de la regresión poblacional es diferente de cero, separemos SSy en dos componentes, SSE y SSR.

Tenemos la siguiente relación:

SSy = SSE + SSR

Donde:

SSE = Suma de cuadrados del error

SSR = Suma de cuadrados de la regresión

SSE = SSy-b1SSxy

SSR = b1SSy

Prueba de hipótesis utilizando la distribución F

Si fuera cierta , el estadístico F serviría como estadístico de prueba: F está definido como:

Con gl = (1,n-2), se puede usar el estadístico F para determinar si es diferente de cero. Si la pendiente de la ecuación de regresión poblacional es diferente de cero, entonces

...

Descargar como (para miembros actualizados) txt (19 Kb)

Leer 13 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com