Tipos De Regresion Lineal
Enviado por Soto22 • 24 de Febrero de 2013 • 3.030 Palabras (13 Páginas) • 1.102 Visitas
Capítulo 9. Regresión lineal
simple
9.1 Introducción
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación
o dependencia entre variables. Frecuentemente resulta de interés conocer el
efecto que una o varias variables pueden causar sobre otra, e incluso predecir
en mayor o menor grado valores en una variable a partir de otra. Por ejemplo,
supongamos que la altura de los padres influyen significativamente en la de los
hijos. Podríamos estar interesados en estimar la altura media de los hijos cuyos
padres presentan una determinada estatura.
Los métodos de regresión estudian la construcción de modelos para explicar
o representar la dependencia entre una variable respuesta o dependiente (Y ) y
la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos
el modelo de regresión lineal, que tiene lugar cuando la dependencia es de tipo
lineal, y daremos respuesta a dos cuestiones básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y ? ¿Es
significativa la dependencia lineal entre esas dos variables?.
• De ser así, utilizaremos el modelo de regresión lineal simple para explicar
y predecir la variable dependiente (Y ) a partir de valores observados en
la independiente (X).
Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar
la magnitud de la compresión (Y ) que se producirá en una pieza de 2 pulgadas
de espesor cuando se somete a diferentes cantidades de presión (X). Para ello
prueba 5 piezas de material bajo diferentes presiones. Los pares de valores
observados (x, y) se muestran en la siguiente tabla:
Pieza Presión (x) Compresión (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
i
ii CAPÍTULO 9. REGRESIÓN LINEAL SIMPLE
En principio no sabemos si las variables en cuestión están relacionadas o no,
o si en caso de haber dependencia es significativa o no. De haber entre ellas una
dependencia lineal significativa, podríamos expresar la Compresión (Y ) a partir
de la Presión (X) mediante una recta, y a partir de ella predecir la compresión
que se daría para un determinado nivel de presión.
Una forma de determinar si puede existir o no dependencia entre variables, y
en caso de haberla deducir de qué tipo puede ser, es gráficamente representando
los pares de valores observados. A dicho gráfico se le llama nube de puntos o
diagrama de dispersión.
Ejemplos de casos que podrían darse:
a)
0 0,01 0,02 0,03 0,04
87
90
93
96
99
102
b)
0,87 1,07 1,27 1,47 1,67
87
90
93
96
99
102
c)
0 2 4 6 8 10 12
0
2
4
6
8
10
d)
0 2 4 6 8 10
0
0,2
0,4
0,6
0,8
1
(X 1000)
En a) hay ausencia de relación (independencia).
En b) existe asociación lineal positiva (varían en general en el mismo sentido).
En c) existe asociación lineal negativa (varían en sentido contrario).
En d) existe fuerte asociación, pero no lineal.
9.2 El modelo de regresión lineal
La estructura del modelo de regresión lineal es la siguiente:
Y = β0 + β1X + ε
En esta expresión estamos admitiendo que todos los factores o causas que
influyen en la variable respuesta Y pueden dividirse en dos grupos: el primero
contiene a una variable explicativa X y el segundo incluye un conjunto amplio de
factores no controlados que englobaremos bajo el nombre de perturbación o error
aleatorio, ε, que provoca que la dependencia entre las variables dependiente e
iii
independiente no sea perfecta, sino que esté sujeta a incertidumbre. Por ejemplo,
en el consumo de gasolina de un vehículo (Y ) influyen la velocidad (X) y una
serie de factores como el efecto conductor, el tipo de carretera, las condiciones
ambientales, etc, que quedarían englobados en el error.
Lo que en primer lugar sería deseable en un modelo de regresión es que
estos errores aleatorios sean en media cero para cualquier valor x de X, es decir,
E[ε/X = x] = E[ε] = 0, y por lo tanto:
E[Y /X = x] = β0 + β1x + E[ε/X = x] = β0 + β1x
En dicha expresión se observa que:
• La media de Y, para un valor fijo x, varía linealmente con x.
• Para un valor x se predice un valor en Y dado por ˆ
y = E[Y /X = x] =
β0 + β1x, por lo que el modelo de predicción puede expresarse también
como
ˆ
Y = β0 + β1X.
• El parámetro β0 es la ordenada al origen del modelo (punto de corte con
el eje Y) y β1 la pendiente, que puede interpretarse como el incremento de
la variable dependiente por cada incremento en una unidad de la variable
independiente. Estos parámetros son desconocidos y habrá que estimarlos
de cara a realizar predicciones.
Además de la hípotesis establecida sobre los errores de que en media han de
ser cero, se establecen las siguientes hipótesis:
ii) La varianza de ε es constante para cualquier valor de x, es decir,
V ar(ε/X = x) = σ2
iii) La distribución de ε es normal, de media 0 y desviación σ.
iv) Los errores asociados a los valores de Y son independientes unos de otros.
En consecuencia, la distribución de Y para x fijo es normal, con varianza
constante σ2, y media que varía linealmente con x, dada por β0 +β1x. Además
los valores de Y son independientes entre sí.
9.3 Estimación de los parámetros del modelo
Partimos de una muestra de valores de X e Y medidos sobre n individuos:
(x1, y1), (x2, y2), ..., (xn,yn),
y queremos estimar valores en Y según el modelo
ˆ
Y = β0 + β1X, donde β0
y β1 son por el momento desconocidos. Debemos encontrar entonces de entre
iv CAPÍTULO 9. REGRESIÓN LINEAL SIMPLE
todas las rectas la que mejor se ajuste a los datos observados, es decir, buscamos
aquellos valores de β0 y β1 que hagan mínimos los errores de estimación. Para
un valor xi, el modelo estima un valor en Y igual a ˆ
yi = β0 + β1xi y el valor
observado en Y es igual a yi, con lo cual el error de estimación en ese caso
vendría dado por ei = yi −
ˆ
...