Regresión Lineal Y Correlacion
Enviado por estrella1992 • 2 de Diciembre de 2013 • 3.714 Palabras (15 Páginas) • 1.026 Visitas
INTRODUCCION
El objetivo de este trabajo es analizar el grado de la relación existente entre variables utilizando modelos matemáticos y representaciones gráficas. Así pues, para representar la relación entre dos o más variables desarrollaremos una ecuación que permitirá estimar una variable en función de la otra.
En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.
Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple. Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk, cuáles son las que más influyen en la variable dependiente Y.
INDICE
2.1 Modelo de regresión múltiple ……………………………………….………………5
2.2 Estimación de la ecuación de regresión múltiple……………….………………6-7
2.3 Matriz de varianza-covarianza ………………………………………………..….8-9
2.4 Pruebas de hipótesis para los coeficientes de regresión……….…………. 10-11
2.5 Correlación lineal múltiple ………………………………………………..…….11-14
2.6 Aplicaciones ……………………………………………………………………..15-20
Conclusión………………………………………………………………………………..21
2.1 Modelo de regresión múltiple
2.2 Estimación de la ecuación de regresión múltiple
2.3 Matriz de varianza-covarianza
2.4 Pruebas de hipótesis para los coeficientes de regresión.
2.5 Correlación lineal múltiple
2.6 Aplicaciones
2.1 Modelo de regresión múltiple
La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.
Muchos problemas de regresión múltiple involucran más de una variable regresiva. Tales modelos se denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas más ampliamente utilizada. Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicos genéticos, etc.
Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad.
La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es
a0: media de Y cuando todas las Xi son cero (cuando no tiene sentidoXi=0, p.e. edad, se interpreta como la media de Y que no depende de lasXi).
ai: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II.
La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de s2 es
que se distribuye como una c2 con n - (k+1) grados de libertad.
Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:
1. El número de observaciones (n), es menor o igual que el número de variables independientes (k).
2. Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).
2.2 Estimación de la ecuación de regresión múltiple
Usando la teoría resumida anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.
y los contrastes de hipótesis
H0: aI =0
H1: ai ¹ 0
se realizan con el estadístico
Ejemplo 5
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás variables.
Tabla de datos
Paciente Colesterol Edad Grasas Ejercicio.
1 350 80 35 0
2 190 30 40 2
3 263 42 15 1
4 320 50 20 0
5 280 45 35 0
6 198 35 50 1
7 232 18 70 1
8 320 32 40 0
9 303 49 45 0
10 220 35 35 0
11 405 50 50 0
12 190 20 15 2
13 230 40 20 1
...