REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Enviado por Lospajoy • 3 de Julio de 2014 • 3.736 Palabras (15 Páginas) • 450 Visitas
Clase 5
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
CONCEPTO:
En muchas ocasiones surge la necesidad de estudiar la relación que existe entre dos variables. Por ejemplo, puede interesar la relación entre peso y estatura, presión sanguínea y edad, etc. La naturaleza e intensidad de relaciones entre variables como las descriptas anteriormente son estudiadas por medio de los análisis de regresión y correlación.
El análisis de regresión es útil para estudiar la forma probable de las relaciones entre las variables, y su objetivo final es predecir o estimar el valor de una variable que corresponde al valor dado de otra variable.
El análisis de correlación por otro lado estudia la intensidad de la relación entre variables. En este caso se está interesado en el grado de correlación entre las variables.
Ambos análisis están muy relacionados.
ANÁLISIS DE CORRELACIÓN:
En este caso el objetivo es únicamente obtener una medida de la intensidad de la relación entre dos variables. El coeficiente utilizado para indicar esta intensidad es el coeficiente de correlación lineal de Pearson.
Antes de desarrollar este coeficiente se va a desarrollar el concepto de covarianza que está muy relacionado con el mismo.
Covarianza:
Esta representa una medida de variabilidad conjunta entre dos variables. Anteriormente se desarrolló el concepto de varianza como medida de variabilidad de una sola variable.
La covarianza (o covariancia) se define como:
donde:
Si el resultado es positivo indica que al aumentar el valor de una variable también aumenta el de la otra o al disminuir el de una, disminuye el de la otra. Por el contrario si la covarianza es negativa indica comportamientos opuestos de las variables estudiadas.
Coeficiente de correlación lineal de Pearson (r):
Como se estableció previamente este coeficiente se utiliza para indicar el grado de relación lineal que existe entre las variables x e y.
Se lo define como:
donde
O como fórmula de cálculo se lo puede definir de la siguiente manera:
Las sumatorias en la fórmula anterior se realizan sobre las n observaciones.
Los valores de este coeficiente se encuentran entre –1 y 1, esto es
La interpretación de estos valores es la siguiente:
Si r = 1 indica que entre x e y existe una relación lineal positiva perfecta. Esto es, x e y se hallan formando una recta ascendente
Si r = -1 indica que entre x e y existe una relación lineal negativa perfecta. Esto es, x e y se hallan formando una recta descendente
Si r = 0 indica que entre x e y no existe una relación lineal.
Por lo tanto a medida que el valor del coeficiente se acerca a 1 indica que ambas variables están fuertemente correlacionadas y de manera positiva o sea que ambas variables varían en el mismo sentido, al aumentar una aumenta la otra o al disminuir una disminuye la otra. Cuando el coeficiente se acerca a –1 indica que ambas variables están fuertemente correlacionadas y de manera negativa o sea que ambas variables varían en sentido opuesto, al aumentar una disminuye la otra.
Por otro lado si el valor de r es próximo a 0 indica ausencia de correlación lineal entre ambas variables, puede existir otro tipo de relación entre las mismas (por ejemplo curvilínea). Para el estudio de la relación entre dos variables es importante comenzar con un diagrama de dispersión de los datos que permita observar la posible relación entre las variables.
Correlación positiva Correlación negativa
Ausencia de correlación
La observación de la distribución de los puntos en el gráfico es de gran ayuda para establecer la naturaleza de la correlación. Por ello es aconsejable en este tipo de estudios realizar en primer término gráficos de dispersión.
Ejemplo
Se obtuvieron lecturas de la presión sanguínea mediante dos métodos distintos en 10 pacientes con hipertensión arterial. Las lecturas sistólicas obtenidas mediante los dos métodos se muestran en la siguiente tabla:
(ejemplo modificado de “Bioestadística: Base para el análisis de ciencias de la salud” de W. Daniel)
Paciente Método I(x) Método II(y)
1 130 132
2 140 146
3 150 158
4 160 162
5 178 174
6 168 172
7 174 178
8 186 188
9 196 210
10 210 216
Se realiza un gráfico de dispersión de los datos.
Representación gráfica
Se observa a través de este gráfico una fuerte correlación positiva. A continuación se realizan los cálculos intermedios para la obtención del coeficiente de correlación lineal de Pearson.
x y X2 Y2 xy
130.00 132.00 16900.00 17424.00 17160.00
140.00 146.00 19600.00 21316.00 20440.00
150.00 158.00 22500.00 24964.00 23700.00
160.00 162.00 25600.00 26244.00 25920.00
178.00 174.00 31684.00 30276.00 30972.00
168.00 172.00 28224.00 29584.00 28896.00
174.00 178.00 30276.00 31684.00 30972.00
186.00 188.00 34596.00 35344.00 34968.00
196.00 210.00 38416.00 44100.00 41160.00
210.00 216.00 44100.00 46656.00 45360.00
1692 1736 291896 307592 299548
Este valor indica una buena correlación positiva, lo cual se puede observar ya en el gráfico de dispersión. Existen en análisis estadísticos más avanzados maneras de probar (a través de pruebas de hipótesis) la significación de este coeficiente.
ANÁLISIS DE REGRESION:
El objetivo de este tipo de análisis es describir la forma o naturaleza de la relación entre dos variables mediante una ecuación matemática.
Para poder desarrollar este tipo de análisis
...