La correlación estadística
Enviado por arleniseh • 2 de Junio de 2015 • 1.847 Palabras (8 Páginas) • 293 Visitas
1. La correlación estadística determina la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
Coeficiente de correlación
El coeficiente de correlación lineal se expresa mediante la letra r.
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre menos −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
Ejercicios
Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Estatura (X) Pesos (Y)
186 85
189 85
190 86
192 90
193 87
193 91
198 93
201 103
203 100
205 101
Calcular el coeficiente de correlación.
2. El coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo.
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existen varios resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde este valor puede tomar valores negativos.
.
Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue
o bien
Como scE < scG, se verifica que 0 < R2 < 1.
El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.
Por otra parte, teniendo en cuenta que i - = 1 , se obtiene
Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relación lineal que hay entre ambas variables es el coeficiente de correlación definido por
Donde representa la desviación típica de la variable X (análogamente para ). Un buen estimador de este parámetro es el coeficiente de correlación lineal muestral (o coeficiente de correlación de Pearson), definido por
Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresión. Evidentemente, existe una estrecha relación entre r y 1 aunque estos estimadores proporcionan diferentes interpretaciones del modelo:
* r es una medida de la relación lineal entre las variables X e Y.
* 1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad en la variable X.
De las definiciones anteriores se deduce que:
Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el modelo de regresión lineal es significativo. Desafortunadamente la distribución de r es complicada pero para tamaños muestrales mayores que 30 su desviación típica es 1/ , y puede utilizarse la siguiente regla
En la interpretación del coeficiente de correlación se debe tener en cuenta que:
• r = ±1 indica una relación lineal exacta positiva (creciente) o negativa (decreciente),
• r = 0 indica la no existencia de relación lineal estocástica, pero no indica independencia de las variables ya que puede existir una relación no lineal incluso exacta,
• valores intermedios de r (0 < r < 1 ó -1 < r < 0) indican la existencia de una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor de r.
3. El diagrama de dispersión es una herramienta de análisis la cual representa en forma gráfica la relación existente entre dos variables pudiendo observar la dependencia o influencia que tiene una variable sobre la otra, permitiendo visualizar de forma gráfica su posible correlación. Conocidos también como gráficos XY es una herramienta de análisis utilizado generalmente en el área de la gestión de calidad con el objeto de encontrar las relaciones de las causas que producen un efecto.
Tal y como hemos citado en la definición anterior el diagrama de dispersión nos indica la relación existente entre dos variables, y por lo tanto si traducimos estas dos variables a grupos de datos, podemos relacionar grupos de datos con el objeto de verificar o averiguar que existe una relación entre
...