Correlación Y Regresión
Enviado por Dulcedelimon • 6 de Julio de 2013 • 2.908 Palabras (12 Páginas) • 404 Visitas
Correlación y Regresión
9.1 Introducción
Si mediante procedimientos estadísticos, y basándonos en datos históricos, procedemos a predecir información futura, estamos realizando un ANÁLISIS DE REGRESIÓN.
Por ejemplo, con la información de las ventas, estacionarias de los tres últimos años, podemos PREDECIR las ventas futuras para los mismos períodos. Otro caso, de acuerdo con las notas obtenidas por un alumno en la enseñanza básica, podríamos PREDECIR los resultados académicos en la Universidad. En ambos casos estaríamos aplicando técnicas de REGRESIÓN.
Rápidamente puede advertir, el alumno, las dificultades del método. En el primer caso, la probabilidad de que la predicción sea buena, depende de que no hallan cambios en el escenario de donde se obtuvieron los datos históricos. Si para este año, tenemos un nuevo competidor en el mercado, todos los datos históricos no serán de la misma utilidad y los resultados serán inciertos. En el segundo caso, es sabido que los estudiantes tienen un marcado cambio en su pasaje de la Básica a la Universidad, las razones son múltiples, distinto grado de adaptación a los nuevos métodos de enseñanza, cambios biológicos importantes, motivaciones distintas, madurez intelectual, etc., Por lo tanto la predicción, en éste caso, hay que tomarla con reservas.
Ahora bien, aunque las dificultades existen, el método es matemáticamente muy bueno, y además los cambios del escenario también pueden de alguna manera considerarse, de manera que es una herramienta valiosa para Marketing, la Gestión de Compras, Control de Calidad, etc.
Luego de este ANÁLISIS DE REGRESIÓN, nos queda el problema de saber que tan bueno es el ajuste entre las distintas variables, esto significa conocer que tan bueno es el ajuste entre las variables.
Es decir, el ANÁLISIS DE CORRELACIÓN, nos dice con que precisión nos están informando la predicción.
Por ejemplo, un problema de correlación puede ser, ¿existe relación entre el consumo del tabaco y las muertes por afecciones cardíacas? ¿Entre la recepción de radio y la actividad de las manchas solares? ¿entre la belleza y la inteligencia?.
Por ejemplo, la correlación entre el consumo de tabaco y las muertes por afecciones cardíacas es elevada, esto quiere decir que, conociendo el consumo de tabaco, podemos hacer una buena predicción de la probabilidad de muerte temprana por afección cardíaca.
9.2 Análisis de Correlación
Con la finalidad de ilustrar la manera en que se procede a estudiar la relación entre dos variables, consideremos los datos de la siguiente Tabla, que consiste en las notas de 30 estudiantes en una prueba de lenguaje y una de ciencias.
La nota máxima era de 50 puntos
x y x y x y x y x y x y
34 37 28 30 39 36 35 35 33 31 34 32
37 37 30 34 33 29 29 36 32 31 36 38
36 34 32 30 30 29 34 37 33 36 34 31
32 34 41 37 33 40 35 39 37 40 38 40
32 33 38 40 43 42 36 40 36 42 31 29
La investigación de la relación entre las dos variables comienza, generalmente, con un intento de descubrir la forma aproximada de la relación, trazando los datos como puntos en el plano x,y
Esta gráfica recibe el nombre de DIAGRAMA DE DISPERSIÓN. Esto nos da una aproximación visual a la posible relación.
Una simple inspección visual, nos sugiere que existe una razonable relación entre los puntos, la nube sugiere una tendencia a crecer, es decir, a mejores notas en ciencias, mejores notas en lenguaje, y viceversa. Esta “sugerencia” es la CORRELACIÓN, y nuestro interés ahora es medir esa relación entre los valores.
Por otra parte, el aspecto general del diagrama de dispersión, es el de una línea recta. Para determinar la naturaleza de una tendencia, se busca cualquier propensión de los puntos de agruparse sobre ambos lados de alguna curva simple o bien a ambos lados de una línea recta. Para estas variables seria conveniente poder medir en alguna forma el grado en que ambas variables se encuentran relacionadas linealmente. Con el objeto de obtener esta medida, considérense las propiedades que seria conveniente que tuviera.
Una medida de la relación tendrá que ser independiente de la elección del origen para las variables. Esta propiedad puede obtenerse usando las desviaciones de las variables mismas. Esto es igual a la definición de la Desviación Típica.
Así, se usan las variables en lugar de las variables para formar la medida de relación deseada.
La notación denota el i-ésimo número de nuestra tabla.
También deberá ser independiente de la escala de medidas empleada para x e y.
Esta propiedad puede obtenerse dividiendo x entre cantidades que posean las mismas unidades que x e y. Esto se logra dividiendo por la DESVIACIÓN TÍPICA. Esto significa que lo reducimos a UNIDADES ESTANDARD o sea a la variable Z.
De esta forma describiremos ahora dos variables siendo,
Con estas variables podemos volver a representar el diagrama de dispersión. Este será ahora un DIAGRAMA DE DISPERSIÓN PARA VALORES NORMALIZADOS.
Las coordenadas se cortan en un punto central del diagrama, pero el perfil de la nube de puntos, continua siendo exactamente el mismo
Se puede ver, que la mayoría de los puntos se encuentran en los cuadrantes 1 y 3.
Este comportamiento sugiere una relación entre las variables, una medida simple de esta relación es la siguiente:
Los términos de la suma correspondiente a los puntos en los cuadrantes 1 y 3 serán siempre positivos mientras que los del cuadrante 2 y 4 serán negativos y restaran a la sumatoria.
Consecuentemente un valor positivo elevado tenderá pues a indicar una tendencia lineal pronunciada en el diagrama de dispersión. Esto sin embargo no es estrictamente cierto, ya que si el número de puntos se duplicara sin cambiar la naturaleza de la dispersión, el valor de la suma se casi duplicaría . Es pues, necesario dividir la suma entre n antes de usarla como medida de la relación. Existen razones teóricas para preferir n-1 en lugar de n .
El resultado es , esto es la medida deseada y se llama COEFICIENTE DE CORRELACIÓN. Este coeficiente se denota con la letra r. Si se reemplaza por las medidas originales la expresión es la siguiente:
El resultado de esta ecuación es un
...