REGRESIÓN Y CORRELACIÓN LINEAL
Enviado por aritoibarra • 2 de Septiembre de 2014 • 2.000 Palabras (8 Páginas) • 706 Visitas
6.1. Introducción
Como se ha expuesto en el tema anterior, cuando se estudian dos características simultáneamente sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal de la regresión es descubrir el modo en que se relacionan.
Por ejemplo, en una tabla de pesos y alturas de 10 personas
Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58
se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el sentido de que pesos grandes vienen explicados por valores grandes de altura (en general).
De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE DEPENDIENTE o EXPLICADA.
En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber qué variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le supondremos menor altura y a una persona de poca altura le supondremos un peso más bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y por igual. Un ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su nota de examen. En este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y una nota buena nos indicará que tal vez el alumno ha estudiado mucho. Sin embargo, a la hora de determinar qué variable explica a la otra, está claro que el “tiempo de estudio” explica la “nota de examen” y no al contrario, pues el alumno primero estudia un tiempo que puede decidir libremente, y luego obtiene una nota que ya no decide arbitrariamente. Por tanto,
X = Tiempo de estudio (variable explicativa o independiente)
Y = Nota de examen (variable explicada o dependiente)
El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos variables es la relación LINEAL, es decir que
Y = a + b X
(es la ecuación de una recta) donde a y b son números, que es el caso al que nos vamos a limitar.
Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre variables NO es EXACTA (basta con que un dato de las X tenga dos datos distintos de Y asociados, como en el ejemplo de las Alturas y Pesos, que a 180 cm. de altura le correspondía un individuo de 82 kg. y otro de 78 kg.).
6.2. Recta de regresión
Un dibujo de la nube de puntos o diagrama de dispersión de la distribución nos puede indicar si es razonable pensar en que puede haber una buena correlación lineal entre las dos variables.
En los diagramas de arriba se puede observar cómo en el de la izquierda, una línea recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos alejados de ella. Así pues, el hacer un análisis de regresión lineal sólo estaría justificado en el ejemplo de la izquierda.
Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE REGRESIÓN DE Y SOBRE X es aquella que minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente.
Sea y = a + b x una recta arbitraria. Para cada dato de X, es decir, para cada xi de la tabla tenemos emparejado un dato de Y llamada yi, pero también tenemos el valor de sustituir la xi en la ecuación de la recta, al que llamaremos y*i.
Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al elegir y*i en lugar del verdadero yi .Se denota con ei y vale
ei = yi - y*i
Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los errores.
Usando técnicas de derivación se llega a que, de todas las rectas y = a + b x, con a y b números arbitrarios, aquella que minimiza el error elegido es aquella que cumple
y
Así pues, sustituyendo en y = a + b x, la ecuación de la recta de regresión de Y sobre X es
y recolocando los términos se puede escribir de la forma
Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o explicada, la recta de regresión que se necesita es la que minimiza errores de la X. Se llama RECTA DE REGRESIÓN DE X SOBRE Y y se calcula fácilmente permutando los puestos de x e y, obteniéndose
NOTA: La recta de regresión de X sobre Y no se calcula a partir de la recta de regresión de Y sobre X, y luego despejando la x.
La pendiente de la recta de regresión de Y sobre X es y la de X sobre Y es . Dado que las varianzas son positivas por definición, el signo de las pendientes será el mismo que el de la covarianza, y así, las rectas serán ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa, respectivamente (ver tema anterior, apartado 5.6).
6.3. Calidad del ajuste. Coeficiente de determinación
Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el estudio de la regresión lineal entre las variables. Normalmente, la variable explicativa no explica (valga la redundancia) al 100% los resultados que se observan en la variable explicada.
El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos da
...