ANALISIS DE REGRESION Y CORRELACION
Enviado por nelcasjim • 10 de Julio de 2017 • Trabajo • 1.646 Palabras (7 Páginas) • 223 Visitas
ANALISIS DE REGRESION Y CORRELACION
Busca relacionar estadisticamente variables del mundo real ( bi variable), mediante el estadístico de correlación ( coeficiente de correlacion :ρ) o el estadistico de regresion ( coeficiente de correlacion β).
Veamos un caso
Si tenemos las variables tiempo promedio de estadía (dias) vs el costo del alojamineto individual (soles), tomado de diez hostales de Tumbes.
Hospedaje | City Sun | La Flores | Isis | Florián | Amazonas | Las Gardenias | Cristina | Roma | Lourdes | Roma |
costo del alojamiento | 45 | 40 | 40 | 30 | 45 | 45 | 35 | 50 | 35 | 50 |
Tiempo prom.de estadía | 3 | 4 | 3 | 6 | 3 | 2 | 5 | 3 | 5 | 4 |
Si denotamos por “X” a la variable aleatoria costo de alojamiento individual; y por “Y” al tiempo promedio de estadía ,para estas variables nos interesa conocer su nivel de asociación ( correlación) , y si además de conocer la asociación tambien podemos establecer cierta relacion de dependencia entre ellas , por ejemplo
f(x)=y , donde “y” es una función de “x”,
El asunto ahora es encontrar el modelo ( función) que represente mejor a esta relación.
Por el momento vamos a suponer que este modelo es de forma aproximadamente lineal , o sea se relacionan ambas variables en forma de línea recta; y así hablaremos con mas propiedad de correacion lineal y de regresion lineal. ,
Correlación Lineal
La letra griega ρ (rho) se utiliza para denotar al coeficiente de correlación
Mas propiamente ρ+e
Sus valores estarán siempre en el intervalo siguiente
-1 ≤ ρ ≤ 1 .
En el caso de que ρ=0 se asume que las variables están incorrelacionadas, y si es 1 ó -1 se trata de una asociación perfecta , ya sea positiva o negativa.
Se estima a partir de una muestra aleatoria , siendo r el estiador de ρ, el que se calcula mediante la siguiente expresión:
[pic 1]
∑x | 415 | ∑ y2 | 158 |
∑y | 38 | ∑xy | 1520 |
∑ x2 | 17625 |
|
|
Para nuestro caso
Luego
r = - 0,77
Indica que entre estas variables hay una asociación lineal aproximada de 77%. en el sentido inverso ( el tiempo promedio de estadía aumenta cuando el costo disminuye y viceversa)
¿Será significativa esta correlación?
Para probarlo haremos una prueba de hipótesis asumiendo como hipótesis nula que es no significativa (ρ =0)
Procedimiento
Ho: ρ =0
α =5%
Función de Prueba
[pic 2]
[pic 3]
Reemplazando valores tenemos : [pic 4]
to = -3.4178645
En este caso deberíamos aceptar H0 si el valor crítico se encuentre entre -2,305 y 2,205, que son los valores de la distribución t para n-2=8 grados de libertad.
Vemos que to = -3.4178645 está fuera de estos valores, lo que indica que debemos rechazar Ho
Por lo tanto, la correación es significativa.
En otras palabras hay una asociación significativa entre las variables “tiempo promedio de estadía vs costo del alojamiento”.
Un intevalo de confianza para ρ sería
P( r- tn-2 Sr < ρ < r+ tn-2 Sr) = 1-α
REGRESION LINEAL
La pregunta ahora sería
¿Existe dependencia de una variable con respecto a al otra?...¿El tiempo promedio de estadía depende del costo del alojamiento individual?
Con un criterio lógico, partimos de presumir que si hay dependencia. Y si hay dependencia podemos hablar de una función
Y=f(X) + e
ó
Tiempo promedio de estadía = f( costo del alojaminento) + e
Donde e es el error aleatorio puesto que esta función se define para la población , por tanto sus valores se estiman.
Decimos que se trata de una regresión lineal cuando suponemos que esta función tiene forma de línea recta, y de ser así puede escribirse usando la ecuación punto pendiente, de la siguiente manera..
Y = α+ βX + eij
Donde
α : viene a ser el valor constante , o sea el valor de y cuando x es cero, y
β : es el coeficiente de regresión o sea la razón de cambio o pendiente de la recta.
Cuando tomamos una muestra de tamaño n , podemos estimar la ecuación mediante
Y= a +bx
Donde
a : es el estimador de α y
...