ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

El concepto acerca de los dos tipos de análisis: regresión y correlación


Enviado por   •  24 de Febrero de 2014  •  Tesinas  •  3.642 Palabras (15 Páginas)  •  578 Visitas

Página 1 de 15

Universidad Nacional Experimental

De los Llanos Occidentales

“Ezequiel Zamora”

UNELLEX

Núcleo Guasdualito

Febrero, 2014

ÍNDICE

Pág.

Introducción

Análisis de Regresión ------------------------------------------------------------ 4

Análisis de Correlación----------------------------------------------------------- 4

Uso de los Diagramas de Dispersión en estos Análisis ----------------- 5

Análisis de Regresión Lineal Simple ------------------------------------------ 6

- Modelo ---------------------------------------------------------------------- 7

- Parámetros de Regresión ---------------------------------------------- 8

- Métodos de Mínimos Cuadrados ------------------------------------- 9

- Ecuaciones Normales -------------------------------------------------- 11

- Estimación de Parámetros --------------------------------------------- 12

Varianza de la Regresión ------------------------------------------------------- 15

Desviación Estándar de la Regresión o Error Estándar de Estimación

------------------------------------------------------------------------------------------ 17

Coeficiente de Correlación de Pearson y Coeficiente de Determinación

------------------------------------------------------------------------------------------ 18

Tablas de Contingencia --------------------------------------------------------- 20

Coeficiente de Contingencia --------------------------------------------------- 21

Coeficiente de Correlación de Rangos de Spearman ------------------- 22

Anexos

Conclusión ------------------------------------------------------------------------ 29

Referencia Bibliográfica ------------------------------------------------------ 30

INTRODUCCIÓN

En general, cuando se habla de medir relaciones entre dos o más variables, se habla de dos tipos de análisis: regresión y correlación. El análisis de la regresión se utiliza para establecer las relaciones entre dos variables, habitualmente en el contexto de un estudio prospectivo o experimental. El análisis de la correlación, sin embargo, pretende averiguar la intensidad o fortaleza de esta relación, la proximidad de los puntos a la línea (recta) de regresión y acostumbra a hacerse en el contexto de un estudio retrospectivo u observacional.

El presente trabajo tiene como finalidad, dar a conocer el Análisis de Regresión y Correlación, desde un punto de vista estadístico, enfocando el estudio primordialmente en definiciones básicas; de tal modo, que se pueda establecer su relación con el Diagrama de Dispersión. Por consiguiente, se explica el Análisis de Regresión Lineal Simple, su modelo, parámetros de regresión, métodos de mínimos cuadrados, ecuaciones normales y estimación de parámetros. Por último, se definen los diferentes coeficientes que poseen intima relación con los tipos de análisis mencionados con anterioridad.

ANÁLISIS DE REGRESIÓN

Es un modelo estadístico de pronóstico, esto se refiere a describir y evaluar la relación entre una variable dada (generalmente llamada la variable dependiente o relacionada) y una o más variables (generalmente llamadas variables independientes). Se tiene que este análisis, es una importante herramienta estadística para medir las relaciones entre variables. Está vinculado estrechamente al análisis de correlación, pues mientras uno mide la fuerza con que se relacionan las variables, el otro trata de encontrar una ecuación que describa dicha relación.

El objetivo principal del análisis de regresión consiste entonces en encontrar una función matemática que exprese las relaciones que ligan a un conjunto de variables. Cuando se trata de obtener una ecuación lineal que describa el comportamiento de una variable en función de otra, nos encontramos ante una regresión lineal.

Por lo tanto, el análisis de regresión es una herramienta estadística que permite analizar y predecir o estimar observaciones futuras de dos o más variables relacionadas entre sí, es decir una herramienta útil para la planeación.

ANÁLISIS DE CORRELACIÓN

Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables, estas pueden ser.

- Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"

- Variable Independiente.- es la o las variables que proporcionan las bases para el calculo. Cuya representación es: “X”. Esta o estas variables suelen ocurrir antes en el tiempo que la variable dependiente.

El análisis de la correlación implica los siguientes pasos:

a) El estudio descriptivo mediante el “gráfico de dispersión”;

b) La estimación del coeficiente de correlación (incluyendo su intervalo de confianza);

c) La valoración de este coeficiente de correlación (signo y magnitud) y la significación estadística;

d) La interpretación del coeficiente de correlación evaluando el coeficiente de determinación.

Por consiguiente, se menciona que el análisis de la correlación tiene unas aplicaciones concretas pero tiende a ser sobreutilizado y malinterpretado, especialmente quizás porque se asocia una alta correlación con causalidad (y viceversa).

USO DE LOS DIAGRAMAS DE DISPERSIÓN EN ESTOS ANÁLISIS

Se menciona, que para poder visualizar el grado de relación que existe entre las variables, como primer paso en el análisis de regresión, es conveniente elaborar un diagrama de dispersión, que es una representación en un sistema de coordenadas cartesianas de los datos numéricos observados. En el diagrama resultante, en el eje X se miden las millas-vehículo recorridas, y en el eje Y se mide el costo de operación mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehículo y costos de operación) que corresponde a un mes determinado. Como era de esperarse, existe una relación positiva entre estas variables: una mayor cantidad de millas-vehículo recorridas corresponde un mayor nivel de costos de operación.

Por otro lado, el análisis de correlación, es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión. Por tanto, el diagrama de dispersión, es aquel grafico que representa la relación entre dos variables.

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

a (ordenada en el origen, constante)

b (pendiente de la recta)

A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.

- Modelo:

Se tiene, que muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X,

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente. El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta y la variable regresora , a partir de una muestra i = 1n, que sigue el siguiente modelo:

Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial.

donde t = , t = , t = , t = .

- Parámetros de Regresión:

El coeficiente de correlación lineal permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente fórmula: y = a + b • x

Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b":

El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.

El parámetro "b" determina la pendiente de la recta, su grado de inclinación.

La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos.

El parámetro "b" viene determinado por la siguiente fórmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

El parámetro "a" viene determinado por: a = ym - ( b • x m )

- Métodos de Mínimos Cuadrados:

El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta resultante presenta dos características importantes:

1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste

2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría una suma menor de las desviaciones elevadas al cuadrado.

El procedimiento consiste entonces en minimizar los residuos al cuadrado. Lo mencionado con anterioridad, se muestra de la siguiente forma:

Re emplazando nos queda

La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar:

Se toman las derivadas parciales de “G” respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b.

Se deriva parcialmente la ecuación respecto de “a”

Seguidamente, se deriva parcialmente la ecuación respecto de “b”

De tal modo, que los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante.

- Ecuaciones Normales:

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

Calculando y . Para esto se buscan dichos parámetros que minimicen

Derivando respecto a y e igualando a cero, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:

- Estimación de Parámetros:

En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión, 0 y 1; y la varianza de la distribución normal, 2.

El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos, siendo los más utilizados el método de máxima verosimilitud y el método de mínimos cuadrados.

Método de Máxima Verosimilitud: Conocida una muestra de tamaño n, , de la hipótesis de normalidad se sigue que la densidad condicionada en yi es:

Y, por tanto, la función de densidad conjunta de la muestra es,

Una vez tomada la muestra y, por tanto, que se conocen los valores de i = 1n, se define la función de verosimilitud asociada a la muestra como sigue

Esta función (con variables 0, 1 y 2) mide la verosimilitud de los posibles valores de estas variables en base a la muestra recogida. El método de máxima verosimilitud se basa en calcular los valores de 0, 1 y 2 que maximizan la función y, por tanto, hacen máxima la probabilidad de ocurrencia de la muestra obtenida. Por ser la función de verosimilitud una función creciente, el problema es más sencillo si se toman logaritmos y se maximiza la función resultante, denominada función soporte.

Método de Mínimos Cuadrados: A partir de los estimadores: 0 y 1, se pueden calcular las predicciones para las observaciones muestrales, dadas por,

O, en forma matricial,

Donde t = . Ahora se definen los residuos como

ei = yi - i, i = 1,2,...,n,

Residuo = Valor observado -Valor previsto,

En forma matricial,

Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los cuadrados de los residuos, esto es, minimizando la siguiente función,

Derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas ecuaciones canónicas,

De donde se deducen los siguientes estimadores mínimo cuadráticos de los parámetros de la recta de regresión

Se observa que los estimadores por máxima verosimilitud y los estimadores mínimos cuadráticos de 0 y 1 son iguales. Esto es debido a la hipótesis de normalidad y, en adelante, se denota 0 = 0,MV = 0,mc y 1 = 1,MV = 1,mc.

VARIANZA DE LA REGRESIÓN

Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de “Y” y si la hay, no se estima. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación.

Ejemplo:

Se quiere investigar el efecto de la ingestión masiva de vitamina C sobre el hígado de las cobayas.

Se eligen dos grupos de 4 cobayas, a uno se le administra y al otro no.

Se sacrifica a los animales y se mide la concentración de lípidos en el hígado.

Grupo control (=0) Tratado (=1)

23,8 13,8

15,4 9,3

21,7 17,2

18,0 15,1

¿Hay diferencia entre ambos grupos?

Se podría plantear un contraste sobre medias con la “t de Student”.

También se puede plantear un modelo de regresión entre la variable grupo (X=0 control y X=1 tratado) y la variable lípido (Y)

DESVIACIÓN ESTÁNDAR DE LA REGRESIÓN O ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de regresión. Fórmulas usadas para calcular el error estándar:

El error estándar permite deducir la confiabilidad de la ecuación de regresión que hemos desarrollado. Este error se simboliza Se y es similar a la desviación estándar en cuanto a que ambas son medidas de dispersión.

El error estándar de estimación permite medir la variabilidad o dispersión de los valores de (y) los cuales encontramos en la muestra, alrededor de la línea recta de regresión. Por tanto, se calcula con la finalidad de medir la confiabilidad de la ecuación de la estimación.

COEFICIENTE DE CORRELACIÓN DE PEARSON Y COEFICIENTE DE DETERMINACIÓN

Desde un punto de vista estadístico, el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

El Coeficiente de Pearson, también llamado “coeficiente de correlación (r)”, es una medida de la intensidad de la relación entre dos variables. Requiere datos con escala de intervalo o de razón (variables).

Por tanto, puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00 indican correlación fuerte y perfecta. Valores cercanos a 0.0 indican correlación débil. Valores negativos indican una relación inversa y valores positivos indican una relación directa.

Por otro lado, el coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.

Este coeficiente, es también llamado “El coeficiente de determinación, r2”, en donde la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X.

Ejemplo:

Dan Ireland, presidente de la sociedad de alumnos de la Universidad de Toledo, está preocupado por el costo de los libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librería. Decide estudiar la relación entre el número de páginas del libro y el costo. Calcule el coeficiente de correlación.

r =.614 (verifique)

Pruebe la hipótesis de que no existe correlación en la población. Use.02 de nivel de significancia.

Paso 1: H0 la correlación en la población es cero. H1 la correlación en la población es distinta de cero.

Paso 2: H0 se rechaza si t>3.143 o si t<-3.143, gl = 6. El estadístico de prueba es t = 1.9055, calculado por

Con (n - 2) grados de libertad.

Paso 3: H0 no se rechaza.

TABLAS DE CONTINGENCIA

Desde un punto de vista estadístico, las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).

Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo:

Diestro Zurdo TOTAL

Hombre 43 9 52

Mujer 44 4 48

TOTAL 87 13 100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total.

Es de tenerse presente, que la tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.

El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por

φ = √(χ2 / N)

Donde χ2 se deriva del test de Pearson, y N es el total de observaciones

COEFICIENTE DE CONTINGENCIA

Esta prueba estadística es una alternativa adecuada cuando se desea conocer y medir la asociación o correlación y el tipo de escala de las mediciones es nominal. Cabe señalar que la aplicación y el cálculo son muy sencillos, por lo que el coeficiente de contingencia se presenta como un modelo ideal; sin embargo, existen algunas limitaciones.

El coeficiente de contingencias se rige por las mismas reglas de la correlación y las mediciones de índice correspondiente de + 1 a - 1, pasando por el cero, donde este último significa no correlación entre las variables estudiadas y los dos primeros la correlación máxima. En esta prueba estadística existe el cero, pero no alcanza la unidad, limitante que desfavorece la prueba, pues el máximo de asociación corresponde al número de categorías de las variables, definido como sigue:

Coeficiente de correlación máximo:

Donde K es el número de categorías o hileras.

Por otra parte, el coeficiente de contingencia, al calcularse, se ajusta a los requisitos de la ji cuadrada de Pearson, por lo que la fórmula para determinarlo es la siguiente:

Donde:

C = coeficiente de contingencia.

X2 = valor de X2 de Pearson calculada previamente.

N = tamaño o número de la muestra.

Pasos.

1. Calcular el valor de X2 de Pearson.

2. Aplicar la fórmula estadística.

3. Decidir si se acepta o rechaza la hipótesis.

COEFICIENTE DE CORRELACIÓN DE RANGOS DE SPEARMAN

Desde un punto de vista estadístico, cabe mencionar este coeficiente, es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión:

Donde “D” es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia. Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Ejemplo: Teniendo presente, que los datos brutos usados en este ejemplo se ven debajo.

CI Horas de TV a la semana

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Después, se crean dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Después se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2". Esta última es sólo la columna "d" al cuadrado. Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2

86 0 1 1 0 0

97 20 2 6 4 16

99 28 3 8 5 25

100 50 4.5 10 5.5 30.25

100 28 4.5 8 3.5 12.25

103 28 6 8 2 4

106 7 7 2.5 4.5 20.25

110 17 8 5 3 9

113 7 9.5 2.5 7 49

113 12 9.5 4 5.5 30.25

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

De lo que resulta ρ = − 0.187878787879.

DIAGRAMA DE DISPERSIÓN

CONCLUSIÓN

En definitiva, el Análisis de Regresión y correlación es una metodología estadística que se utiliza para predecir hechos o eventos y también para pronosticarlos. Con respecto al Análisis de Regresión lo que se hace es evaluar la contribución de una o más variables con respecto de otra, es decir éste análisis permite evaluar que tan bien una o más variables (independientes) ayudan a explicar a otra (dependiente). Por otro lado, el análisis de correlación hace lo mismo pero no distingue las independientes de la dependiente.

En primera instancia, se deduce que el análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin embargo, la utilidad de esta técnica trasciende disciplinas y resulta clave para el sociólogo-investigador al ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien, determinar la influencia que múltiples variables ejercen sobre otra. La utilidad del análisis de regresión en sociología es amplia, siendo aplicable al estudio de los mercados, del comportamiento desviado, la ciencia política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre estos temas).

Por otro lado, el análisis de correlación, es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. Teniendo presente, que el principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

REFERENCIA BIBLIOGRÁFICA

Paginas Consultadas:

- http://www.monografias.com/trabajos14/estadistica/estadistica.shtml

- http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_12.htm

- http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

- http://www.hrc.es/bioest/Reglin_6.html

- http://e-stadistica.bio.ucm.es/mod_regresion/regresion_3.html

- http://dm.udc.es/asignaturas/estadistica2/sec6_3.html

...

Descargar como  txt (24.6 Kb)  
Leer 14 páginas más »
txt