Regresión Lineal
Enviado por urielvr • 1 de Septiembre de 2014 • 1.509 Palabras (7 Páginas) • 159 Visitas
INTRODUCCIÓN
En muchas situaciones de la vida real se presentan problemas en los cuales existe una relación entre dos o más variables y se hace necesario encontrar la naturaleza de dicha relación, así como un posible método que facilite la predicción de una medida basándonos en el conocimiento de la otra. La regresión es una potente herramienta estadística que sirve de gran ayuda cuando nuestro objetivo es el de intentar reconocer si existe o no relación entre dos variables, su naturaleza, y sobre todo, cuando se hace necesario predecir con cierta exactitud el valor que tomará una de las variables sabido el valor de la otra. Este trabajo ilustra como ejemplo una situación hipotética, susceptible de ser real, en el marco de una actividad industrial que parte del acero (o cualquier otro metal) como materia prima. En ella se conoce la dureza de un metal suministrado por un proveedor y el valor que adquiere el mismo tras ser sometido a un tratamiento térmico (como pueda ser el templado), de modo que se pretende analizar, mediante el modelo de regresión, la relación existente entre ellos y poder pronosticar en la medida de lo posible cómo será el comportamiento de los materiales tras aplicarles el proceso de templado (o viceversa). Los beneficios que podría aportar el conocimiento de dicha relación podrían ser innumerables, ya que permitiría por ejemplo exigir al distribuidor unos niveles mínimos de dureza en los lotes suministrados por el mismo, con el fin de garantizar que tras el templado, nuestro producto elaborado cumplirá con los criterios admisibles de dureza exigidos, o por ejemplo elegir, en función de la dureza previa, los parámetros de templado más adecuados con el fin de ahorrar el máximo de energía y tiempo (y por consiguiente, ahorro de costes y mano de obra) sin menoscabo de garantizar una dureza posterior suficiente, etc. En resumen, se propone con el presente la resolución de un problema de regresión. Para esto se hará uso de la técnica de Regresión y Correlación, las cuales resultan una herramienta muy útil a la hora de analizar el comportamiento de dos o más variables relacionadas.
DEFINICIONES PREVIAS
Los Individuos son los entes que son objeto de estudio
-
Las Variables ( x, y, …) son las características de los individuos que son objeto de estudio. En caso que sean dos características, el conjunto de datos obtenidos (distribución) se denomina distribución bivariante
-
Los Valores ( xi , yi , …) son los datos ( xi ) o pareja de datos ( xi, yi ) numéricos que toman la variable ( x ) o pareja de variables ( x, y ) obtenidos en cada uno de los experimentos ( i, j, k, …).
-
La Nube de puntos o Diagrama de dispersión es el gráfico que se obtiene al representar los pares de valores de la distribución bivariante en el plano cartesiano, de modo que cada par de valores de cada individuo queda representado en un gráfico binomial.
-
La Media Aritmética ( x ) es el promedio, y se calcula como
x= -
∑x
i =1
n
i
N
; siendo N el número total de casos
2 La Varianza Muestral ( S x ) es una medida de dispersión que sirve para medir el grado de
dispersión de los datos alrededor de las medidas de centralización o en general.
2 Sx =
∑ ( xi − x ) 2 ⋅ ni
i =1
n
N
=
∑ xi2 ⋅ ni
i =1
n
N
− (x ) =
2
∑x
i =1
N
2 i
N
− (x )
2
-
La Desviación Típica Muestral ( S x ) es la raíz cuadrada de la Varianza Muestral:
2 Sx = Sx
-
La Covarianza Muestral ( Sxy ) es una medida alternativa para evaluar el grado de asociación lineal entre dos variables
N
S xy = -
∑(x
i =1
i
− x ) ⋅ ( yi − y ) N
El coeficiente de correlación lineal de Pearson (r), es el cociente entre la covarianza y el producto de la desviación típica muestral de cada variable:
r =
Sxy S xS y
2
MARCO TEÓRICO
Hay ocasiones en las que es suficiente representar los datos en un diagrama de
dispersión para detectar si existe o no correlación entre dos características de un
conjunto de individuos y resulta fácil observar la relación que pueda existir entre ambas variables, pero la representación gráfica no aporta datos concretos sobre ese tipo de relación, y en ocasiones es difícil concluir resultados concretos. Es entonces cuando se recurre al análisis de regresión, tal como describiremos más adelante. Según sea la geometría que presente la dispersión de los datos en el plano cartesiano (nube de puntos), las relaciones pueden ser de varios tipos: Lineal ( y=ax+b ) Logarítmica ( y= log x ) Polinómica ( y=a0 + a1 x+ a2 x2+…+ an xn) Potencial ( y=a•xb ) Exponencial ( y=a•bx ) Hiperbólica ( y=a+ (b/x) )
Etc.
donde “ y ” es la variable dependiente, explicada ó exógena, y “ x ” es la variable
independiente, explicativa ó endógena.
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva, es decir, podremos observar si existe o no Correlación. En este ámbito nos limitaremos a comprobar si los puntos se distribuyen alrededor de una línea recta o recta de regresión, es decir, a comprobar si existe correlación lineal. Esto nos permitirá conocer si existe o no relación entre dichas variables, pero dicha relación puede ser muy fuerte, no tan fuerte,
...