APLICACIÓN DE REGRESION LINEAL MULTIPLE EN EL ARMADO DE UN VEHICULO
Enviado por mike9110 • 24 de Junio de 2012 • 1.953 Palabras (8 Páginas) • 1.394 Visitas
INTRODUCCION
El análisis de regresión se utiliza para explicar una determinada variable, digamos Y,
en función de una variable X, o bien en función de varias variables X1, X2, ..., Xk.
En el primer caso se tratará de regresión univariante, y en el segundo caso, de regresión
multivariante. El modelo de explicación en ambos casos es lineal, esto es, se asume
que la dependencia entre Y y las variable explicativa X adopta la forma:
Y = a + b X + error
O, en el caso multivariante:
Y = a + b1 X1 + b2 X2 + ... + bk Xk.+ error
El término de error aparece porque cada vez que observamos una X, no siempre
observaremos la misma Y. Por ejemplo, si X es la estatura de una persona, e Y el
peso, cada vez que observemos una estatura, no siempre obtendremos el mismo peso en Y.
El siguiente trabajo muestra la relación que tiene la velocidad de un vehiculo con el consumo de gasolina.
Se presentan diferentes automóviles y sus características.
MARCO TEORICO
Regresión lineal simple.
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Di variada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y.
ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE
En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:
Y = a + b X + e
Donde:
“a” es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.
“b” es el coeficiente de regresión poblacional (pendiente de la línea recta).
“e” es el error.
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.
Regresión lineal múltiple.
Y aunque es evidente que lo más económico y rápido para modelar el comportamiento de una variable Y es usar una sola variable pre editora y usar un modelo lineal. Pero algunas veces es bastante obvio de que el comportamiento de Y es imposible que sea explicada en gran medida por solo una variable.
Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un examen, teniendo en cuenta solamente el número de horas que se preparó para ella. Claramente, el promedio académico del estudiante, la carga académica que lleva, el año de estudios, son tres de las muchas otras variables que pueden explicar su rendimiento. Tratar de explicar el comportamiento de Y con más de una variable pre editora usando una funcional lineal es el objetivo de regresión lineal múltiple.
Frecuentemente, uno no es muy familiar con las variables que están en juego y basa sus conclusiones solamente en cálculos obtenidos con los datos tomados.
Es decir, si ocurre que el coeficiente de determinación R 2 sale bajo (digamos menor de un 30%), considerando además que su valor no se ha visto afectado por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres alternativas que frecuentemente se usan:
a) Transformar la variable pre editora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal.
b) Usar regresión polinómica con una variable pre editora.
c) Conseguir más variables pre editoras y usar una regresión lineal múltiple.
En el primer caso, se puede perder el tiempo tratando de encontrar la transformación más
adecuada y se podría caer en “overfitting”, es decir, encontrar un modelo demasiado optimista, que satisface demasiado la tendencia de los datos tomados pero que es pobre para hacer predicciones debido a que tiene una varianza grande.En el segundo caso el ajuste es más rápido, pero es bien fácil caer en “overfitting” y, además se pueden crear muchos problemas de cálculo ya que pueden surgir problemas de colinealidad, es decir relación lineal entre los términos del modelo polinomio.
El tercer caso es tal vez la alternativa más usada y conveniente. Tiene bastante analogía con el caso simple, pero requiere el uso de vectores y matrices.
En el siguiente ejemplo se mostrará el uso interactivo de las tres alternativas a través de seis modelos de regresión y servirá como un ejemplo de motivación para introducirnos en regresión lineal múltiple.
El modelo de regresión lineal múltiple
El modelo de regresión lineal múltiple con p variables predictoras y basado en n observaciones tomadas es de la forma:
Para i = 1,2,….n. Escribiendo el modelo para cada una de las observaciones, éste puede ser considerado como un sistema de ecuaciones lineales de la forma
Que puede ser escrita en forma matricial como:
Donde Y es un vector columna n dimensional, X es una matriz n x p', con p'=p+1, b es el vector de coeficientes de regresión a ser estimados, su dimensión es p' y e es un vector columna aleatorio de dimensión n Por ahora, las únicas suposiciones que se requieren son que E(e)=0
...