Investigación de REGRESION LINEAL
Enviado por cyndel-corey • 8 de Septiembre de 2021 • Resumen • 1.532 Palabras (7 Páginas) • 126 Visitas
[pic 1] [pic 2]
Instituto Tecnológico Nacional de México
Instituto Tecnológico de Ciudad Juárez
Materia:
Estadística inferencial II
Docente: Pamela Navidad Peralta Robles
Investigación Regresión lineal múltiple
Alumna:
Cyndel Corey Ramos Ruiz (18111094)
Grupo: “w”
31/08/2021
Investigación Regresión lineal múltiple
La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una variable dependiente y más de unas variables independientes. En este tipo de modelos es importante testar la heterocedasticidad, la multicolinealidad y la especificación. En este curso trataremos de introducirnos en el mundo de la modelización, con creación de dummies, configurando un individuo de referencia, factores de ponderación, variables de interacción, interrelación, etc. Es particularmente importante entender lo que se está haciendo en cada momento porque estos principios sirven para prácticamente todos los modelos que se emprendan a continuación y después, con modelos más complejos y menos intuitivos, serán más difíciles de comprender.
Conceptos importantes
Variable dependiente (y): Es la variable que representa el proceso que intenta predecir o entender (robo residencial, ejecución hipotecaria, precipitaciones). En la ecuación de regresión, aparece en el lado izquierdo del signo igual. Mientras pueda utilizar la regresión para prever la variable dependiente, siempre comience con un grupo de valores y conocidos y utilícelos para crear (o para calibrar) el modelo de regresión. Los valores y conocidos a veces se denominan valores observados.
Variables independientes/explicativas (X): son las variables utilizadas para modelar o predecir los valores de la variable dependiente. En la ecuación de regresión, aparecen en el lado derecho del signo igual y a veces se denominan variables explicativas. La variable dependiente es una función de las variables explicativas. Si le interesa prever las compras anuales de una tienda propuesta, puede incluir en su modelo variables explicativas que representen la cantidad de clientes potenciales, la distancia a la competencia, la visibilidad de la tienda y los patrones de gastos locales, por ejemplo.
Coeficientes de regresión (β): Coeficientes que calcula la herramienta de regresión. Son valores, uno para cada variable explicativa, que representan la fortaleza y el tipo de relación que tiene la variable explicativa con la variable dependiente. Supongamos que modela la frecuencia de incendios como una función de la radiación solar, la vegetación, las precipitaciones y el aspecto. Puede esperar una relación positiva entre la frecuencia de incendios y la radiación solar (en otras palabras, cuanto más sol haya, más frecuentes serán los incidentes de incendio). Cuando la relación es positiva, el signo del coeficiente asociado también es positivo. Puede esperar una relación negativa entre la frecuencia de incendios y las precipitaciones (en otras palabras, los lugares con más lluvias tienen menos incendios). Los coeficientes de las relaciones negativas tienen signos negativos. Cuando la relación es una relación sólida, el coeficiente es relativamente grande (relativo a las unidades de la variable explicativa con la que se asocia). Las relaciones débiles se asocian con coeficientes cercanos a cero; β0 es la intercepción de regresión. Representa el valor esperado para la variable dependiente si todas las variables independientes (explicativas) son cero.
Valores P: La mayoría de los métodos de regresión realizan una prueba estadística para calcular una probabilidad, llamada valor P, para los coeficientes asociados a cada variable independiente. La hipótesis nula para esta prueba estadística establece que un coeficiente no es significativamente distinto a cero (en otras palabras, para todos los intentos y propósitos, el coeficiente es cero y la variable explicativa asociada no ayuda al modelo). Los valores P pequeños reflejan pequeñas probabilidades y sugieren que el coeficiente es, sin duda, importante para su modelo con un valor que es significativamente distinto a cero (en otras palabras, un valor P pequeño indica que el coeficiente no es cero). Usted diría que un coeficiente con un valor P de 0,01, por ejemplo, es estadísticamente significativo en el 99 por ciento del nivel de confianza; la variable asociada es un indicador efectivo. Las variables con coeficientes cercanos a cero no ayudan a prever o modelar la variable dependiente; casi siempre se quitan de la ecuación de regresión, a menos que haya razones teóricas fuertes para mantenerlos.
R 2/R cuadrado: R cuadrado múltiple y R cuadrado ajustado son estadísticas derivadas de la ecuación de regresión para cuantificar el rendimiento del modelo. El valor de R cuadrado va desde 0 a 100 por ciento. Si su modelo se ajusta perfectamente a los valores de la variable dependiente observados, R cuadrado es 1,0 (e indudablemente ha cometido un error; quizás utilizó una forma de y para prever y). Los más probable es que verá valores R cuadrado como 0,49, por ejemplo, que puede interpretar al decir: "Este modelo explica el 49 por ciento de la variación en la variable dependiente". Para entender a dónde está llegando el valor R cuadrado, cree un gráfico de barras que muestre los valores y estimados y observados ordenados por los valores estimados. Observe cuánta superposición hay. Este gráfico proporciona una representación visual de lo bien que los valores previstos del modelo explican la variación en los valores de la variable dependiente observados. Ver una ilustración. El valor R cuadrado ajustado siempre es un poquito más bajo que el valor R cuadrado múltiple porque refleja la complejidad del modelo (el número de variables) a medida que se relaciona con los datos. Por consiguiente, el valor R cuadrado ajustado es una medida más precisa del rendimiento del modelo.
...