Modelo de regresión lineal
Enviado por Jesus Muniesa • 20 de Noviembre de 2018 • Práctica o problema • 1.208 Palabras (5 Páginas) • 245 Visitas
Trabajo nº 7
I.O.I Estadistica EUPLA
Jesús Muniesa Monge
1. ENUNCIADO DEL PROBLEMA
La construcción de modelos de tipo predictivo es una de las aplicaciones más importantes en estadístico. En este trabajo se pretende analizar un modelo de regresión lineal que nos permita predecir una variable continua de salida en función de un conjunto de variables de entrada. Para ello, en primer lugar deberá cargarse la base de datos especificada en cada enunciado y construir un objeto de tipo “lm” que analice un conjunto de variables de entrada especificado en el enunciado en función de una variable de salida también especificada en el trabajo.
En segundo lugar, deberán proporcionarse los coeficientes del modelo predictivo y los p-valores asociados a cada variable, analizando si son variables significativas o no. En tercer lugar, se realizará un análisis de la presencia de ruido en el modelo mediante el uso de la función step de R.
Por último, y en cuarto lugar, deben proporcionarse los gráficos de residuos-valores ajustados, Q-Q plot, residuos estandarizados-valores ajustados y distancia de Cook. También se realizará el estudio de los 4 gráficos.
OBJETIVO:
El objetivo de este trabajo es en primer lugar la construcción de un modelo de regresión lineal múltiple del tipo predictivo.
Para ello, se analizará dicho modelo estudiando las variables de entrada y salida y su grado de significación para nuestro modelo. Quitando en el caso que así fuera el ruido que pudiera generar dicho modelo en su análisis. (Representándose a través de los gráficos)
2. BASE DE DATOS Y VARIABLES
Analizar la variable de salida estperf (rendimiento estimado) en función de las variables syct, mmin,mmax, cach y chmax.
Interpretando la base de datos y las variables, podemos afirmar que estamos ante una base de datos cuyo tema es el rendimiento relativo y características de 209 CPUS, en función de unas variables atesoradas en este caso a la CPU ( memoria min,memoria max, etc...)
3. RESOLUCIÓN Y ANÁLISIS CON R-DATA
Comenzamos introduciendo nuestra base de datos en R, y construyendo un vector “modelo” para introducir todas las operaciones.
COMANDOS R-DATA:
A través de la opción summmary (modelo), nos muestra un resumen muy significativo de nuestras variables. En dicho resumen podemos ver qué variables son significativas, es decir, aquellas que tienen un p-valor inferior al nivel de significación y por tanto influyen en la variable de salida.
COMANDOS R-DATA:
> data(cpus, package="MASS")
> RegModel.1 <- lm(estperf~cach+chmax+mmax+mmin+syct, data=cpus)
summary(modelo)
En nuestro resumen ofrecido por R, se puede ver muy intuitivamente esto, ya que a través del “signif.codes” y la caracterización con símbolos (estrellas , punto y vacío ) nos muestra que variables son significativas ( aquellas que tienen más de 2 estrellas, que son aquellas que tienen un nivel de significación por debajo del 10%)
Call:
lm(formula = estperf ~ cach + chmax + mmax + mmin + syct, data = cpus)
Residuals:
Min 1Q Median 3Q Max
-136.633 -23.149 1.574 22.957 287.869
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.660e+01 6.257e+00 -10.643 < 2e-16 ***
cach 4.871e-01 1.050e-01 4.639 6.28e-06 ***
chmax 1.187e+00 1.623e-01 7.314 5.88e-12 ***
mmax 6.584e-03 4.999e-04 13.171 < 2e-16 ***
mmin 1.424e-02 1.397e-03 10.188 < 2e-16 ***
syct 6.613e-02 1.365e-02 4.846 2.50e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
...