SERIES DE TIEMPO Elección del modelo
Enviado por Yazmin Moná • 11 de Abril de 2016 • Trabajo • 1.247 Palabras (5 Páginas) • 304 Visitas
SERIES DE TIEMPO
Elección del modelo
Con la base de datos de precio casas, se busca el mejor modelo que permita describir matemáticamente una fórmula, que relacione el precio de las casas con varios posibles determinantes del mismo. Para este objetivo, se utilizará el método de mínimos cuadrados ordinarios y el software estadístico R.
Inicialmente, se estima un modelo que cuenta con las siguientes variables:
- Variable dependiente: Precio casa.
- Variables independientes: Edad casa, edad cuadra (Es el cuadrado de la edad de la casa), un_vecinos (número de vecinos), Dist_bus, Dist_centro, alcobas (número de alcobas que tiene la casa), metros_casa (es el tamaño de la casa medida en metros), tamaño _lote, baños (numero de baños en la casa).
El modelo estimado se resume en la siguiente imagen:
[pic 1]
Según este modelo, solo hay cuatro variables significativas al 95%, además tenemos un R cuadrado ajustado del 55.61%.
A continuación, se presenta el AIC y el BIC de este modelo. Recordemos que entre menor valor tengan estos criterios de información, mejor será el modelo.
[pic 2]
Con el fin de encontrar un modelo mejor, se eliminan las variables no significativas.
[pic 3]
[pic 4]
En este modelo, se ve que todas las variables son significativas, sin embargo, el R cuadrado ajustado y el AIC sugieren que el primer modelo se acomoda mejor a los datos, por tanto se retomará y se quitará de a una variable, iniciando con la menos significativa, para ver si se obtiene un mejor modelo. De esta forma, se quita inicialmente la variable alcobas, obteniendo el siguiente modelo:
[pic 5]
[pic 6]
En este modelo, se puede observar que el R2 ajustado aumenta, adicionalmente, el BIC disminuye, comparando contra el primer modelo. No obstante, el AIC aumenta, sugiriendo que el modelo inicial es más adecuado. Apesar de esto, como dos criterios sugieren que es mejor, se tomará el modelo dos y se quitará la siguiente variable menos representativa.
A continuación se muestra el modelo 3, el cual no tiene la variable dist_bus:
[pic 7]
[pic 8]
En este modelo podemos ver que la variable baños se vuelve significativa, sin embargo, el R2 ajustado disminuye y tanto el AIC como el BIC aumentan, por lo que el modelo 2, parece ser una mejor opción. La siguiente tabla resume los resultados de los criterios de elección de cada modelo.
Modelo | R2 ajustado | AIC | BIC |
Modelo | 55,61% | 7514,926 | 7556,412 |
Modelo 1 | 54,61% | 7517,157 | 7539,758 |
Modelo 2 | 55,63% | 7513,807 | 7551,521 |
Modelo 3 | 55,48% | 7513,884 | 7547.827 |
Como vemos en la tabla anterior, el R2 ajustado y el AIC, sugieren que el mejor modelo es el modelo 2, mientras que en el BIC sugiere el modelo 1. Para el presente trabajo, se elige el modelo 2 para trabajar. A pesar de esto, la existencia de cuatro variables no representativas sugiere que hay problemas con los supuestos de este modelo, a continuación, se abordarán algunos de ellos y se intentará corregir los problemas en los casos en que sea posible.
Contrastes de normalidad
Uno de los supuestos del método de mínimos cuadrados ordinarios es que los errores distribuyen normal, pero esto no necesariamente es así, por tal motivo se harán dos pruebas para ver si esto se cumple. Inicialmente, se mirará con una prueba gráfica y luego se utilizará el test de Jarque-Bera, el cual es más potente.
- Q-Q Plot
Esta prueba gráfica compara, en un mismo diagrama, los cuantiles teóricos que generaría una distribución normal con los cuantiles reales que genera una distribución que se presume normal, así, entre más estén separados los cuantiles teóricos de los cuantiles obtenidos con la base de datos, es menos probable que la distribución siga una distribución normal.
[pic 9]
[pic 10]
La gráfica anterior muestra que hay una separación considerable al inicio y al final del grafico qqnorm, por lo que parece ser que no hay normalidad, sin embargo los test gráficos suelen ser muy subjetivos, por lo que empleará un test más formal para confirmar este resultado.
- Test de Jarque Bera
Este test analiza que tan aproximados están los datos al tercer y cuarto momento muestral, es decir el coeficiente de asimetría y la Curtosis, de los resultados que teóricamente se obtendrían en el caso de que los datos provinieran de una distribución normal (Vela Peón, 2010).
...