Analisis de Observaciones Econometria
Enviado por e.sarria • 21 de Agosto de 2018 • Informe • 2.369 Palabras (10 Páginas) • 127 Visitas
TAREA 2
Javiera Morales 201466065-0
Carolina Reinoso 201466055-3
Elizet Sarria 201466110-k
Arlette Ulloa 201466083-9
1. Introducción
Un problema que surge de los modelos de regresión es la presencia de observaciones atípicas e influyentes. Se dice que una observación es atípica si el residuo asociado es grande. Por otro lado, una observación es influyente si la presencia de dicho dato en la muestra altera significativamente algún aspecto de la estimación del modelo.
Para detectar observaciones atípicas y/o influyentes existen 6 indicadores que miden el efecto de cada observación en diferentes elementos de la estimación, estas son: Studentized Residuals, Leverage Values, DFfits, DFbetas, Cook’s D y Covratio.
En la presente tarea, se trabajará con una muestra de 6 variables y se calcularán sus respectivos indicadores, para luego concluir y tomar decisiones en relación con los datos atípicos e influyentes observados. Con respecto a la variable dependiente, esta corresponde a “sav”, la cual guarda relación con el ahorro anual de la familia. Por consiguiente, las variables independientes son: “inc” (ingreso anual familiar), “size” (tamaño de la familia) “educ” (años de educación del sostenedor familiar), “age” (años del sostenedor familiar) y “black” (raza del sostenedor de la familia, la cual corresponde a una variable Dummy y toma el valor 1 si la raza es negra y 0 si es que no).
2. Modelo Asociado
El modelo asociado a las variables explicadas anteriormente está dado por:
sav = β₀+β₁*inc+β₂*size+β₃*educ+β₄*age+δ₀*black+μ
3. Indicadores
3.1 Studentized Residual
Este indicador es determinado por los residuales entregados por el modelo sobre su error estándar correspondiente. Establece que todo dato (en valor absoluto) mayor a 3, es considerado atípico dentro de la base establecida para el estudio del modelo.
Se obtuvo, de un total de 100 datos, dos datos atípicos, según este indicador, los cuales corresponden al valor del número 69 y 101 respectivamente según el ordenamiento de los datos.
3.2 Leverage Values
Establece que tan lejos está una observación de otra, respecto a los valores de la variable independiente. Para comparar respecto a los valores de la base, se considera el valor crítico que está determinado por 2 (k + 1) /n, en donde k corresponde al número de variables independientes del modelo y n al número de observaciones.
Valor Crítico:
2(𝑘+1)
𝑛[pic 1]
= 0,12
Los valores obtenidos que sean mayores al valor crítico son considerados altamente influyentes para el modelo, lo que genera distorsión en la estimación del modelo, pudiendo incluso, sesgar el modelo original y por ende muchas veces resulta conveniente eliminar dichos valores.
En torno a los valores de la base trabajada se obtiene que un total de 12 valores son altamente influyentes, los cuales corresponden a los números, 2, 10, 12, 19, 37, 38,
39, 59, 62, 63, 82 y 97. Lo anteriormente mencionado, no implica la eliminación directa de dichos valores, pero en el caso que estos valores resulten también ser atípicos, son potenciales valores para eliminar de la base.
3.3 DFfits
Mide que tanto influyen las observaciones a los valores estimados del modelo.[pic 2]
Para ello, se utiliza la siguiente ecuación para comparar: 2√ 𝑘 + 1 = 0,49
2
En donde k representa la cantidad de variables independientes en el modelo y n, el tamaño de la muestra.
Si los valores obtenidos en valor absoluto resultan ser mayores al valor comparativo establecido son considerados altamente influyentes.
Analizando el modelo con el cual se está trabajando, se obtuvieron 5 valores influyentes, los que corresponden a los números 37, 46, 63, 69 y 101, de los cuales 2 resultaron también ser atípicos según el primer indicador analizado.
3.4 DFbetas
Mide como afecta cada observación a los coeficientes que acompañan a las variables independientes.
2
De este modo, se establece el siguiente criterio de comparación: [pic 3]
√𝑛
= 0,2
Donde n representa la cantidad de observaciones del modelo.
Todo dato mayor al valor crítico obtenido es considerado altamente influyente. Con respecto al DFbeta de la variable inc, se observó que los datos influyentes
eran el 37, 46, 69, 97 y 101. Por consiguiente, en la variable size, se repiten los datos 69 y
101 como datos altamente influyentes. En relación con el DFbeta de la variable educ se observa que aquellos valores mayores al valor crítico son los datos 37, 69, 96 y 101. En el caso de la variable age se determinan algunos nuevos datos como influyentes y otros que ya cumplían con ser mayores al valor crítico en DFbetas correspondientes a las variables anteriormente mencionadas, los cuales corresponden a los números 37, 50, 69, 76 y 96. Al analizar el DFbeta de la variable black, el análisis arroja que los datos influyentes son el 10,
...