Trabajo inferencia estadística base de datos (CASEN09)
Enviado por Joo Vicencio • 9 de Diciembre de 2015 • Examen • 1.001 Palabras (5 Páginas) • 208 Visitas
[pic 1]
Trabajo inferencia estadística base de datos (CASEN09)
Integrantes :
Karla Carmona
Carolina Nova
María José Urra
Josefina Vicencio
Marco Teórico :
La Encuesta de Caracterización Socioeconómica Nacional (Casen) del Ministerio de Desarrollo Social es una encuesta a hogares, de carácter multipropósito, es decir, que abarca diversos temas como educación, trabajo, ingresos, salud, entre otros; además es una encuesta transversal, por lo tanto, incluye a todo el espectro de la población del país.
Se realiza una medición del bienestar material de los hogares y a partir de esos datos se desarrollan indicadores de distribución del ingreso, acceso a servicios sociales y pobreza.
Datos :
Se utilizará la base de datos casen2011_ie.dta, esta contiene una sub muestra de la base de datos original de la encuesta CASEN 20011, la cual contempla 4853 observaciones y 7 variables:
comuna: 6 comunas enumeradas de 1 a 6
zona: zona urbana =1 o rural = 2
sexo: hombre=1 y mujer =2
región: en esta muestra solo utilizaremos la R.M (región=13 para todas las observaciones)
edad: años cumplidos
ecivil: estado civil (tiene seguro = 1, no tiene seguro = 0)
ytotaj: ingreso total
Estadística Descriptiva
[pic 2]
De la tabla podemos ver que la base de datos describe datos sólo para la región metropolitana.
[pic 3]
La edad promedio de la muestra son 43 año aprox. Además, tenemos que el promedio de los ingresos totales de los hogares de la 13ava región es de 628.100 pesos.
Pasaremos a analizar por separado las variables cualitativas y categóricas:
La distribución de las observaciones por comuna queda de la siguiente manera, donde el total de observaciones de la zona rural (38 obs) pertenecen a la comuna 4, y la moda se encuentra en la comuna 5 con 1003 observaciones:
[pic 4]
La muestra está compuesta por semejante cantidad de hombres como de mujeres:
[pic 5]
El 38,62% de la muestra se encuentra casada, y el 32,93% soltera:
[pic 6]
Diferencias en las medias
- ¿Es la diferencia de ingresos entre la comuna 3 y la 6 significativa? ¿De cuánto es?
gen comuna36=.
replace comuna36=3 if comuna==3
replace comuna36=6 if comuna==6
ttest ytotaj, by(comuna36)
Generamos una variable cualquiera a la cual llamaremos “comuna36”, está compuesta por puros missing values, luego le damos los valores para cuando “comuna” sea igual a 3, y para cuando comuna sea igual a 6, de esta forma evaluamos las comunas de interés al aplicar el test estadístico.
[pic 7][pic 8][pic 9][pic 10]
Luego pasamos a ver si existe diferencia entre ambas medias, y si estas son significativas:
Podemos ver que la diferencia entre las medias es de 111972 pesos en el ingreso total de los hogares entre la comuna 3 y 6, además estas son significativas incluso al 1% de significancia (IC 99%) dado el test t de dos colas, por lo que se rechaza la hipótesis nula. Dada la cantidad de observaciones suficientemente grande y representativa para la 13ava región, podemos afirmar que existe una significativa desigualdad en el ingreso de los hogares entre ambas comunas.
- ¿Existe diferente porcentaje de personas casados entre el grupo menor a la mediana de la edad, y el grupo mayor o igual a la mediana? ¿Es significativa la diferencia?
sum edad,d
gen grupo_edad=.
replace grupo_edad=1 if edad<43
replace grupo_edad=2 if edad>=43
ttest ecivil if ecivil==1, by(grupo_edad)
Primero analizamos los percentiles, donde el valor del percentil 50 (mediana) de la variable edad es 43 años:
[pic 11][pic 12]
Ahora creamos una variable cualquiera que llamaremos “grupo_edad”, a la cual le asignaremos 1 si la edad del individuo es menor a la mediana (43 años), y 2 si es que tienen igual o más que 43 años.
Como la variable a evaluar es una variable categorica (ecivil=casado), debemos trabajar con su porcentaje condicionado en este caso a la variable “grupo_edad”.
...