Análisis de Regresión Lineal Múltiple “Puntaje Promedio de Prueba SIMCE por Establecimiento Educacional”
Enviado por Jorge Meza Rojas • 6 de Mayo de 2020 • Trabajo • 2.514 Palabras (11 Páginas) • 211 Visitas
UNIVERSIDAD ANDRES BELLO
FACULTAD DE INGENIERÍA
Análisis de Datos
[pic 1]
Análisis de Regresión Lineal Múltiple
“Puntaje Promedio de Prueba SIMCE por Establecimiento Educacional”
Alumnos:
Jorge Meza R.
Esteban Ciruelos P.
Javiera Aranda M.
Profesor: Sr. John Ríos Griego
Santiago de Chile, 07 de enero de 2020
Resumen Ejecutivo
Un sistema de educación de calidad es aquel en donde todos los estudiantes, independiente de su condición socioeconómica pueden desarrollar al máximo su potencial tanto académico u otro. En chile desde 1998 se utiliza la prueba SIMCE para medir la calidad y equidad en los establecimientos educacionales.
Históricamente los resultados han arrojado un fuerte apego entre el logro académico y la condición socioeconómica de los estudiantes, vale decir, las brechas en las riquezas del país se traducen en rendimiento escolar.
A partir de estas evidencias, el gobierno a impulsado diversas políticas de desarrollo social para minimizar las inequidades sociales detectadas en el tiempo. Este proyecto buscará determinar que variables aparte de la riqueza tienen mayor influencia en el rendimiento de los alumnos de segundo año medio en la prueba SIMCE, con los resultados se espera estimar cuanto aumentaría el nivel educacional de un establecimiento si las políticas sociales son efectivas.
El principal aporte de este estudio será encontrar un modelo de regresión lineal múltiple que contenga las variables más representativas de los resultados de la prueba SIMCE. Un objetivo será evidenciar posibles oportunidades de mejora en colegios vulnerables desde el ámbito de las políticas de desarrollo social, analizando como determinar una relación lineal entre el nivel educacional y variables sociales excluyendo al patrimonio.
INDICE
Introducción 4
Problemática 5
Modelos Propuestos e Iteraciones 7
Prueba de Normalidad 8
Selección del Modelo 8
Detalle Modelo Número 4 9
Análisis de Heterocedasticidad Modelo 4 10
Análisis de Autocorrelación Modelo 4 11
Multicolinealidad 12
Interpretación del Modelo 13
Antecedentes Prueba SIMCE 2018 Segundo Año Medio – Comuna Santiago 14
Pronóstico 1 Liceo Confederación SUIZA 15
Pronóstico 2 INST.SUP.DE COMERCIO EDUARDO FREI M. 16
Conclusiones 17
Bibliografía 18
Introducción
El análisis de regresión lineal múltiple permite determinar la relación entre una variable dependiente (Y) y un set de variables independientes o explicativas (X1, X2, …,Xn). A diferencia del modelo simple que emplea pronósticos sólo con una variable independiente, utilizar más de una variable explicativa (Xi) para la construcción del modelo nos permitirá realizar estimaciones más precisas.
La anotación matemática del modelo de regresión lineal múltiple es:
yi = β0 + β1X1 + β2X2+……+ βiXi + εi
Donde
- Y: Variable dependiente o explicada.
- X: Variables independientes o explicativas.
- ε: Perturbación aleatoria.
En los modelos de regresión múltiple es fundamental determinar de un conjunto de variables explicativas (X1, X2, …,Xn) cuales son las más influyentes en la variable explicada (Y).
En este proyecto se aplicará la metodología expuesta a una base de datos del año 2018 que contiene el puntaje promedio de las pruebas SIMCE por establecimiento educacional de Chile, el curso analizado es segundo medio.
Problemática
La educación es un pilar fundamental a nivel global y un tema latente en estos tiempos en Chile, uno de los instrumentos de medición de la pedagogía es la prueba SIMCE, cuyo objetivo es contribuir al mejoramiento de la calidad y equidad de la educación en Chile. Este proyecto busca encontrar un modelo de regresión lineal que permita estudiar y predecir mediante variables socioeconómicas los resultados de este examen.
Para encontrar el modelo que nos permita estimar el puntaje SIMCE de un establecimiento educacional mediante variables socioeconómicas y de desarrollo social, se analizarán bases de datos disponibilizadas por el gobierno en el sitio web de la Agencia de Calidad de la Educación. La base de datos a estudiar se obtuvo de la relación y posterior unificación de dos bases de datos promovidas por el gobierno para los mismos establecimientos y año, estas son:
- Promedio de Puntaje SIMCE por Establecimiento Educacional – Año 2018.
- Indicadores de Desarrollo Personal y Social por Establecimiento Educacional – Año 2018.
Desde estas tablas se generó la base de datos de estudio del proyecto, las características generales son idénticas para ambas bases de datos, por lo que se evidencia la relación y correcta unificación entre ambas bases de datos.
Características Generales | |
Descripción | Tabla con puntajes promedio a nivel de establecimientos del proceso SIMCE 2018 |
Número de variables | 4 |
Número de observaciones | 64 |
Año de la evaluación | 2018 |
Grado en el que se rinde la evaluación | Segundo Año Medio |
Nombre del establecimiento | “XXX” Establecimientos de Santiago |
Nombre de la región del establecimiento año 2018 | Región Metropolitana |
Nombre de la comuna del establecimiento | Santiago |
El glosario de la base de datos a estudiar es el siguiente:
Variables | ||||
Nombre | [Variable] | Descripción | Valores permitidos | Tipo |
prom_SIMCE | [Y] | Puntaje promedio del establecimiento en Ciencias Sociales, Matemáticas y en Lectura | 200-350 | Numérica |
cod_grupo | [X1] | Código de grupo socioeconómico | ver tabla 1 | Numérica |
ind_hv | [X2] | Puntaje Indicador Hábitos de vida saludable del colegio | 0-100 | Numérica |
ind_am | [X3] | Puntaje Indicador Autoestima académica y motivación escolar del colegio | 0-100 | Numérica |
ind_pf | [X4] | Puntaje Indicador Participación y formación ciudadana del colegio | 0-100 | Numérica |
...