Informe de estadística
Enviado por el lokokel • 23 de Noviembre de 2022 • Trabajo • 3.316 Palabras (14 Páginas) • 51 Visitas
[pic 1]
Proyecto de Estadistica II
Cátedra: Estadística II Profesor: Ruben Escanilla Ayudante: Victor Fica
Integrantes: Stefanny Arriagada
Exequiel Canales Katalina Céspedes
Juan Llanos Paloma Pérez Sección: 2
ÍNDICE
- INTRODUCCIÓN 2
- Objetivos 3
- PREPARACIÓN DE DATOS 3
- DESCRIPCIÓN DE DATOS 3
- ETAPA I 4
- Test de Hipótesis de dos poblaciones 4
- Regresión Lineal 4
- Comparación entre ambas metodologías 5
- ETAPA II 6
- Desarrollo de Test de Hipótesis de dos poblaciones 6
- Conclusión Test de Hipótesis de dos poblaciones. 8
- Discusiones, recomendaciones o soluciones 8
- Desarrollo Regresión Lineal 8
- Conclusión de cada test de hipótesis para β y β 12
0 1
- Conclusión desarrollo regresión lineal 12
- Discusiones, recomendaciones o soluciones 13
- CONCLUSIONES GENERALES 13
- BIBLIOGRAFÍA 13
INTRODUCCIÓN
En el presente informe se realizará un análisis en profundidad de una base de datos a través de la aplicación de conceptos y contenidos vistos en la asignatura de Estadística II. Para llevar a cabo este proceso, se evaluará la base de datos “Glassdoor_Gender_Pay_Gap”, la cual proporciona información relevante sobre los ingresos anuales para varios tipos de trabajos según el género de los trabajadores, provenientes de Estados Unidos en el año 2019. Conocer la información de este tipo de base de datos es interesante para saber y cuestionarnos sobre muchas realidades laborales que le puede afectar a la mayoría de la sociedad hoy en día. De igual modo, los datos de esta base están enfocados en un país primermundista como lo es EE.UU, que a pesar de ser un país desarrollado puede presentar las mismas situaciones que un país del tercer mundo. De esta base datos se puede analizar una situación bastante polémica que se ha visto reflejada durante años entre hombres y mujeres, la cual es la brecha salarial entre ambos géneros. Si lo enfocamos en nuestro país, un estudio del mismo año, previo a la emergencia sanitaria del COVID-19, establece que a pesar de que la participación laboral de las mujeres en el país tuvo un peak de 53,3% reduciendo la brecha de participación laboral durante los últimos 10 años “por cada $100 que gana un hombre una mujer recibe solo $71,9” (Diagnóstico brechas salariales entre géneros, 2020), reflejando aún la existencia de la diferencia salarial entre hombres y mujeres. Conocer estas cifras es importante tanto
para el debate social como para las políticas y legislaciones de igualdad que se pueden implementar en un país. También, analizar la situación desde una perspectiva estadística evaluando, estudiando y examinando los resultados de las observaciones de la base de datos nos proporciona información importante para evaluar la causa y efecto de los acontecimientos y proponer medidas al respecto.
Objetivos
Asimismo, este trabajo tiene como objetivo poner en práctica los conocimientos y las capacidades adquiridas durante el semestre en la asignatura, las cuales se verán reflejadas mediante la elaboración de un Test de Hipótesis de dos poblaciones y un análisis de regresión simple a través de la base de datos antes mencionada, la cual será importada en la plataforma de RStudio y a través de diversos tipos de comando se desarrollarán las problemáticas establecidas. Por tanto, para llevar a cabo la práctica de los conocimientos se definirá la siguiente hipótesis: “La media del sueldo de los hombres es igual o distinta a la media del sueldo que suelen recibir las mujeres”. El análisis de esta pregunta se llevará a cabo mediante el test de hipótesis de dos poblaciones. De igual manera, se resolverá la hipótesis sobre “Existe una correlación entre los años de experiencia que llevan las personas en el trabajo y su respectivo sueldo anual”, dicha premisa se desarrollará a través del análisis de regresión
simple, al igual que saber si 0 se encuentra en β o β .
0 1
PREPARACIÓN DE DATOS
Para la preparación de datos y la realización del trabajo, en primer lugar, se cargaron las librerías y se importaron los datos a RStudio y se utilizó “read_csv” para leer la base de datos.
Luego de observar las variables se conversaron y seleccionaron aquellas a utilizar y que estuvieran acorde con lo que se necesitaba para el desarrollo del proyecto, En este caso, fueron las variables que indican el género, la correspondiente al ingreso anual de las personas y aquella que indica los años que lleva la persona trabajando en el lugar, dado que estos datos son los que sirven para desarrollar las hipótesis antes planteadas. A continuación, se explicarán cada una de las variables pertenecientes a la base de datos, la cual presenta 1000 observaciones y 9 columnas, tales como:
DESCRIPCIÓN DE DATOS
- Job Title: variable que hace referencia al título profesional o al trabajo que realiza cada individuo. Vector chr.
- Gender: variable que indica si el individuo es hombre o mujer. Vector chr.
- Age: variable que hace referencia a la edad de las personas. Vector dbl.
- PerfEval: variable que indica la evaluación del perfil del profesional. Vector dbl.
- Education: variable que hace referencia al grado académico de cada individuo. Vector chr.
- Dept: variable que indica el departamento de educación al que corresponden los estudios de cada persona. Vector chr.
- Seniority: variable que hace referencia a los años de antigüedad del individuo en el trabajo. Vector dbl.
- BasePay: variable que indica el salario base anual de las personas en dólares. Vector dbl.
- Bonus: variable que hace referencia a alguna bonificación monetaria que haya recibido el empleado. Vector dbl.
ETAPA I
En primer lugar, en la etapa inicial del desarrollo del proyecto se estudiarán dos tipos de metodologías de análisis estadísticos utilizando la bibliografía obligatoria del curso con los siguientes textos académicos: “Statistical Inference via Data Science: A ModernDive into R and the Tidyverse”, “Introduction to Modern Statistics”, “Introduction to Data Science, Data Analysis and Prediction Algorithms with R” y “Estadística para la Administración y Economía”.
Test de Hipótesis de dos poblaciones
Comenzando con el test de hipótesis, es aquel que “permite tomar una muestra de datos de una población e inferir sobre la plausibilidad de hipótesis contrapuestas” (Ismay & Young-Sun Kim, 2019). En donde se tiene la hipótesis nula que es aquella proposición de no cambio, no efecto en la población y la hipótesis alternativa, la cual es lo que se desea que sea verdadero. Una vez observados los valores experimentales se debe tomar la decisión de aceptar o rechazar la hipótesis. Cuando se habla de una prueba de hipótesis de dos poblaciones, la cual puede ser: Prueba de hipótesis relativa a proporciones, Prueba de hipótesis sobre la diferencia entre media, Prueba de diferencia de medias para muestras pareadas y Prueba de hipótesis de coeficientes de las varianzas de dos poblaciones, todas ellas con sus respectivas características y distintas opciones. Es similar en muchos aspectos al test de hipótesis de una muestra antes mencionada, la cual también cumple con una hipótesis nula y una alternativa que puede ser uni o bilateral.
...