Entrega fundamentos
Enviado por sedonk • 27 de Junio de 2022 • Documentos de Investigación • 3.568 Palabras (15 Páginas) • 39 Visitas
[pic 1]
[pic 2][pic 3] | UNIVERSIDAD ADOLFO IBAÑEZ Fundamentos de ciencias de datos SEMESTRE I 2021
Prueba I |
Profesor: Sebastián Hughes Sección 3
[pic 4]
Informe primer entregable proyecto
José Pedro Guzmán Sierralta
Eduardo Andrés Pérez Durán
Año 2021
El presente informe, tiene como objetivo analizar una base de datos correspondiente a deportistas olímpicos, además determinar factores relevantes que puedan servir para el estudio analítico futuro. Se indagará en el análisis exploratorio de datos de las variables, así como también en la dispersión de cada una de ellas. Luego, se estudiará la relación entre ellas, haciendo especial énfasis en correlaciones entre variables categóricas y variables numéricas. La base de datos estará conformada por diez variables categóricas y cuatro de carácter numérico. Para el procedimiento de análisis de datos, se utilizará la metodología de programación en lenguaje R.
- Descripción de variables
En primer lugar, se analizará cada una de las variables presentes en la base de datos, comenzando por las del tipo numérico:
- Age, edad del atleta
- Height, altura en centímetros del atleta
- Weight, peso en kilogramos del atleta
- Year, año de la olimpiada
Variable numérica 1 “Age”: Esta variable es la edad en la que un atleta determinado se presentó a los deportes olímpicos de un año y temporada determinados. Pudimos darnos cuenta que estos datos tienen un rango que va desde los 10 hasta los 97 años de edad, rango bastante amplio. También nos damos cuenta que distribuyen normal con la curva sesgada hacia la izquierda. Esto quiere decir que un 50% de los datos tienen entre 21 y 28 años, pero que el 25% de los atletas que tienen entre 28 y 97 años están más repartidos de una manera más heterogénea que el 25% restante de los atletas que tienen entre 10 y 21 años. [pic 5]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Total de NA | Desviación estándar |
10.00 | 21.00 | 24.00 | 25.56 | 28.00 | 97.00 | 9474 | 6.393561 |
Variable numérica 2 “Height”: Esta variable dentro de la base de datos representa básicamente la altura en centímetros de un atleta determinado. Como se puede apreciar en el gráfico adjunto, los datos distribuyen absolutamente normal con una media de 175,3 centímetros y una curva de un histograma que calza muy bien con una curva de distribución normal. [pic 6]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Total de NA | Desviación estándar |
127.0 | 168.0 | 175.0 | 175.3 | 183.0 | 226.0 | 60171 | 10.51846 |
Variable numérica 3 “Weight”: Esta variable se refiere al peso que tenía un determinado atleta la vez que compitió en alguna de las ocasiones previstas. Cabe destacar que hubo un inconveniente al leer correctamente esta variable, ya que tenía un problema con los decimales, pero se pudo solucionar usando el código: “d$Weight <- as.numeric(d$Weight)”. Con el gráfico adjunto se ve que tiene una distribución normal bastante suave. Cabe destacar que el 50% de los atletas tienen un peso entre los 60 y los 79 kg.
[pic 7]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Total de NA | Desviación estándar |
25.0 | 60.0 | 70.0 | 70.7 | 79.0 | 214.0 | 62881 | 14.3482 |
Variable numérica 4 “Year”: La cuarta y última variable numérica (sin considerar el ID el cual es irrelevante para sacar estadísticas) con la que trabajaremos será el año. No se debe confundir con la variable “Games”, ya que esta última nos dice el año y la temporada, por ejemplo, puede que dentro de un mismo año haya 2 tipos de juegos de temporada distintos, como en el 1992 se incluyen los juegos de invierno de 1992 y los juegos de verano de 1992. Uno podría incorrectamente pensar que un gráfico de los años o utilizar un “summary” no tendría interpretación, pero la verdad es que si se puede obtener algo de ellos. Al hacer un histograma, notamos que a medida que pasan los años, hay más frecuencia de datos, es decir, que mientras más recientes son los juegos olímpicos, más datos de atletas se van almacenando y guardando en la base de datos. Recordar que esto es una tendencia con una estacionalidad determinada, lo cual hace que no se cumpla con exactitud para todos los años. Una particularidad que tiene este gráfico, es que se ve una ausencia total de datos en 2 sectores, los cuales, si se ven minuciosamente, calzan con la primera guerra mundial (1914-1918) y la segunda guerra mundial (1939-1945) con lo que se da a evidenciar que ese año no hubo juegos olímpicos, ya que estos no se podrían haber realizado sin tener los datos de sus atletas. Con un summary podemos notar que las primeras tomas de datos datan del año 1896, mientras que las más recientes son del año 2016.
...