TRABAJO N°2 ANÁLISIS EXPLORATORIO DE DATOS EN R COVID-19 COLOMBIA
Enviado por yabr10 • 24 de Mayo de 2020 • Documentos de Investigación • 2.120 Palabras (9 Páginas) • 287 Visitas
TRABAJO N°2
ANÁLISIS EXPLORATORIO DE DATOS EN R
COVID-19 COLOMBIA
INTERPRETACIÓN
Empezamos el trabajo instalando los paquetes necesarios para que corran los códigos, seguido guardamos la base importada como CasosPositivosCovid19Colombia.
Usamos el código summary que nos arroja un resumen estadístico de los datos incluyendo medias, medianas, cuartiles, valores mínimos, valores máximos y frecuencias para variables cualitativas. También usamos el código names para saber cuáles son los nombres de las variables presentes en la base de datos y el código dim para saber las dimensiones de la tabla.
Luego creamos una tabla de contingencia con las variables que consideramos deberíamos trabajar. Para esto se usó un DataFrame y seguido renombramos las columnas de la nueva tabla que nos arroja este DataFrame con el código colnames y realizamos el mismo resumen estadístico con summary.
Grafico 1.
[pic 1]
Realizar la tabla de contingencia para la variable Sexo mediante la función Table, nos permitió conocer la frecuencia absoluta de esta variable cualitativa, dando como resultado 2230 mujeres contagiadas y 2331 hombres, necesitábamos conocer la proporción de hombres y mujeres que presentaron casos por contagio de la enfermedad, a partir de la frecuencia absoluta pudimos obtener la frecuencia relativa mediante la función prop.table y multiplicando por cien obtuvimos el siguiente porcentaje el 48,89% de casos reportados son mujeres y 51,10% son hombres, notamos que la diferencia en la proporción de contagio no es relativamente alta, hombres y mujeres se contagiaron casi por igual, sin embargo más adelante trataremos de debatir las razones por las cuales analizando otras gráficas obtenidas a partir de la relación de la variable Sexo con otros datos, el virus trae consecuencias mayores para el género masculino.
La base de datos que decidimos analizar, fue la de casos positivos para covid 19 en Colombia. Cabe recalcar que debido a que los datos se actualizan diariamente nosotros estamos trabajando con la base de datos del día jueves 23 de abril del 2020.
La variable edad al ser la única de carácter numérico presenta la facilidad de analizar los datos de una manera más detallada al poder obtener la información de las principales medidas estadísticas y de esta variable en particular obtuvimos los siguientes resultados:
- En promedio la edad que tienen los casos que dan positivos para el coronavirus están alrededor del 42.048 es decir en promedio las personas tienen 42 años al ser diagnosticados positivos para el virus.
- La mediana, que es el valor que ocupa la posición central del conjunto de datos y estos deben estar ordenados de menor a mayor o viceversa, arrojó un resultado de 40 años
- La edad que presenta mayor frecuencia en este conjunto de datos, es decir la moda fue de 29 años exactamente.
- La desviación estándar nos dio como resultado un valor de 18.27 aproximadamente 18 años y esto lo que nos representa es que tan dispersos tos de una variable, en este caso la edad con respecto a su media, para lo cual el valor obtenido fue de 0.316 y podemos afirmar basándonos en la gráfica que presenta una ase encuentran los datos con relación a la media, es decir que en promedio la media puede variar entre 24 y 50 años aproximadamente
En base a la gráfica obtenida de la variable edad, podemos analizar la Curtosis y asimetría que presentan estos datos.
En cuanto a la curtosis al obtener un valor de 2.69 y ser este un valor menor a 3 podemos decir que es de forma Platicúrtica, es decir existe una baja concentración de los valores en torno a su media y en cuanto a la asimetría este dato nos indica que tan simétricos es la distribución de los datos de una variable, en este caso la edad con respecto a su media, para lo cual el valor obtenido fue de 0.316 y podemos afirmar basándonos en la gráfica que presenta una asimetría positiva, es decir las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras que en el lado derecho hay frecuencias más pequeñas o más separadas de la media.
Gráficos 2.
[pic 2] [pic 3]
Análisis grafico 3.
Con la ayuda de la función barplot logramos hacer una gráfica de barras en donde se relaciona en el eje x el tipo de contagio (En estudio, Importado, Relacionado) y a partir de esto comparar que generó presenta más contagios ya que en el eje y se muestra el número de casos. A Partir de lo presentado logramos concluir que la mayoría de los casos que hay hasta el día en que se generó la base de datos se encontraban en estudio y que en el estado de “En estudio” la mayoría de los que se presentan son mujeres, en comparación con el estado de “Relacionado” e “Importado” El relacionado presenta mayor presencia lo que quiere decir que el tipo de contagio presente en Colombia ya no es en mayoría por ingreso de personas del extranjero si no que por contagio entre personas en el mismo país en este los hombres son quienes más se contagiaron, en el caso de “Importado” la mayoría de reportados en esta parte son hombres que entraron a Colombia desde el extranjero con el virus.
Gráfico 3.
[pic 4]
Análisis grafico 4.
Analizando los datos de casos positivos de Covid-19 en Colombia encontramos que 255 de los casos que se encuentran en el país han sido importados desde España, siendo 128 hombres y 127 mujeres. Seguido de Estados Unidos de América con un total 203 casos importados, de estos 94 pertenecen al género femenino y 109 al masculino. Pero como se puede ver en los datos se incluye en países de procedencia a Colombia, porque han sido más los casos que en su forma de contagio han sido relacionados, o sea que, han tenido contacto con algunos portadores del virus. Dado esto encontramos que Colombia es el que puntúa dentro de estos países.
Cabe resaltar que muchos de estos casos positivos importados vienen precisamente de países que actualmente presentan cifras elevadas de contagio y muertes por Covid-19. Aún así para este análisis resulta extraño ver que se presentan tan solo nueve casos, a la fecha de esta base, procedentes de países como Italia que también han tenido altas cifras de contagio. También seguido de España y Estados Unidos encontramos Ecuador, país con el que compartimos frontera, que tuvo un colapso del sistema de salud por el cual presentó elevadas cifras de muertes provocadas por el virus.
...