El nuevo Reporte de datos- ciencia de datos
Enviado por juanmaalv • 19 de Febrero de 2018 • Tarea • 727 Palabras (3 Páginas) • 131 Visitas
Mauricio Anaya
Enero 2018
Ciencia de Datos e Inteligencia de Negocios
Tarea 1: “Reporte de calidad de datos”
Se analizó el archivo de “Accidents_2015”. Lo primero fue hacer una relación entre el número de accidentes que tuviera la misma cantidad de heridos:
1.-
[pic 1]
1.- la columna de la izquierda representa el #heridos y la de la derecha representa #accidentes en los que hubo esa cantidad de heridos.
Código:
N_by_casualty = pd.DataFrame(pd.value_counts(accidents['Number_of_Casualties']))
A continuación, se realizó un reporte estadístico de los datos del archivo:
2.-
[pic 2]
2.- tenemos columnas con datos como la media, desviación std, el valor mínimo, cuartiles y el valor máximo. Del lado izquierdo tenemos cada clasificación de datos del archivo.
Código:
quick_report1 = pd.DataFrame(accidents.describe().transpose())
quick_report2 = pd.DataFrame(accidents.describe(include=['object']).transpose())
Después se realizó un histograma con la frecuencia de accidentes por localización:
3.-
[pic 3]
3.- en el eje ‘y’ se muestra la localización y en el ‘x’ la frecuencia de accidentes en estas localizaciones. (nota: por definición, la frecuencia debería estar en el eje ‘y’, pero no supimos cómo lograrlo)
Código:
N_by_Location = pd.DataFrame(pd.value_counts(accidents['Location_Northing_OSGR']))
plt.hist(N_by_Location['Location_Northing_OSGR'],
bins=41)
plt.xlabel('Frequency')
plt.ylabel('Location')
plt.title('Location Histogram')
plt.show()
Luego determinamos el día en que suceden el mayor y menor número de accidentes:
4.-
[pic 4]
4.- en el lado izquierdo tenemos los días de la semana y en el lado derecho el número de accidentes. El día que más accidentes tuvo fue el sábado y el que menos accidentes tuvo fue el lunes.
Código:
N_by_day_week = pd.DataFrame(pd.value_counts(accidents['Day_of_Week']))
Continuamos con el archivo “Casualties_2015”:
Primero obtuvimos los reportes estadísticos:
5.-
[pic 5]
5.- tenemos columnas con datos como la media, desviación std, el valor mínimo, cuartiles y el valor máximo. Del lado izquierdo tenemos cada clasificación de datos del archivo.
Código:
quick_report1 = pd.DataFrame(casualties.describe().transpose())
quick_report2 = pd.DataFrame(casualties.describe(include=['object']).transpose())
Determinamos el número de hombres y mujeres que resultaron heridos en los accidentes:
6.-
[pic 6]
6.- en el lado izquierdo está representado el género por números. (no sabemos cuál representa cuál) y suponemos que el ‘-1’ son los géneros no identificados.
Código:
N_by_Sex = pd.DataFrame(pd.value_counts(casualties['Sex_of_Casualty']))
A continuación, mostramosn el histograma de personas heridas:
7.-
[pic 7]
7.- en el eje ‘y’ se muestra la edad y en el ‘x’ la frecuencia de accidentes por edades. (nota: por definición, la frecuencia debería estar en el eje ‘y’, pero no supimos cómo lograrlo; además de que se pierden datos)
Código:
N_by_age =pd.DataFrame(pd.value_counts(casualties['Age_of_Casualty']))
plt.hist(N_by_age['Age_of_Casualty'],
bins= 10)
plt.xlabel('Frequency')
plt.ylabel('Age')
plt.title('Casualties by Age Histogram')
plt.show()
Continuamos con el archivo “Vehicles_2015”
Primero obtuvimos los reportes estadísticos:
8.-
[pic 8]
8.- tenemos columnas con datos como la media, desviación std, el valor mínimo, cuartiles y el valor máximo. Del lado izquierdo tenemos cada clasificación de datos del archivo.
Código:
...