El nuevo Reporte de datos- ciencia de datos

juanmaalvTarea19 de Febrero de 2018

727 Palabras (3 Páginas)218 Visitas

Página 1 de 3

Mauricio Anaya

Enero 2018

Ciencia de Datos e Inteligencia de Negocios

Tarea 1: “Reporte de calidad de datos”

Se analizó el archivo de “Accidents_2015”. Lo primero fue hacer una relación entre el número de accidentes que tuviera la misma cantidad de heridos:

1.-

[pic 1]

1.- la columna de la izquierda representa el #heridos y la de la derecha representa #accidentes en los que hubo esa cantidad de heridos.

Código:

N_by_casualty = pd.DataFrame(pd.value_counts(accidents['Number_of_Casualties']))

A continuación, se realizó un reporte estadístico de los datos del archivo:

2.-

[pic 2]

2.- tenemos columnas con datos como la media, desviación std, el valor mínimo, cuartiles y el valor máximo. Del lado izquierdo tenemos cada clasificación de datos del archivo.

Código:

quick_report1 = pd.DataFrame(accidents.describe().transpose())

quick_report2 = pd.DataFrame(accidents.describe(include=['object']).transpose())

Después se realizó un histograma con la frecuencia de accidentes por localización:

3.-

[pic 3]

3.- en el eje ‘y’ se muestra la localización y en el ‘x’ la frecuencia de accidentes en estas localizaciones. (nota: por definición, la frecuencia debería estar en el eje ‘y’, pero no supimos cómo lograrlo)

Código:

N_by_Location = pd.DataFrame(pd.value_counts(accidents['Location_Northing_OSGR']))

plt.hist(N_by_Location['Location_Northing_OSGR'],

bins=41)

plt.xlabel('Frequency')

plt.ylabel('Location')

plt.title('Location Histogram')

plt.show()

Luego determinamos el día en que suceden el mayor y menor número de accidentes:

4.-

[pic 4]

4.- en el lado izquierdo tenemos los días de la semana y en el lado derecho el número de accidentes. El día que más accidentes tuvo fue el sábado y el que menos accidentes tuvo fue el lunes.

Código:

N_by_day_week = pd.DataFrame(pd.value_counts(accidents['Day_of_Week']))

Continuamos con el archivo “Casualties_2015”:

Primero obtuvimos los reportes estadísticos:

5.-

[pic 5]

5.- tenemos columnas con datos como la media, desviación std, el valor mínimo, cuartiles y el valor máximo. Del lado izquierdo tenemos cada clasificación de datos del archivo.

Código:

quick_report1 = pd.DataFrame(casualties.describe().transpose())

quick_report2 = pd.DataFrame(casualties.describe(include=['object']).transpose())

Determinamos el número de hombres y mujeres que resultaron heridos en los accidentes:

6.-

[pic 6]

6.- en el lado izquierdo está representado el género por números. (no sabemos cuál representa cuál) y suponemos que el ‘-1’ son los géneros no identificados.

Código:

N_by_Sex = pd.DataFrame(pd.value_counts(casualties['Sex_of_Casualty']))

A continuación, mostramosn el histograma de personas heridas:

7.-

[pic 7]

7.- en el eje ‘y’ se muestra la edad y en el ‘x’ la frecuencia de accidentes por edades. (nota: por definición, la frecuencia debería estar en el eje ‘y’, pero no supimos cómo lograrlo; además de que se pierden datos)

Código:

N_by_age =pd.DataFrame(pd.value_counts(casualties['Age_of_Casualty']))

plt.hist(N_by_age['Age_of_Casualty'],

bins= 10)

plt.xlabel('Frequency')

plt.ylabel('Age')

plt.title('Casualties by Age Histogram')

plt.show()

Continuamos con el archivo “Vehicles_2015”

Primero obtuvimos los reportes estadísticos:

8.-

[pic 8]

8.- tenemos columnas con datos como la media, desviación std, el valor mínimo, cuartiles y el valor máximo. Del lado izquierdo tenemos cada clasificación de datos del archivo.

Código:

...

Descargar como (para miembros actualizados) txt (6 Kb) pdf (649 Kb) docx (602 Kb)

Leer 2 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com