ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Metodología de la Investigación Limpieza de dataset


Enviado por   •  14 de Junio de 2021  •  Práctica o problema  •  1.608 Palabras (7 Páginas)  •  680 Visitas

Página 1 de 7

[pic 1][pic 2][pic 3]

UNIVERSIDAD INTERNACIONAL DE LA RIOJA

MAESTRÍA EN ANÁLISIS Y VISUALIZACIÓN DE DATOS

Metodología de la Investigación

Limpieza de dataset

Presenta

Soto Piña Erika Sagrario

CDMX, mayo 2021

Contenido

Elementos susceptibles de ser limpiados:        2

Caso 1        2

Caso 2        2

Caso 3        3

Caso 4        3

Caso 5        4

Caso 6        4

Caso 7        5

Formato JSON equivalente al CSV        5

Metodología Aplicada        5

Mejoras al conjunto de datos        6

Propuesta 1:        6

Propuesta 2        6


Elementos susceptibles de ser limpiados:

Caso 1

  1. Descripción del Problema

Problema:  La columna “CrimeId” presenta duplicados.

Como se ha detectado: Se ocupa una herramienta que permite buscar duplicados por cada columna colocándolos en rojo.

Por qué crees que se trata de un problema: Es un problema porque se trata de un campo que se ocupa como campo único o primary key.

Un ejemplo completo extraído del propio dataset:  Celdas o renglón 28 y 1709

[pic 4]

  1. Forma de solucionarlo
  • Una alternativa puede ser solo dejar el primero que se encuentre  y eliminar el o los registros duplicados.
  • Otra alternativa, puede ser crear un propio campo ID y hacer este como primary Key.

En este caso en particular, optaría por la primera opción, porque se puede ver claramente que los registros están en orden numérico de menor a mayor y en el caso del CrimenId con valor 160913455, el de la celda 1709 no le corresponde porque está entre los ID 160932613 y 160932616.

Caso 2

  1. Descripción del Problema

Problema:  La columna “OffenseDate” presenta fecha no valida.

Como se ha detectado:   Las columnas “OffenseDate” y “CallDateTime” son la misma fecha la diferencia es el formato, se colocan las dos columnas con el mismo formato y las que tenga diferencias son el problema.

Por qué crees que se trata de un problema: Es un problema porque una de las fechas es una fecha futura 2025, la otra es 2013 y todos los demás datos son del 2016.

Un ejemplo completo extraído del propio dataset:  Celdas o renglón 7927

[pic 5]

  1. Forma de solucionarlo

Una alternativa puede hacer un update en todas las celdas “OffenseDate” donde sea diferente “CallDateTime” con el formato “AAAAMMDD” y colocar la fecha que trae el campo  “CallDateTime” con el formato sin hora.

Caso 3

  1. Descripción del Problema

Problema:  La columna “City” presenta dato no valido.

Como se ha detectado: Se busca los registros que presenten una longitud menor a 4 caracteres (consideración personal) y diferente de vacío o blanco y el resultado son el problema.

Por qué crees que se trata de un problema:  Porque se revisa el catálogo de datos posibles y no encaja en ninguno además que la información mostrada no es el nombre de una ciudad.

Un ejemplo completo extraído del propio dataset:  Celdas o renglón 8023

[pic 6]

  1. Forma de solucionarlo

Una alternativa puede hacer un update colocando el campo en blanco.

Caso 4

  1. Descripción del Problema

Problema:  La columna “State” presenta dato no valido.

Como se ha detectado:   Se busca los registros que presenten una longitud 0 caracteres  o null  y el resultado son el problema.

Por qué crees que se trata de un problema:  Porque se revisa el catálogo de ese campo todas tienen como valor CA, y se encuentran 3 registro vacíos al revisarlo se ve q los valores están corrida a la derecha y solo representa el 3% de la información.

Un ejemplo completo extraído del propio dataset:  Celdas o renglón 5773

[pic 7]

  1. Forma de solucionarlo

Una alternativa puede hacer un update colocando el campo con valor CA.

Caso 5

  1. Descripción del Problema

Problema:  La columna “AgencyId” presenta dato no valido.

Como se ha detectado:   Se revisa los posibles valores y todos traen como valor “1” solo 3 registros traen el problema mismos registro del punto anterios.

Por qué crees que se trata de un problema:  Porque se revisa el catálogo de ese campo todas tienen como valor 1, y se encuentran 3 registro como valor “CA” al revisarlo se ve q los valores están corrida a la derecha y solo representa el 3% de la información.

Un ejemplo completo extraído del propio dataset:  Celdas o renglón 5773

[pic 8]

  1. Forma de solucionarlo

Una alternativa puede hacer un update colocando el campo con valor 1.

Caso 6

  1. Descripción del Problema

Problema:  La columna “AddressType” presenta dato no valido.

Como se ha detectado:   Se rastrea los 3 registros de los casos 4 y 5 presentando dato no valido, longitud menos a 4 caracteres y la información mostrada no concuerda con los posibles valores, adicional se encuentra solo 1 registro de un tipo, lo cual se revisa y está mal escrito.

Por qué crees que se trata de un problema:  Porque se revisa el catálogo de ese campo  y 3 regsitros de casos anteriores arrastra el problema, el otro caso es el dato mal escrito.

...

Descargar como (para miembros actualizados) txt (10 Kb) pdf (287 Kb) docx (176 Kb)
Leer 6 páginas más »
Disponible sólo en Clubensayos.com