Metodología de la Investigación Limpieza de dataset
Enviado por sope1975 • 14 de Junio de 2021 • Práctica o problema • 1.608 Palabras (7 Páginas) • 680 Visitas
[pic 1][pic 2][pic 3]
UNIVERSIDAD INTERNACIONAL DE LA RIOJA
MAESTRÍA EN ANÁLISIS Y VISUALIZACIÓN DE DATOS
Metodología de la Investigación
Limpieza de dataset
Presenta
Soto Piña Erika Sagrario
CDMX, mayo 2021
Contenido
Elementos susceptibles de ser limpiados: 2
Caso 1 2
Caso 2 2
Caso 3 3
Caso 4 3
Caso 5 4
Caso 6 4
Caso 7 5
Formato JSON equivalente al CSV 5
Metodología Aplicada 5
Mejoras al conjunto de datos 6
Propuesta 1: 6
Propuesta 2 6
Elementos susceptibles de ser limpiados:
Caso 1
- Descripción del Problema
Problema: La columna “CrimeId” presenta duplicados.
Como se ha detectado: Se ocupa una herramienta que permite buscar duplicados por cada columna colocándolos en rojo.
Por qué crees que se trata de un problema: Es un problema porque se trata de un campo que se ocupa como campo único o primary key.
Un ejemplo completo extraído del propio dataset: Celdas o renglón 28 y 1709
[pic 4]
- Forma de solucionarlo
- Una alternativa puede ser solo dejar el primero que se encuentre y eliminar el o los registros duplicados.
- Otra alternativa, puede ser crear un propio campo ID y hacer este como primary Key.
En este caso en particular, optaría por la primera opción, porque se puede ver claramente que los registros están en orden numérico de menor a mayor y en el caso del CrimenId con valor 160913455, el de la celda 1709 no le corresponde porque está entre los ID 160932613 y 160932616.
Caso 2
- Descripción del Problema
Problema: La columna “OffenseDate” presenta fecha no valida.
Como se ha detectado: Las columnas “OffenseDate” y “CallDateTime” son la misma fecha la diferencia es el formato, se colocan las dos columnas con el mismo formato y las que tenga diferencias son el problema.
Por qué crees que se trata de un problema: Es un problema porque una de las fechas es una fecha futura 2025, la otra es 2013 y todos los demás datos son del 2016.
Un ejemplo completo extraído del propio dataset: Celdas o renglón 7927
[pic 5]
- Forma de solucionarlo
Una alternativa puede hacer un update en todas las celdas “OffenseDate” donde sea diferente “CallDateTime” con el formato “AAAAMMDD” y colocar la fecha que trae el campo “CallDateTime” con el formato sin hora.
Caso 3
- Descripción del Problema
Problema: La columna “City” presenta dato no valido.
Como se ha detectado: Se busca los registros que presenten una longitud menor a 4 caracteres (consideración personal) y diferente de vacío o blanco y el resultado son el problema.
Por qué crees que se trata de un problema: Porque se revisa el catálogo de datos posibles y no encaja en ninguno además que la información mostrada no es el nombre de una ciudad.
Un ejemplo completo extraído del propio dataset: Celdas o renglón 8023
[pic 6]
- Forma de solucionarlo
Una alternativa puede hacer un update colocando el campo en blanco.
Caso 4
- Descripción del Problema
Problema: La columna “State” presenta dato no valido.
Como se ha detectado: Se busca los registros que presenten una longitud 0 caracteres o null y el resultado son el problema.
Por qué crees que se trata de un problema: Porque se revisa el catálogo de ese campo todas tienen como valor CA, y se encuentran 3 registro vacíos al revisarlo se ve q los valores están corrida a la derecha y solo representa el 3% de la información.
Un ejemplo completo extraído del propio dataset: Celdas o renglón 5773
[pic 7]
- Forma de solucionarlo
Una alternativa puede hacer un update colocando el campo con valor CA.
Caso 5
- Descripción del Problema
Problema: La columna “AgencyId” presenta dato no valido.
Como se ha detectado: Se revisa los posibles valores y todos traen como valor “1” solo 3 registros traen el problema mismos registro del punto anterios.
Por qué crees que se trata de un problema: Porque se revisa el catálogo de ese campo todas tienen como valor 1, y se encuentran 3 registro como valor “CA” al revisarlo se ve q los valores están corrida a la derecha y solo representa el 3% de la información.
Un ejemplo completo extraído del propio dataset: Celdas o renglón 5773
[pic 8]
- Forma de solucionarlo
Una alternativa puede hacer un update colocando el campo con valor 1.
Caso 6
- Descripción del Problema
Problema: La columna “AddressType” presenta dato no valido.
Como se ha detectado: Se rastrea los 3 registros de los casos 4 y 5 presentando dato no valido, longitud menos a 4 caracteres y la información mostrada no concuerda con los posibles valores, adicional se encuentra solo 1 registro de un tipo, lo cual se revisa y está mal escrito.
Por qué crees que se trata de un problema: Porque se revisa el catálogo de ese campo y 3 regsitros de casos anteriores arrastra el problema, el otro caso es el dato mal escrito.
...