Bases de datos para el Big Data. Actividad 1: limpieza de datos
Enviado por alsec • 18 de Abril de 2022 • Trabajo • 856 Palabras (4 Páginas) • 650 Visitas
Asignatura[pic 1] | Datos del alumno | Fecha |
Bases de datos para el Big Data | Apellidos: | |
Nombre: |
Actividad 1: limpieza de datos
Objetivo general
Con esta actividad vas a llevar a cabo una de las tareas más importantes y comunes para un científico de datos: la limpieza de datos. Revisarás cada variable, comprobarás la existencia de errores, identificarás datos ausentes, realizarás conversión de formatos si aplica y finalmente, una vez preparado el dataset, lo llevarás a una base de datos.
Descripción
Los datos para esta actividad están en el fichero data_act_01.cvs. Sobre dicho fichero llevarás a cabo la limpieza de datos. Existen al menos (6) seis errores que deben ser identificados y corregidos, con el fin de limpiar y homogeneizar el dataset final. Para cumplir con esta tarea se pide:
- Describe los problemas: para cada uno de los elementos susceptibles de ser limpiados, indica:
- Descripción del problema, indicando claramente:
- Qué o cuál es problema.
- Cómo se ha detectado.
- Por qué crees que se trata de un problema.
- Un ejemplo completo extraído del propio dataset.
- Forma de solucionarlo. Ten en cuenta que un mismo problema puede tener diferentes soluciones, por ello debes escoger la solución(es) que consideres más adecuada en cada caso. Es importante también justificar la elección de dicha solución. Es decir, explicar por qué el dataset final, tras aplicar la solución, es el más idóneo para ser tratado o es mejor que el dataset original.
Importante: cada problema detectado puede afectar a una o varias filas/columnas de tus datos. No debes centrarte en buscar problemas puntuales sino en identificar problemas tipo a los que habrá que darles una solución. Por ejemplo, si encuentro un error del tipo “X”, aplicaré la solución “Y”.
- Propón un formato JSON equivalente al CSV proporcionado. Cada documento JSON debe contener toda la información contenida en la fila correspondiente del documento CSV. Aprovecha esta conversión de formato (CSV a JSON) para eliminar los campos redundantes, los problemas del punto 1, etc. Describe todos estos cambios o transformaciones para que el profesor conozca el proceso utilizado.
- Describe una breve metodología (o aproximación de un método), clara y replicable que, basándose en tu proceso de limpieza, pueda ser aplicada sobre un nuevo dataset similar al que has tratado. El fin es poder afirmar que, usando tu metodología, el nuevo catálogo de datos estará limpio y listo para ser analizado. La metodología debe ser un listado de pasos fáciles de seguir, no ambiguos. Se valorará la claridad de la metodología y su fácil aplicación.
- Propón al menos dos mejoras en el conjunto de datos. Después de conocer el conjunto de datos utilizado, qué dos (o más) mejoras propondrías para garantizar la calidad de los datos. Ten en cuenta que estas mejoras pueden afectar al procedimiento de captura de datos o a la estructura de la base de datos, por ello explica tanto la mejora como el procedimiento para llevarla a cabo.
Entrega
- Entrega un informe con los elementos habituales (portada, índice, tu nombre, fecha, numeración de páginas, etc.).
- En él da respuesta a los cuatro apartados planteados anteriormente. Cada apartado debe ir resuelto en una sección diferente.
- El fichero JSON debe acompañar al informe propuesto y no debe contener ningún error de formato (validar previamente el formato JSON del fichero).
Extensión
El informe entregado no debe exceder las 6 páginas, sin contar portada e índices. Fuente utilizada Georgia 11 e interlineado 1,5. Utiliza la fuente Consolas para mostrar fragmentos de código.
...