“Big Data para Gestión de Redes Inteligentes”
Enviado por Josue Martínez • 20 de Octubre de 2022 • Informe • 897 Palabras (4 Páginas) • 129 Visitas
[pic 1]
Unidad 1
“Big Data para Gestión de Redes Inteligentes”
Informe para evaluar el Saber Hacer de la materia de Tecnologías para el Manejo Masivo de Datos
Ingeniería
En
Redes Inteligentes y Ciberseguridad
Elaborado por:
Josué Martínez Hernández
Maestro:
M.A. Patricia Guadalupe Mora González [pic 2][pic 3]
Índice
Introducción 1
Fuentes de datos 2
Técnicas de recopilación de información 2
Diagrama de la estructura del almacén de datos 2
Procesamiento paralelo de los datos 3
Programa que realiza el proceso de análisis, detección de patrones y visualización de los datos 3
Power BI 3
Conclusiones 5
Introducción
El presente reporte tiene como objetivo explicar el proceso para realizar la visualización de datos usando la herramienta Power BI de Microsoft.
Primero se verá el proceso de obtención de los datos y donde se obtuvieron estos. Luego se describirá la técnica de recopilación de datos que se utilizo para extraer los datos. En seguida se verá el diagrama que explica de manera visual el diagrama del almacenamiento de datos, así como también el proceso en general tomando en cuenta los puntos mencionados previamente. Después se verá una tabla en la que se expresa el modo de procesamiento paralelo que se utilizó al igual que su tipo. Al final se describe el uso de la información que se obtuvo luego de pasar por los procesos previos para finalmente elaborar una visualización de los datos en donde se observaron algunos patrones en los datos los cuales se ven en el reporte final elaborado con Power BI.
Fuentes de datos
La fuente de datos que uso para elaborar este reporte fue de un repositorio de GitHub llamado vgsales-data-analysis el cual a su vez se basó de una página web llamada VGChartz usando el web scraping. El archivo en formato CSV contiene información sobre videojuegos con ventas por región mayores a 100,000 copias.
Técnicas de recopilación de información
La técnica utilizada fue el web scraping como se mencionó anteriormente. La herramienta que se utilizó fue una librería de Python llamada “Beautiful Soup”.
Diagrama de la estructura del almacén de datos
[pic 4]
El diagrama explica el proceso que se llevó a cabo desde la recolección de los datos desde VGChartz mediante el web scraping, luego paso por el proceso de transformación en donde se le dio un formato CSV a los datos, para luego cargarlos en el repositorio de GitHub. Y al final se descargan esos datos y se cargan en Power BI para realizar la visualización de los datos.
Procesamiento paralelo de los datos
Modo de procesamiento paralelo de los datos | Tipo de arquitectura de procesamiento |
Procesamiento paralelo masivo | Clúster de computadoras |
...