BIG DATA
Enviado por Vale Pedraza • 6 de Noviembre de 2022 • Resumen • 1.763 Palabras (8 Páginas) • 43 Visitas
BIG DATA
- Es un conjunto de datos estructurados y no estructurados, cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento dificultan su captura, gestión y procesamiento. Es decir grandes volúmenes de informacion
- La importancia recae en que hacen las organizaciones con esos datos para tomar mejores decisiones
- El tamaño para determinar si un conjunto de datos se considera parte del Big Data o no cambia con el tiempo, actualmente son conjuntos de datos desde 30-50 Terabytes a varias Petabytes
HISTORIA
Hay que tener en cuenta que el concepto es relativamente nuevo, sin embargo, tiene orígenes desde 1960 y 1970. Alrededor del 2005 la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios por medio de Facebook, youtube y otros servicios, ese mismo año se desarrolla Hadoop que es un marco de código abierto creado para almacenar y analizar grandes conjunto de datos. Esto hacia que el big
Además con la llegada del internet de las cosas (IoT) hay mayor cantidad de dispositivos conectados a internet que generan datos sobre patrones de uso de los clientes y el rendimiento, lo cual genero un aprendizaje automático
En los últimos años la cantidad de información creada es cada vez mayor, por lo cual se dificulta su manejos. Esos datos se dividen en datos estructurados como bases de datos (Excel) sql donde los datos están definidos y datos no estructurados tipo j, donde se trabajan datos no sql, donde un un campo puede haber diferentes campos con información que puede variar
En conclusiones el big data, es un conjunto de herramientas para gestionar y grandes bases de datos. Por medio de framworks o marcos, que es una estructura de trabajo utilizado por programadores para el desaroollo de software . Existen frameworks como cassandra, hadoop o soark.
- Hadoop almacena y procesa datos mediante un sistema de archivos distribuidos que almacena big data dividido en fragmentos mas pequeños almacenado en varios dispositivos, donde las copias de cada archivo van en diferentes nodos, con el fin de almacenar los datos de manera distribuida y segura. Además usa una técnica de mapreduce que procesa grandes datos, donde divide las tareas y los dispositivos la completan de forma paralela, siendo un procesamiento paralelo fácil y rápido, para que asi los datos sean analizados
- Spark es un framework de código abierto, es decir, que puede ser modificado para crear versiones personalizadas a problemas específicos. Trabaja in memory es decir que tranfiere sus datos desde los discos duros a una memoria principal para realizar un análisis de datos al nivel multipetabyte debido a su velocidad. Ademas usa cluster computing, es decir muchos nodos y ordenadores para su calculo y almacenamiento , acelerando la operación de lectura de datos
IMPORTANCIA
- Proporciona respuestas a muchas preguntas de empresas. Son un punto de referencia con gran cantidad de información donde los datos pueden ser moldeados de acuerdo con lo que la empresa considere
- Por medio de la recopilación de datos y búsqueda de tendencias dentro de los datos, la empresa puede identificar problemas, tener operaciones mas eficientes, mayores ganancias y clientes mas fieles
- Las empresas pueden aumentar su valor con Big Data haciendo:
- Reducir coste: grandes tecnologías de datos como Hadoop y análisis basado en la nube aportan ventajas para almacenar grandes cantidades de datos y su meno de manera eficiente
- Rapidez en toma de decisiones: con la velocidad y analítica las empresas pueden analizar la infromacion de manera inmediata
- Nuevos productos y servicios: capacidad de medir las necesidades de los clientes y satisfacción
DESAFIOS
- El principal desafio es la calidad de datos conocidas como las 5 Vs: volumen (cantidad de información) , velocidad (rapidez con la que se obtienen los datos), variedad (tipos de datos), veracidad (si el datos es confiable o no) y valor (cantidad de dinero que se puede obtener de un dato, en sentido que la información aporta a la toma de decisones) lo cual genera una dificultad en las empresas de extraer datos reales de alta calidad, conjuntos de datos masivos, cambiantes y complicados
- Existen muchas fuentes y tipos de datos que dificultan su integración. Entre las fuentes encontramos (datos de internet y móviles, datos de internet de las cosas, datos sectoriales y datos experimentales), además existen tipos de datos no estructurados como documentos, videos o audios, tipos de datos semi-estructirados como software, informes y datos estructurados que consta solo de un 20% lo cual puede provocar errores
- Gran volumen de datos que complica la ejecución de un proceso de calidad de datos. Es mas difícil recolectar, limpiar, integrar y obtener datos de alta calidad y requiere de mayor tiempo transformar datos no estructurados a estructurados
- Mayor volatilidad, los datos cambian de manera rápida por lo cual es necesario que de procesen de manera rápida y eficaz, ya que si no se hace de manera correcta puede llevar a conclusiones erróneas al tomar decisiones
CASOS BIG DATA
[pic 1]
MCDONALDS Y SUS PANTALLAS DIGITAKES: En estas pantallas quedan registrados todos los pedidos de los usuarios, lo que pemite a mcdonalds personalizar la experiencia en función del momento del dia, del tipo de consulta que hacemos generando que estas pantallas nos muestren diferentes productos, lo cual se refleja en un mayor aumento de ventas
ZARA: usa datos en su sector, zara conocen las tendencias mas importantes. Produce de anera masiva la ripa. Se sustenta en datos de compras de los consumidores y además de sus competidores , procesado esos datos y utilizando algoritmos en cuanto a la toma de decisiones y probabilidad de compra identificado ais las tendencias y desarrollándolas
...