BIG DATA. CAPTURA, ANÁLISIS, TRANSFORMACIÓN, ALMACENAMIENTO Y EXPLOTACIÓN DE CONJUNTOS MASIVOS
Enviado por Angel A Ayesteran Q • 4 de Octubre de 2020 • Apuntes • 662 Palabras (3 Páginas) • 618 Visitas
BIG DATA. CAPTURA, ANÁLISIS, TRANSFORMACIÓN, ALMACENAMIENTO Y EXPLOTACIÓN DE CONJUNTOS MASIVOS DE DATOS. ENTORNOS HADOOP O SIMILARES. BASES DE DATOS NOSQL
BIG DATA:
Definición de Gartner: “activos de información caracterizados por su volumen elevado, velocidad elevada y alta variedad, que demandan soluciones innovadoras y eficientes de procesado para la mejora del conocimiento y la toma de decisiones en las organizaciones”.
Las Vs de Big Data:
Volumen: se trabaja con gran cantidad de datos.
Velocidad: los datos en movimiento como consecuencia de la creación de datos en tiempo real
Variedad: diferentes tipos de fuentes y de datos.
Se han propuesto nuevas “V” como Valor, Veracidad y Visualización; o incluso Volatilidad, Validez y Viabilidad.
DIFERENCIA ENTRE BIG DATA Y BUSINESS INTELLIGENCE:
El objetivo de Big Data es ayudar en la toma de decisiones analizando volúmenes muy grandes de datos tanto transaccionales como de otras fuentes de datos que pueden quedar sin explotar por el BI. Big Data analiza bases de datos estructurados (Fichas clientes, transacciones), no estructurados (M2M, Sensores, Información de las redes sociales…) y semiestructurados. (ej. mails: parte estructurada: destinatario, asunto… parte no estructurada: cuerpo del mensaje).
Como resultado, las tecnologías relacionadas con Big Data incluyen bases de datos NoSQL, Hadoop y MapReduce . Estas tecnologías soportan el procesamiento de grandes volúmenes de datos a través de sistemas en clúster.
PROCEDENCIA DE LA INFORMACIÓN:
Se pueden distinguir las siguientes categorías o tipos de datos según el estado actual de la tecnología:
Web and Social Media : Incluye contenido web e información que es obtenida de las redes sociales.
Machine-to-Machine (M2M) : tecnologías que permiten conectarse a otros dispositivos como sensores.
Big Transaction Data : Incluye registros de facturación, de llamadas (CDR), etc.
Biometrics : huellas digitales, escaneo de la retina, reconocimiento
facial, genética, etc.
Human Generated : Las personas generan gran cantidad de datos como correos, documentos electrónicos, archivos de voz…
ENTORNOS HADOOP:
Hadoop es un proyecto de código abierto de la fundación Apache que hace uso de dos servicios fundamentalmente:
Almacenamiento fiable de datos utilizando HDFS (Hadoop Distributed File System)
Procesamiento de datos en paralelo para sistemas de alto rendimiento mediante MAP-REDUCE
HDFS (HADOOP DISTRIBUTED FILE SYSTEM)
HDFS es un sistema de archivos distribuido en cada nodo del clúster basado en el sistema de archivos GFS (Google File System). Es un sistema de ficheros distribuido, escalable,
...