IMPORTANCIA DE CALIDAD DE DATOS EN BIGDATA
Enviado por jofemen • 4 de Diciembre de 2021 • Informe • 3.951 Palabras (16 Páginas) • 73 Visitas
[pic 1][pic 2][pic 3][pic 4]
IMPORTANCIA DE LA CALIDAD DE DATOS EN BIGDATA
ÍNDICE
- Introducción 3
- Los riesgos de la calidad de datos en Big Data 4
Diversidad de fuentes y tipos de datos 5
- Cómo afrontar un proyecto de calidad de datos en Big Data 7
Primeros pasos para afrontar un proyecto Big Data 7
Afrontando el problema de Calidad de Datos en Big Data 8
Dónde aplicar calidad de datos en big data: direcciones y correos 10
- Garantizando la información mediante un Gobierno de datos
de Big Data con Calidad de Datos 13
Una vista única 13
Data Lakes 14
Experiencia del cliente 14
Calidad de los datos como servicio 14
- Conclusión 15
Banca y Finanzas 15
Producción 16
Seguros 16
Introducción
[pic 5][pic 6]
A medida que el volumen de datos generados por empresas, consumidores y servicios públicos crece (las expectati- vas son que en 2020 vamos a tener 50 veces más datos que hoy), las organizaciones van poniendo en marcha sus estrategias de datos.
Hoy en día las empresas tienen acceso a una avalancha de datos sobre el comportamiento de sus clientes, la percep- ción de marca, información de productos, problemas,... datos sobre todo lo que virtualmente puede tener impacto en su negocio.
Sin embargo, el desafío no reside solo en el volumen de datos, sino en el objetivo de dar sentido a todos esos datos.
La clave es convertir los datos en conocimiento dinámico que lleve a las empresas al desarrollo de nuevos pro- ductos y servicios, nuevos procesos de trabajo y nuevos modelos de negocio.
Los factores de éxito para un crecimiento impulsado por los datos radican en la capacidad de la empresa para poner en marcha el plan de gestión de datos más adecuado para que los datos no solo se almacenen, sino que se aprove- chen plenamente, donde quiera que se encuentren.
El objetivo principal de la gestión de big data es garantizar un alto nivel de calidad de los datos.
Los riesgos de la calidad de datos en Big Data
Big data es ya una tendencia. Son muchas las empresas que tienen estos proyectos encima de la mesa para poder hacer análisis predictivos muy completos que les ayuden a posicionar sus productos y que puedan darles opciones de identificar tendencias o patrones en sus clientes.
Pero esta tendencia también genera un gran riesgo ya que se trata de un tipo de información distinta a la informa- ción estructurada tradicional que está dentro de nuestra organización.
El big data presenta características diferentes al resto de datos que hacen que la calidad de datos del big data se enfrente a diferentes riesgos. Sus principales características se pueden reducir en las conocidas como 5 Vs: Volu- men, Velocidad, Variedad, Veracidad y Valor:
[pic 7]
Debido a estas 5 características del big data, cuando las empresas lo utilizan y procesan, se enfrentan con el pro- blema de tener que extraer datos reales y de alta calidad, de conjuntos de datos masivos, variables y complicados.
Antes del big data solamente teníamos un proceso que cargaba la información estructurada que teníamos en nuestro sistema: lista de clientes y ventas, por ejemplo, que estaban allí almacenadas. Todo eso se cargaba con un tradicional ETL.
Pero en la actualidad, con Hadoop podemos cargar información proveniente de fuera de nuestra organización, como campañas, comentarios o likes en redes sociales, etc., que nos avisan o nos ofrecen pistas sobre si nuestros productos están calando exitosamente en el mercado, no se venden o hay muchas reclamaciones, por ejemplo.
Todo esto hace que la calidad de datos del big data se enfrente a algunos desafíos que entrañan riesgos.
[pic 8]
Diversidad de fuentes y tipos de datos
La diversidad de fuentes de datos aporta abundantes tipos de datos y estructuras de datos complejas y aumenta la dificultad de integración de datos.
En el pasado, las empresas sólo utilizaban los datos generados a partir de sus propios sistemas empresariales, como las ventas y los datos de inventario. Pero ahora, los datos recogidos y analizados por las empresas han sobre- pasado este ámbito. Las fuentes de datos de big data son muy amplias, incluyendo:
- Conjuntos de datos de internet y de Internet móvil.
- Datos del Internet de las Cosas.
- Datos recogidos por diversas industrias.
- Datos experimentales y observacionales.
Estas fuentes producen:
- Datos no estructurados: documentos, vídeo, audio, etc.
- Datos semi-estructurados: paquetes / módulos de software, hojas de cálculo e informes financieros.
- Datos estructurados: solo son un 20% de la cantidad total de datos existentes.
Esta diversidad de fuentes y tipos de datos incrementan el riesgo de mostrar errores de calidad de datos debido sobre todo a ese 80% de información que no es completamente estructurada.
El big data es una estructura donde se almacena información y debe pasar un proceso de calidad de datos. De nada sirve enviar información semiestructurada, estructurada o una combinación, con salesforce, twitter, etc., si no la estamos sirviendo corregida, limpia, estandarizada y homologada.
Las dificultades que podemos ver con este tipo de datos en el big data es precisamente por el ingreso de este tipo de datos “no convencionales”. Quizás podemos caer en el error de pensar que algunos de estos datos no se les puede pasar un proceso “calidad de datos” pero no es así. Sí se puede hacer.
Enorme volumen de datos
El volumen de datos es tremendo, y es difícil juzgar la calidad de datos dentro de un tiempo razonable.
Después de la revolución industrial, la cantidad de información se duplicaba cada diez años. Después de 1970, la cantidad de información se duplicaba cada tres años. Hoy en día, la cantidad global de información puede dupli- carse cada dos años.
...