BIG DATA:ALTERNATIVA DE TRATAMIENTO A LA INCONMENSURABILIDAD COMPUTACIONAL
Enviado por Alejandro López C • 11 de Noviembre de 2018 • Monografía • 12.446 Palabras (50 Páginas) • 97 Visitas
BIG DATA:
ALTERNATIVA DE TRATAMIENTO A LA INCONMENSURABILIDAD COMPUTACIONAL
ALEJANDRO LÓPEZ CORREA
DIRECTORA:
PAULA ANDREA VILLA SANCHEZ
FACULTAD DE INGENIERÍAS: ELÉCTRICA, ELECTRÓNICA, FÍSICA Y CIENCIAS DE LA COMPUTACIÓN
INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
UNIVERSIDAD TECNOLÓGICA DE PEREIRA
PEREIRA, JUNIO 2016
Nota de aceptación
____________________________
____________________________
____________________________
____________________________
____________________________
____________________________
Firma de jurado 1
Pereira, junio de 2016
DEDICATORIA
A mi madre, a mi padre y especialmente a mi hermano, quienes me apoyaron y orientaron en el desarrollo de mis estudios.
AGRADECIMIENTOS
A la universidad Tecnológica de Pereira por brindarme un espacio integral de aprendizaje en mi formación academica.
A mi directora de proyecto de grado Paula Andrea Villa Sánchez por guiarmente en la formulación y desarrollo del proyecto.
A algunos amigos, compañeros y colegas que hicieron mi experiencia universitaria aún más enriquecedora: Nelson E. y Richard S., a quienes con cada conversación académica se les evidenciaba el deseo por aprender; a Santiago O. quien fue un compañero de trabajo de inicio de la carrera hasta el fin de la misma; y a Sebastian Z. a quien en cada conversación se le sentía vívidamente el deseo por convertirse en un excelente profesional, y así mismo al graduarme, con todos ellos, se que convertirán en excelentes profesionales y continuarán siendo excelentes seres humanos.
Tabla de contenido
Lista de tablas 7
Resumen 8
1 Datos en Big Data. 10
1.1 Estadísticas generales sobre crecimiento de datos: 10
1.2 Fuentes de datos usadas en Big Data. 11
1.3 Tipos de datos usados y gestores de datos. 13
2 Big Data Analytics: Técnicas. 22
2.1 Clases de técnicas analíticas. 22
2.2 Técnicas analíticas. 23
3 Entornos de trabajo, herramientas de análisis matemático y estadístico, y software complementario. 31
3.1 Entornos de trabajo 31
3.2 Herramientas de análisis matemático y estadístico 37
3.3 Software complementario 40
4 Discusión de resultados 49
4.1 Fases del proceso Big Data 49
4.2 Aportes del autor a la comunidad de investigadores de esta temática, especialmente a los que se inician en ella. 54
Conclusiones 55
Bibliografía 56
Lista de ilustraciones:
Ilustración 1Fuentes de Big Data (IBM, (2012)) 12
Ilustración 2Fuentes de Big Data con mercados bancarios y financieros (IBM, (2013)) 13
Ilustración 3The conceptual structure of a key/value store (McMurtry et al. (2012)) 17
Ilustración 4 An example set of documents in a document database (McMurtry et al. (2012)) 18
Ilustración 5 Personnel information structured as a graph (McMurtry et al. (2012)) 19
Ilustración 6 Implementing a one-to-many relationship in a relational database (McMurtry et al. (2012)) 20
Ilustración 7 The structure of data in a column-family database (McMurtry et al. (2012)) 21
Ilustración 8 Classes of Analytic Techniques (Booz Allen Hamilton, (2015)) 22
Ilustración 9 The Big Data Pipeline, propuesta CCC (Computing Community Consortium, (2012)) 49
Ilustración 10 Fases de proceso Big Data, propuesta monógrafia. 53
Lista de tablas
Tabla 1 Clasificación de técnicas analíticas. 29
Tabla 2 Frameworks Big Data 37
Resumen
En la actualidad Big Data –todo lo que no cabe en una sola máquina, tanto como en almacenamiento como en procesamiento y análisis de datos- está tomando mucha fuerza, así como todas las herramientas y técnicas que se están creando y reinventando constantemente, para poder cubrir las necesidades de esta tendencia. Este trabajo monográfico emerge con el propósito de aportar proactiva, preventiva y reactivamente, a situaciones tanto problemáticas como de oportunidad, que configuran tal tendencia; de distinguir e indicar algunas técnicas y herramientas que ésta usa, como también de establecer las fases del proceso que se debe realizar para sacar provecho de Big Data.
Introducción
Big Data posee muchos significados hoy en día, sin embargo, lo que se comprende habitualmente es que Big Data es todo lo que no cabe en una sola máquina, tanto como en almacenamiento como en procesamiento y análisis de datos.
Habitualmente para explicar Big Data se presentan las 5 Vs sobré ella, siendo así:
- Volumen: La gran cantidad de datos existente y la velocidad en la que se incrementa este volumen de datos.
- Variedad: La gran cantidad de tipos y representaciones de los datos, existiendo heterogeneidad entre ellos, siendo estructurados, semi-estructurados y no estructurados.
- Velocidad: La gran velocidad en la que se mueven estos flujos de datos y la necesidad de toma de decisiones en cuestión de segundos sobre los mismos.
- Veracidad: Consiste en la incertidumbre de los datos, corresponde a la fiabilidad que existe sobre ellos.
- Valor: Podria decirse que es la V más importante dado que consiste en la obtención de valor de los datos, esto significa sacarle provecho a todo el proceso obteniendo un valor de él.
Pero Big Data explicada de esa manera resulta algo ambigua, por tanto, surge la pregunta de investigación de esta monografía que podría aclarar un poco que significa Big data, así:
...