Analisis de Sentimiento Tweets.

luisitopa2384Informe11 de Febrero de 2016

2.980 Palabras (12 Páginas)193 Visitas

Página 1 de 12

Análisis de la Información de los Tweets en la Universidad de Guayaquil usando Hive sobre Hadoop

Information Analysis of Tweets at the University of Guayaquil on Hadoop using Hive

, , y [pic 1][pic 2][pic 3][pic 4][pic 5]

[pic 6]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

𝑔𝑎𝑟𝑦.𝑟𝑒𝑦𝑒𝑠𝑧@𝑢𝑔.𝑒𝑑𝑢.𝑒c

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 7]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 8]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 9]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 10]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 11]

Resumen

Debido a la importancia que existe hoy en día de analizar los millones de Tweets que se generan y al constante crecimiento de los datos en ésta red social, es necesaria la búsqueda de nuevas plataformas que ayudaran al almacenamiento y análisis de la información, con el consumen menos recursos tecnológicos. Que sean capaces de ser escalables y una alta disponibilidad al momento de utilizarse. En este artículo se explica cómo se implementa una solución para el análisis de los Tweets extraídos desde una cuenta de Twitter a través del API (TWITTER) que nos proporciona ésta red social.

El trabajo realizado consiste en procesar información, implementar el Datawarehouse Hive sobre la plataforma Hadoop, y los resultados presentarlos en forma estadística y gráfica que permiten realizar los análisis correspondientes. y esto nos demostró la capacidad, escalabilidad y menor costo que tiene esta plataforma en ejecución en comparación con otras plataformas. En el ambiente de prueba nos demostraron que un futuro exista una gran escalabilidad y un bajo costo al momento de utilizar el Framework Hive sobre Hadoop, se espera implementar el análisis de Sentimiento de Twitter en la Universidad de Guayaquil.

Palabras Claves: HIVE, HADOOP, TWITTER, escalabilidad, API.

Abstract

To perform the analysis of the tweets and constant growth of data that exists today in this network seeking new platforms that help us to storage and analysis of information, which consume fewer resources become very necessary, be able to be scalable and high availability when used. This paper will explain how a solution for the analysis of the tweets pulled from Twitter API implemented. This consists of processing information, implementing the data warehouse HIVE on HADOOP platform after this submission in statistical form and make corresponding analysis in a graphical report, and this showed us the capacity, scalability and lower cost than has this platform performance compared to other platforms. In the test environment we demonstrated that there is a future high scalability and low cost when using the Hive for Hadoop Framework is expected to implement the Twitter sentiment analysis at the University of Guayaquil to all Student Twitter users.

Keywords: HIVE, HADOOP, TWITTER, scalability and API.

Introducción

El presente documento tiene como objetivo dar un estudio comparativo de los tiempos de respuesta del análisis de los datos de la API TWITTER sobre un ambiente distribuido open source.

En el tiempo se han desarrollado versiones de sistemas transacciones, de gestión de datos, así mismo muchas soluciones tecnológicas, las misma que en sus primeras etapas de funcionamiento lo realizan correctamente, pero con los años el nivel de dato aumenta y cada vez se considera más difícil analizar en una base tradicional, estos es un problema ya que al momento de brindar el servicio o adquirir nuevas licencias estas no sean compatibles con nuestros hardware y tendríamos que cambiar toda nuestra infraestructura y ciclo se repetiría cada cierto tiempo.

Una de la ideas o investigación que realizo el grupo de la Carrera de Ingeniería en Sistemas de la Universidad de Guayaquil, es fragmentar toda esta información y distribuirla en diferentes bases de datos, pero estos nos llevó a complicarnos la lógica de la investigación y la gestión que se realizaría, y a la escalabilidad que se busca en este proyecto, por ello se buscó nuevas alternativas que simplifiquen la escalabilidad del sistemas.

De manera de general se encontró que “Hadoop es una plataforma que proporciona escalabilidad horizontal, basta con agregar más maquinas al sistemas para añadir más capacidad, lo cual se realiza de manera transparente y sin complicaciones” (Mercedes A. Iván E)

Fundamentos de Hadoop

Hadoop provee de manera transparente fiabilidad y el manejo de grandes volúmenes de información, ya que se implementa el MapReduce, donde esta hace que la aplicación se divida en pequeños fragmentos de tareas, y sean ejecutados por los nodos del clúster. Este sistema cuenta con HDFS quien realiza el almacenamiento de datos en los nodos.

Podríamos decir que Hadoop es accesible, escalable, simple y robusto, capaz de almacenar y ordenar cualquier información de gran volumen, también se puede decir que es tolerante a fallos.

Componentes que Integran a Hadoop

[pic 12]

Figura 1 Componentes Hadoop (16)

En la figura 1 es una representación de la Distribución de Haddop con sus componentes y de su estructura a nivel de data.

Se describe a continuación algunos de los componentes que se van a utilizar o que utiliza este framework.

HDFS. “Es el sistema de almacenamiento de ficheros, este se encuentra optimizado” (Jasón V, pg. 20) y listo para trabajar con grandes flujos de ficheros gracias a su escalabilidad y disponibilidad que ofrece esta herramienta.

En HDFS se almacenaran todos los ficheros partiéndolos en bloques estos a medida que se vaya recopilando los datos de los Tweets se van almacenando en HDFS, con el fin de minimizar el coste por búsquedas.

En esta parte se configurarán los nodos donde se regularan el acceso a ficheros y control de bloques de cada nodo del sistema.

MapReduce. “Es un proceso creado para la distribución de datos” (Jasón V, pg. 24). Permitirá trabajar en paralelo con los grandes volúmenes de datos que ingresaran desde la web. A este se lo conoce como el JobTacker,

[pic 13]

Figura 2 JobTacker

Apache Flume. “Es un sistema muy eficiente que nos permitirá capturar y mover gran cantidad de datos” (Jasón V, pg. 30) a los diferentes servidores o repositorios que estén configurados, este proceso lo que hace es recolectar la información de la API (TWITTER) del Tweets y almacenarlos en Hadoop para su análisis.

Este servidor transmitirá el flujo de datos en línea al sistema de almacenamiento HDFS como muestra en la figura 3

[pic 14]

Figura 3 Funcionamiento del Flume (17)

Hive. “Este proporciona grandes datasets que se encuentran almacenados en Hadoop” (Jasón V, pg. 35), facilita el uso de los datos por medio de queries ad-hoc, utiliza la interfaz JDBC/OBDC y esto integra la herramientas de BI.

Como tal es una Base de Datos no relacional donde se crearan las tablas y la información extraída del API (TWITTER) serán guardadas para luego ser procesadas en HDFS

[pic 15]

Figura 4 Interacción del Hive con sus componentes (16)

HBase. “Es un componente de Hadoop que se usa para la escritura/lectura en tiempo real y al acceso a los grandes volúmenes de información” (Jasón V, pg. 45). Este es un esquema de base datos no relacional.

En teoría esta Base de Datos no se utilizó en el proyecto, ya que se está utilizando el Hive como medio de almacenamientos de Datos

[pic 16]

Figura 5 Base no Relacional HBase (17)

Análisis de la solución

Requerimientos Funcionales

La herramienta deberá permitir la carga de los Tweets (UG Guayaquil) a la base de datos de Hadoop (HIVE).

Tiempo de Respuesta debe ser rápida a medida que se carguen los datos desde la Web.

EL resultado se visualizara de manera gráfica en un archivo Excel.

Requerimientos No funcionales

Poder aumentar la extracción de información desde la web y que las consultas sean en menor tiempo.

El crecimiento de los datos en una infraestructura escalar.

Que sea económica y que con el tiempo no debe usar herramientas costosas.

Diseño de la Solución

En esta parte se dará a conocer como se realizó el análisis de la información y el diseño general del sistema que se implementara para el API (TWITTER) de los Tweets de la Universidad de Guayaquil.

...

Descargar como (para miembros actualizados) txt (23 Kb) pdf (1 Mb) docx (3 Mb)

Leer 11 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com