ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Analisis de Sentimiento Tweets.


Enviado por   •  11 de Febrero de 2016  •  Informes  •  2.980 Palabras (12 Páginas)  •  115 Visitas

Página 1 de 12

Análisis de la Información de los Tweets en la Universidad de Guayaquil usando Hive sobre Hadoop

Information Analysis of Tweets at the University of Guayaquil on Hadoop using Hive

, ,   y [pic 1][pic 2][pic 3][pic 4][pic 5]

[pic 6]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

𝑔𝑎𝑟𝑦.𝑟𝑒𝑦𝑒𝑠𝑧@𝑢𝑔.𝑒𝑑𝑢.𝑒c

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 7]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 8]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 9]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 10]

Universidad de Guayaquil

Facultad de Ciencias Matemáticas y Físicas

Carrera Ingeniería en Sistemas Computaciones

[pic 11]

Resumen

   Debido a la importancia que existe hoy en día de analizar los millones de Tweets que se generan y al constante crecimiento de los datos en ésta red social, es necesaria la búsqueda de nuevas plataformas que ayudaran al almacenamiento y análisis de la información, con el consumen menos recursos tecnológicos. Que sean capaces de ser escalables y  una alta disponibilidad al momento de utilizarse. En este artículo se explica cómo se implementa una solución  para el análisis de los Tweets extraídos desde una cuenta de Twitter a través del API (TWITTER) que nos proporciona ésta red social.

El trabajo realizado consiste en procesar información, implementar el Datawarehouse Hive sobre la plataforma Hadoop, y los resultados presentarlos en forma estadística y gráfica que permiten realizar los análisis correspondientes. y esto nos demostró la capacidad, escalabilidad y menor costo que tiene esta plataforma en ejecución en comparación con otras plataformas. En el ambiente de prueba nos demostraron que un futuro exista una gran escalabilidad y un bajo costo al momento de utilizar el Framework Hive sobre Hadoop, se espera implementar el análisis de Sentimiento de Twitter en la Universidad de Guayaquil.

Palabras Claves: HIVE, HADOOP, TWITTER, escalabilidad, API.

Abstract

To perform the analysis of the tweets and constant growth of data that exists today in this network seeking new platforms that help us to storage and analysis of information, which consume fewer resources become very necessary, be able to be scalable and high availability when used. This paper will explain how a solution for the analysis of the tweets pulled from Twitter API implemented. This consists of processing information, implementing the data warehouse HIVE on HADOOP platform after this submission in statistical form and make corresponding analysis in a graphical report, and this showed us the capacity, scalability and lower cost than has this platform performance compared to other platforms. In the test environment we demonstrated that there is a future high scalability and low cost when using the Hive for Hadoop Framework is expected to implement the Twitter sentiment analysis at the University of Guayaquil to all Student Twitter users.

Keywords: HIVE, HADOOP, TWITTER, scalability and API.

  1. Introducción

El presente documento tiene como objetivo dar un estudio comparativo de los tiempos de respuesta del análisis de los datos de la API TWITTER sobre un ambiente distribuido open source.

En el tiempo se han desarrollado versiones de sistemas transacciones, de gestión de datos, así mismo muchas soluciones tecnológicas, las misma que en sus primeras etapas de funcionamiento lo realizan correctamente, pero con los años el nivel de dato aumenta y cada vez se considera más difícil analizar en una base tradicional, estos es un problema ya que al momento de brindar el servicio o adquirir nuevas licencias estas no sean compatibles con nuestros hardware y tendríamos que cambiar toda nuestra infraestructura y ciclo se repetiría cada cierto tiempo.

Una de la ideas o investigación que  realizo el grupo de la Carrera de Ingeniería en Sistemas de la Universidad de Guayaquil, es fragmentar toda esta información y distribuirla en diferentes bases de datos, pero estos nos llevó a complicarnos la lógica de la investigación y la gestión que se realizaría, y a la escalabilidad que se busca en este proyecto, por ello se buscó nuevas alternativas que simplifiquen la escalabilidad del sistemas.

De manera de general se encontró que “Hadoop es una plataforma que proporciona escalabilidad horizontal, basta con agregar más maquinas al sistemas para añadir más capacidad, lo cual se realiza de manera transparente y sin complicaciones” (Mercedes A. Iván E)

  1. Fundamentos de Hadoop

Hadoop provee de manera transparente fiabilidad y el manejo de grandes volúmenes de información, ya que se implementa el MapReduce, donde esta hace que la aplicación se divida  en pequeños fragmentos de tareas, y sean ejecutados por los nodos del clúster. Este sistema cuenta con HDFS quien realiza el almacenamiento de datos en los nodos.

Podríamos decir que Hadoop es accesible, escalable, simple y robusto, capaz de almacenar y ordenar cualquier información de gran volumen, también se puede decir que es tolerante a fallos.

  1. Componentes que Integran a Hadoop

[pic 12] 

Figura 1 Componentes Hadoop (16)

En la figura 1 es una representación de la Distribución de Haddop con sus componentes y de su estructura a nivel de data.

Se describe a continuación algunos de los componentes que se van a utilizar o que utiliza este framework.

HDFS. “Es el sistema de almacenamiento de ficheros, este se encuentra optimizado” (Jasón V, pg. 20) y listo para trabajar con grandes flujos de ficheros gracias a su escalabilidad y disponibilidad que ofrece esta herramienta.

 En HDFS se almacenaran todos los ficheros partiéndolos en bloques estos a medida que se vaya recopilando los datos de los Tweets se van almacenando en HDFS, con el fin de minimizar el coste por búsquedas.

...

Descargar como (para miembros actualizados)  txt (23.5 Kb)   pdf (1.1 Mb)   docx (2.5 Mb)  
Leer 11 páginas más »
Disponible sólo en Clubensayos.com