Desarrollo software

dariojuanitoTrabajo13 de Mayo de 2021

789 Palabras (4 Páginas)89 Visitas

Página 1 de 4

INTRODUCCIÓN

De acuerdo con IBM [1], cada día se generan alrededor de 2.5 quintillones de bytes de datos (1030), donde el 90% han sido creados en los últimos tres años. A su gestión eficiente se le conoce como Big Data, la cual es una nueva oportunidad para proponer ideas, generar análisis, reutilización de datos y contenidos, lo que optimiza una toma de decisión más adecuada. Facebook actualmente es la más grande red social, por ende es la mayor fuente de información no solo por el número de usuarios que tiene, sino también por los servicios y aplicaciones que ofrece, todo esto es posible gracias a la infraestructura de datos con la que cuenta. Esta investigación analiza como Facebook maneja su información, así como también las tecnologías asociadas, como por ejemplo: Apache Hadoop, HDFS, MapReduce y Hive, las cuales son fundamentales para la consolidación y funcionamiento de esta red social [2]. El resto del artículo ha sido organizado como sigue: La sección II describe el fundamento teórico. La sección III muestra los componentes involucrados en este análisis. La sección IV evidencia los resultados. Finalmente en la sección V se exponen las conclusiones y trabajos futuros.

turos. II. MARCO REFERENCIAL

A. Hadoop Distributed File System (HDFS) Sistema distribuido, escalable y portátil creado especialmente para trabajar con ficheros de gran tamaño, los cuales son divididos en bloques de un mismo tamaño y distribuidos entre los nodos que forman el clúster de datos. Un clúster HDFS utiliza dos tipos de nodos: (1) Namenode (JobTracker), de este tipo de nodo hay uno solo por clúster, el cual es responsable de la topología y distribución de procesos entre los demás nodos; (2)Datanodes (TaskTracker), de este tipo de nodos van a existir varios, los cuales realizan el acceso y almacenamiento de la información (bloques), así como también la recuperación bajo demanda.

B. Hive Solución de almacenamiento masivo de datos, el cuál integra funcionalidades de búsqueda a través de Apache Hadoop, las cuales son similares a RDBMS (Relational Database Management System), así como también usa especificaciones HiveQL, las cuales son similares a SQL. Hive destaca la optimización de consultas, debido a su estabilidad y rendimiento, más aún cuando el rendimiento es medido por el tiempo de respuesta y cantidad de procesos ejecutados .

C. Hadoop Provee un modelo confiable, escalable para ambientes distribuidos a gran escala, por medio del procesamiento en paralelo. Este modelo ofrece un almacenamiento local y difusión de información entre los nodos y clústeres definidos, garantizando una alta disponibilidad y detección de fallas, lo que permite entregar servicios altamente confiables.

D. MapReduce Modelo de programación diseñado para administrar grandes cantidades de datos (PetaBytes), el cual es utilizado para dar soporte a la computación paralela, este modelo arroja resultados a ficheros HDFS como archivos del sistema, lo que garantiza una alta disponibilidad y confiabilidad de los datos. Por lo tanto, la paralelización y procesamiento por lotes aceleraría la ejecución de las consultas, así como la ejecución de programas dentro de grandes clústeres de una manera distribuida, generando interdependencia en el almacenamiento y granularidad fina aplicada

13th LACCEI Annual International Conference: “Engineering Education Facing the Grand Challenges, What Are We Doing?” July 29-31, 2015, Santo Domingo, Dominican Republic 2 el adhoc (replica), evidenciando así la escalabilidad que maneja MapReduce (tiempos de respuesta), para finalmente interactuar constantemente con el almacenamiento de datos (Federated MySql), por medio de procesos “scraping” (técnicas de extracción de datos-MetaStore), y así tener datos siempre disponibles [6]. Fig. 1. Flujo de Datos – Facebook

...

Descargar como (para miembros actualizados) txt (5 Kb) pdf (30 Kb) docx (9 Kb)

Leer 3 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com