ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Desarrollo software


Enviado por   •  13 de Mayo de 2021  •  Trabajos  •  789 Palabras (4 Páginas)  •  43 Visitas

Página 1 de 4
  1. INTRODUCCIÓN

De acuerdo con IBM [1], cada día se generan alrededor de 2.5 quintillones de bytes de datos (1030), donde el 90% han sido creados en los últimos tres años. A su gestión eficiente se le conoce como Big Data, la cual es una nueva oportunidad para proponer ideas, generar análisis, reutilización de datos y contenidos, lo que optimiza una toma de decisión más adecuada. Facebook actualmente es la más grande red social, por ende es la mayor fuente de información no solo por el número de usuarios que tiene, sino también por los servicios y aplicaciones que ofrece, todo esto es posible gracias a  la infraestructura de datos con la que cuenta. Esta investigación analiza como  Facebook maneja su información, así como también las tecnologías asociadas, como por ejemplo: Apache Hadoop, HDFS, MapReduce y Hive, las cuales son fundamentales para la consolidación y funcionamiento de esta red social [2].  El resto del artículo ha sido organizado como sigue: La sección  II describe el fundamento teórico. La sección III muestra los componentes involucrados en este análisis. La sección IV evidencia los resultados.  Finalmente en la sección V se exponen las conclusiones y trabajos futuros.

turos. II. MARCO REFERENCIAL

A. Hadoop Distributed File System (HDFS)  Sistema distribuido, escalable y portátil creado especialmente para trabajar con ficheros de gran tamaño, los cuales son divididos en bloques de un mismo tamaño y distribuidos entre los nodos que forman el clúster de datos.  Un  clúster HDFS  utiliza  dos tipos de nodos: (1) Namenode (JobTracker), de este tipo de nodo hay uno solo por clúster, el cual es responsable de la topología y distribución de procesos entre los demás nodos; (2)Datanodes (TaskTracker), de este tipo de nodos van a existir varios,  los cuales realizan el acceso y almacenamiento de la información (bloques), así como también la recuperación bajo demanda.  

B. Hive  Solución de almacenamiento masivo de datos, el cuál  integra funcionalidades de búsqueda a través de Apache Hadoop, las cuales son similares a  RDBMS (Relational Database Management System), así como también usa especificaciones HiveQL, las cuales son similares a SQL. Hive  destaca  la optimización de consultas, debido  a su estabilidad y rendimiento, más  aún cuando el rendimiento es medido  por el tiempo de respuesta y cantidad de procesos ejecutados .  

C. Hadoop  Provee un modelo confiable, escalable para ambientes distribuidos a gran escala, por medio del procesamiento en paralelo.  Este modelo ofrece un almacenamiento local y difusión de información entre los nodos y clústeres definidos, garantizando una alta disponibilidad y detección de fallas,  lo que permite entregar servicios altamente confiables.  

D. MapReduce  Modelo de programación diseñado para administrar grandes cantidades de datos (PetaBytes), el cual es utilizado para dar soporte a la computación paralela, este modelo arroja resultados a ficheros HDFS como archivos del sistema, lo que garantiza una alta disponibilidad y confiabilidad de los datos.  Por lo tanto, la paralelización y procesamiento por lotes aceleraría la ejecución de las consultas, así como la ejecución de programas dentro de grandes clústeres de una manera distribuida, generando interdependencia en el almacenamiento y granularidad fina aplicada

...

Descargar como (para miembros actualizados)  txt (4.9 Kb)   pdf (30.3 Kb)   docx (9.1 Kb)  
Leer 3 páginas más »
Disponible sólo en Clubensayos.com