ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Componentes de HortonWorks


Enviado por   •  8 de Julio de 2015  •  Informes  •  1.251 Palabras (6 Páginas)  •  218 Visitas

Página 1 de 6

IV. Componentes de HortonWorks

 Administración de datos

Hadoop Distributed File System (HDFS) es la base de la tecnología para la escala eficiente en la capa de almacenamiento, y está diseñado para funcionar a través de hardware de bajo costo. Apache Hadoop YARN es el pre-requisito para la Empresa Hadoop ya que proporciona la gestión de recursos y arquitectura adaptable, para permitir una amplia variedad de métodos de acceso a datos para operar en los datos almacenados en Hadoop con los niveles de rendimiento y de servicio predecibles.

• Hadoop YARN

Es parte del core del proyecto Hadoop, YARN es un framework de próxima generación para el procesamiento de datos Hadoop, incrementando las capacidades MapReduce mediante el apoyo de cargas de trabajo non-MapReduce asociados con otros modelos de programación.

• HDFS

Hadoop Distributed File System (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable y confiable que está diseñada para abarcar grandes grupos de servidores básicos.

 Acceso a Datos

Apache Hive es la tecnología de acceso a datos más ampliamente adoptada, aunque hay muchos motores especializados. Por ejemplo, Apache Pig ofrece capacidades de scripting, Apache Storm ofrece procesamiento en tiempo real, Apache HBase ofrece almacenamiento NoSQL columnar y Apache Accumulo ofrece un control de acceso a nivel de celdas. Todos estos motores pueden trabajar a través de un conjunto de datos y recursos gracias a hilos y motores intermedios como Apache Tez para el acceso interactivo y Apache Slider para aplicaciones de larga duración. YARN también proporciona flexibilidad para los métodos nuevos y emergentes de acceso de datos, como Apache Solr para marcos de búsqueda y de programación como en cascada.

• Apache Accumulo

Accumulo es un almacenamiento de datos de alto rendimiento y sistemas de recuperación con el control de acceso a nivel de celdas. Se trata de una aplicación escalable de Diseño de una gran tabla, tal como Google trabaja en la parte superior de Apache Hadoop y Apache ZooKeeper.

• Apache Hive

Construida en el framework MapReduce, Hive es un almacén de datos que permite el resumen de datos fáciles y consultas ad-hoc a través de una interfaz similar a SQL para grandes conjuntos de datos almacenados en HDFS.

• Apache Pig

Es una plataforma para el procesamiento y análisis de grandes conjuntos de datos. Pig consiste en un lenguaje de alto nivel (Pig latín) para la expresión de los programas de análisis de datos unidos con el framework MapReduce para el procesamiento de estos programas.

• Apache Spark

Spark es ideal para el procesamiento de datos en memoria. Permite a los científicos de datos implementar algoritmos iterativos y rápidos, para análisis avanzados como la agrupación y clasificación de los conjuntos de datos.

• MapReduce

MapReduce es un framework para la creación de aplicaciones que procesan grandes cantidades de datos estructurados y no estructurados en paralelo, a través de un grupo de miles de máquinas (cluster), de una manera fiable y de alta disponibilidad.

• Apache HBase

Es un sistema de almacenamiento de datos orientado a columnas NoSQL que proporciona aleatoriamente acceso de lectura / escritura en tiempo real a los grandes datos para aplicaciones de usuario.

• Apache Kafka

Kafka es un sistema de mensajería rápida y escalable para la publicación-suscripción de mensajes, que se utiliza en lugar de intermediarios de mensajes tradicionales debido a su mayor rendimiento, replicación y tolerancia a fallos.

• Apache Slider

Es un framework para el despliegue de aplicaciones de acceso a datos de larga duración en Hadoop. Slider aprovecha las capacidades de gestión de recursos de YARN para desplegar estas aplicaciones, para gestionar su ciclo de vida y escalar hacia arriba o hacia abajo.

• Apache Storm

Storm es un sistema de computación distribuido en tiempo real, para el procesamiento rápido de grandes flujos de datos adicionando capacidades fiables en tiempo real al procesamiento de datos para Apache Hadoop® 2.x

• Apache HCatalog

Es un servicio de gestión de metadatos de tablas que proporciona una forma centralizada para los sistemas de procesamiento de datos, para comprender la estructura y ubicación

...

Descargar como (para miembros actualizados)  txt (8 Kb)  
Leer 5 páginas más »
Disponible sólo en Clubensayos.com