ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Laboratorio No. V Uso de Herramienta Hadoop a través de Cloudera QuickStart VMs


Enviado por   •  21 de Abril de 2019  •  Prácticas o problemas  •  2.547 Palabras (11 Páginas)  •  150 Visitas

Página 1 de 11

Universidad Tecnológica de Panamá

Facultad de Ingeniería de Sistemas Computacionales

Coordinación de Postgrado

Curso: Tópicos Especiales

Laboratorio No. V Uso de Herramienta Hadoop a través de Cloudera QuickStart VMs

Objetivos:

  • Instalar y manipular la herramienta hadoop.

  • Familiarizarse con el ambiente y comandos básicos para trabajar con Hadoop.
  • Aplicar y hacer uso de hadoop para el procesamiento y análisis de datos.
  • Comprender el funcionamiento de herramientas YARN, MapReduce, Hive, Spark y HDFS
  • Describir las características de Cloudera Manager para el manejo y gestión de datos.

Introducción:

Hadoop MapReduce es un framework de software para procesar grandes conjuntos de datos. Utiliza muchas computadoras en paralelo que se ejecutan en un clúster. Los hosts de la computadora funcionan como si fueran una computadora grande.

MapReduce está basada en una variedad de criterios. Un ejemplo clásico es la clase JavaWordCount. WordCount mapea (extrae) palabras de una fuente de entrada y la reduce (resume) los resultados, devolviendo un conteo de cada palabra. Las versiones de WordCount en esta práctica esta implementada en base a las características de MRv2 API.

Los argumentos de la línea de comandos para compilar (build) y ejecutar WordCount, es la que presentamos para este ejemplo. Dichos comandos están en un script Makefile.

Este lo veremos en la práctica dos de este laboratorio.

Práctica No. 1: Lanzando trabajos MapReduce

En esta práctica lanzaremos nuestro primer trabajo MapReduce usando uno de los trabajos de ejemplo que vienen con la propia distribución de Hadoop. Este trabajo se denomina wordcount y básicamente cuenta el número de ocurrencias de cada palabra de un fichero. En posteriores prácticas veremos más detalles de cómo funciona este programa MapReduce.

1. Lo primero descargaremos, descomprimiremos los ficheros necesarios para las prácticas y entraremos en el directorio practicas:

https://drive.google.com/open?id=1ri0KWsloUR867vRYAidSAm8Yx5awPkRi/practicas.tar .gz

[pic 1][pic 2]

[cloudera@quickstart ~]$ tar xzvf practicas.tar.gz [cloudera@quickstart ~]$ cd practicas [cloudera@quickstart practicas]$

2. Subiremos el fichero de entrada (wordcount/entrada.txt) al HDFS:

[pic 3]

[cloudera@quickstart practicas]$ cd wordcount/ [cloudera@quickstart wordcount]$ hadoop fs -mkdir input [cloudera@quickstart wordcount]$ hadoop fs -put entrada.txt input/


File Output Format Counters Bytes Written=1311

FileSystemCounters

Launched map tasks=1 Data-local map tasks=1 SLOTS_MILLIS_REDUCES=10733

Total time spent by all maps

Total time spent by all reduces

Job Counters

Launched reduce tasks=1 SLOTS_MILLIS_MAPS=10895

  1. Lanzaremos el trabajo MapReduce de ejemplo:

[pic 4]

[cloudera@quickstart wordcount]$ hadoop jar hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount input output-1

20/02/1818:45:17 INFO mapred.JobClient:

FILE_BYTES_READ=1860

20/02/1818:45:17 INFO mapred.JobClient:

HDFS_BYTES_READ=1394

20/02/1818:45:17 INFO mapred.JobClient:

FILE_BYTES_WRITTEN=116324

20/02/1818:45:17 INFO mapred.JobClient:

HDFS_BYTES_WRITTEN=1311

20/02/1818:45:17 INFO mapred.JobClient:

File Input Format Counters

20/02/1818:45:17 INFO mapred.JobClient:

Bytes Read=1273

20/02/1818:45:17 INFO mapred.JobClient:

Map-Reduce Framework

20/02/1818:45:17 INFO mapred.JobClient:

Map output materialized bytes=1860

20/02/1818:45:17 INFO mapred.JobClient:

Map input records=19

20/02/1818:45:17 INFO mapred.JobClient:

Reduce shuffle bytes=1860

20/02/1818:45:17 INFO mapred.JobClient:

Spilled Records=272

20/02/1818:45:17 INFO mapred.JobClient:

Map output bytes=2028

20/02/1818:45:17 INFO mapred.JobClient:

Total committed heap usage

(bytes)=176230400

20/02/1818:45:17 INFO mapred.JobClient:

CPU time spent (ms)=1750

20/02/1818:45:17 INFO mapred.JobClient:

Combine input records=189

20/02/1818:45:17 INFO mapred.JobClient:

SPLIT_RAW_BYTES=121

20/02/1818:45:17 INFO mapred.JobClient:

Reduce input records=136

20/02/1818:45:17 INFO mapred.JobClient:

Reduce input groups=136

20/02/1818:45:17 INFO mapred.JobClient:

Combine output records=136

20/02/1818:45:17 INFO mapred.JobClient:

Physical memory (bytes)

snapshot=253415424

20/02/1818:45:17 INFO mapred.JobClient:

Reduce output records=136

20/02/1818:45:17 INFO mapred.JobClient:

Virtual memory (bytes)

snapshot=1461096448

20/02/1818:45:17 INFO mapred.JobClient:

Map output records=189

20/02/1818:44:51 INFO input.FileInputFormat: Total input paths to process : 1

...

Descargar como (para miembros actualizados)  txt (23.7 Kb)   pdf (508.6 Kb)   docx (187.6 Kb)  
Leer 10 páginas más »
Disponible sólo en Clubensayos.com