Ingeniería para el Procesado Masivo de Datos

Elizabeth Martínez RamírezApuntes2 de Julio de 2023

1.766 Palabras (8 Páginas)364 Visitas

Página 1 de 8

Asignatura	Datos del alumno	Fecha
Ingeniería para el Procesado Masivo de Datos	Apellidos:
Nombre:

Actividad: HDFS, Spark SQL y MLlib

Recuerda que esta actividad deberá ser completada en la plataforma. Solo tendrás un intento. Una vez que la envíes, se dará por cerrada. Tu puntuación y las respuestas correctas se mostrarán cuando finalice el período de entrega de la tarea.

Objetivos:

Con esta actividad, los estudiantes pondrán en práctica los conocimientos estudiados en las clases de teoría acerca del manejo de hadoop distributed file system (HDFS) y Apache Spark. Completarán un ejercicio sencillo, que involucra las dos tecnologías y que los ayudará a entender mejor el propósito de cada una, así como a verlas funcionar en un caso concreto.

A continuación, describimos el trabajo que debe llevar a cabo el estudiante y, en la siguiente sección, presentaremos la infraestructura disponible en la cual se realizarán las tareas, además de unas orientaciones sobre cómo utilizarla.

Descripción de la actividad:

Se compone de tres partes diferentes. En cada parte, hemos desglosado la explicación en pasos para facilitar su resolución.

Parte 1. Manejo de HDFS. Tras acceder a la terminal de Linux en Jupyter Lab, el alumno deberá:

[pic 1][pic 2]

Crear en el directorio raíz de HDFS una carpeta llamada «nombre_apellidos_ alumno» (sin tildes ni espacios), utilizando el comando de HDFS apropiado. Por ejemplo: «/Pepito_Perez».
Utilizando el botón «Upload» de JupyterLab (una flecha apuntando hacia arriba que se encuentra en la parte superior del menú lateral), subir el fichero CSV que se indica en el notebook a la carpeta «Local Disk» de JupyterLab. Esto lo subirá al disco duro de la máquina máster del clúster, que es donde se está ejecutando JupyterLab, y lo pondrá en el directorio raíz (/) del sistema de ficheros Linux.
Subirlo desde el disco local a la carpeta de HDFS creada en el primer apartado, utilizando, para ello, el comando de HDFS apropiado.
Una vez subido a HDFS, ejecutar el comando de HDFS que nos da información acerca de cómo está almacenado ese fichero. El fichero, por tanto, debe estar ubicado en la siguiente ruta de HDFS: /<nombre_apellidos_alumno>/<nombre_fichero.csv>

Después de realizar los pasos anteriores, responde lo siguiente:

¿Qué librerías son necesarias importar para esta parte 2?

Pyspark y Findspark.
Solo Pyspark.
Solo Findspark.
Spark, Pandas y Numpi.

Qué función de Spark fue necesaria para cargar el fichero, seleccione la opción correcta.

pyspark.readCsv().
SparkSession(…).read(…).option().csv(…).
Spark.readCsv().
Ninguna de las anteriores.

Parte 2. Manejo de Apache Spark con notebooks de Jupyter. Se utilizará el archivo /<nombre_alumno>/<nombre_fichero.csv> que hemos subido a HDFS para resolver las siguientes cuestiones:

Subir al directorio GCS que aparece en el menú lateral de JupyterLab el notebook actividad1.ipynb.
Responder a las cuestiones indicadas en el notebook.
Nota. Si al abrir el notebook recién subido a Google Cloud Storage, en la parte superior derecha, aparece Python3, pincha sobre dicho texto y escoge la opción «PySpark» para seleccionar el uso de Spark mediante Python.

Después de realizar la parte 2, responde lo siguiente:

Cuando se pide calcular los vuelos que llegan con retraso positivo, ¿a qué se refiere el enunciado?

A que se deben seleccionar solo aquellos retrasos cuyo mínimo sea mayor que cero.
A que se debe incluir la condición .where(“arr_delay > 0 ”)
A que, previamente, se debe filtrar el dataframe con el campo de retrasos mayor que cero.
Ninguna de las anteriores.

Cuando piden calcular el retraso medio por separado para cada aeropuerto de destino, lo correcto es:

Sobre el DF resultante de dicha operación de filtrado, agrupar por el aeropuerto de destino.
En cada uno de los grupos resultantes calculamos la media de todos los valores de la columna «arr_delay» de las filas que forman dicho grupo.
Ponerle un nombre a la columna resultante, por ejemplo, «retraso_medio».
Todas las anteriores.

En relación con la pregunta anterior, la siguiente afirmación es correcta:

Cada grupo está formado por todas aquellas filas (vuelos) que comparten distinto valor de «dest» (destino).
El DF resultante de esta agregación tendrá tantas filas como aeropuertos haya en una única ciudad.
Como queremos saber cuáles son los aeropuertos con mayor retraso medio a la llegada, es necesario ordenar dicho DF descendentemente por la columna «retraso_medio», lo que dejará en las primeras filas del DF resultante de la ordenación a aquellos aeropuertos con el mayor retraso medio.
Aún sin ordenar, la primera fila será siempre el aeropuerto con el máximo retraso medio, la segunda será el aeropuerto con el segundo mayor retraso medio de entre todos los aeropuertos de destino, etc.

Parte 3. Spark MLlib. Las instrucciones se encuentran en el notebook.

Para llevar a cabo la creación de los índices en el ejercicio 3, se debe utilizar una de las siguientes instrucciones:

StringIndexer().setInputCol("monthIndexed ").setOutputCol("month")
StringIndexer().setInputCol("carrierIndexed ").setOutputCol("carrier")
StringIndexer().setOutputCol("monthIndexed ").setOutputCol("month")
Ninguna de las anteriores.

En el ejercicio 3, la siguiente afirmación es correcta:

La columna objetivo no debe formar parte de esta lista, puesto que no es una variable explicativa y, por tanto, no debe incluirse en la columna de tipo vector que el vectorAssembler nos devolverá como salida.
La columna objetivo debe formar parte de esta lista, puesto que no es una variable explicativa y, por tanto, no debe incluirse en la columna de tipo vector que el vectorAssembler nos devolverá como salida.
La columna objetivo debe formar parte de esta lista, puesto que es una variable explicativa y, por tanto, debe incluirse en la columna de tipo vector que el vectorAssembler nos devolverá como salida.
Ninguna de las anteriores.

Anexo: creación de un clúster en Google Cloud

Cuando se dispone de un clúster en un entorno real, generalmente se instala, en cada uno de los nodos, una distribución del sistema operativo Linux y, sobre este, Spark, HDFS y el resto de las herramientas (Kafka, Hive, etc.).

Para que funcionen correctamente, se configura cada una de ellas, indicando las direcciones IP del resto de los nodos y algunos detalles, como qué nodo es el namenode y cuál el datanode (HDFS), qué nodo de Spark hace el papel de máster, etc.

...

Descargar como (para miembros actualizados) txt (12 Kb) pdf (397 Kb) docx (434 Kb)

Leer 7 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com