ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Actividad grupal: Proyectos de datos masivos y ciencia de datos

Salvador CanalesInforme16 de Junio de 2025

3.120 Palabras (13 Páginas)16 Visitas

Página 1 de 13

 

[pic 1] 

UNIVERSIDAD INTERNACIONAL DE LA RIOJA

 

 

Actividad 2 grupal: Proyectos de datos masivos y ciencia de datos Materia: Ciencia de Datos Aplicada

 

 

Maestría en Análisis y Visualización de Datos Masivos RVOE 2023-08-04, No. de acuerdo 20232249

 

 

Alumnos: 

Ing. Salvador Canales Villalobos

Ing. Agustín Alejandro Monsiváis Morales

Dr. Fernando Arturo Romero López

Ing. Mario del Ángel Vázquez Rojas -- Equipo 07 D --

 

Profesor: Dr. José Eduardo Ferrer Cruz

 

 

Ciudad de México, México. A 20 de enero de 2025.

         

 

Selección de caso de estudio: Industria hotelera y de hospedaje. 

 

1. Arquitecturas típicas de proyectos de datos masivos.

Fuentes heterogéneas: 

  1. Alpha Datalake: Datos semiestructurados y no estructurados. Esta fuente de datos contiene información de los hoteles como el nombre, dirección, datos de contacto, ubicación, inventario de habitaciones, precios, imágenes, videos, descuentos, promociones, amenidades, descripción detallada de cada una de las áreas del edificio, publicidad, etc.
  2. Beta API: Datos semiestructurados. Conexión a un servicio de terceros que envía información organizada de clientes de los hoteles en archivos JSON.
  3. Gamma SQL Database: Datos estructurados. Se realiza una conexión a una base de datos centralizada, donde se aloja información de carácter corporativo proveniente de las cadenas hoteleras de diferentes partes del mundo.

 

Extracción, transformación y cargar (ETL): 

[pic 2] 

Figura 1: Flujo de proceso ETL. Fuente: Elaboración propia.

 

 

Almacenamiento: 

Se almacenan los datos NoSQL en AWS, específicamente en una solución DynamoDB, pues es necesario conservar información semiestructurada de los clientes como su información personal, histórico de reservaciones, cuenta de puntos de lealtad, información bancaria, etc., información semiestructurada o no estructurada de los hoteles, como puede ser información de los empleados del hotel, inventario ocupacional, publicidad en imágenes, contenido de mercadeo en video, etc., e información estructurada corporativa, pues varias cadenas hoteleras informan a una base de datos central cambios a nivel organizacional, reportes de proyección de ventas, documentos de apoyo para BI y BA, etc. Una base de datos NoSQL permite almacenar toda esta información, y al elegir una solución de AWS basada en la nube, se dispone de un almacenamiento elástico, no centralizado y altamente disponible.

Tratamiento de los datos: 

A continuación, se describen los pasos necesarios:

  1. Limpieza: De Alpha Datalake se tienen que hacer varios procesos de limpieza y organización, pues al ser una fuente de datos de contenido muy versátil, es necesario hacer varios procesos para colectar solo la información que será de utilidad. De Beta API de deben extraer de los archivos JSON solo los datos que son estrictamente necesarios para gestionar las reservaciones de los clientes, de acuerdo con las leyes de protección de datos personales y regulaciones vigentes para la región donde se hospedará el cliente. Por último, de Gamma SQL Database, se extraen periódicamente los boletines e informes a los que deben de apegarse cada una de las cadenas hoteleras y sus dependencias.
  2. Integración: Una vez los datos son extraídos, seleccionados, procesados y filtrados, se integran y transforman para su posterior análisis y almacenamiento en una solución en la nube.  
  3. Preparación para el análisis: Después de que los datos están integrados, se procede a procesarlos para generar informes de proyección de ventas, de inventario, de participación en el mercado por regiones, entre otros, y también son almacenados en una solución en la nube. Dichos informes son de utilidad para la inteligencia y análisis de negocios.

 

Visualización: 

Para visualizar los datos, para este proyecto se propone una solución basada en la integración de PowerBI con un ERP, permitiendo el análisis de los datos a la medida, controlar y gestionar los procesos, generar informes de ventas, marketing, finanzas, clientes, etc. En la siguiente figura, se muestra un mockup del dashboard para visualizar las ventas de hoteles y/clientes. Este mismo dashboard permite, además de generar reportes, buscar información desde el servidor, abrir reportes existentes, cargar nuevos reportes, imprimirlos, etc.

[pic 3] 

Figura 2: Dashboard básico con información clave del proyecto. Fuente: Elaboración propia.

 

2. Perfil del científico de datos.

La importancia de los científicos de datos radica en su capacidad para no solo manejar grandes volúmenes de datos sino también en transformar estos datos en métricas accionables que pueden traducirse en ventajas competitivas para la empresa. Los científicos de datos en este proyecto cuentan con las siguientes habilidades: 

 

 

Ciencias de la computación: 

Al equipo se integran científicos de datos con habilidades en ciencias de la computación, lo que garantiza que sean poseedores del dominio de herramientas y técnicas necesarias para crear sistemas capaces de procesar, almacenar y analizar datos a una escala sin precedentes

Los miembros del equipo poseen amplia experiencia en lenguajes de programación de Python, Java y JavaScript, que les permitirán crear scripts y código para el manejo y tratamiento de datos. También están capacitados para manejar y optimizar bases de datos de tipo DynamoDB y Gamma SQL DB, como sistemas de almacenamiento de datos, asegurando que los datos se guarden de manera eficiente y sean accesibles para el análisis. 

También, el equipo de científicos de datos tiene dominio de herramientas de CI/CD en Jenkins para el dominio del pipeline que se implementará para mantener actualizados los modelos predictivos. Es importante que los científicos tengan dentro de sus habilidades conocimientos de AWS, ya que deben poder configurar y administrar una base de datos de DynamoDB.

Matemáticas: 

Para implementar un proyecto en la industria hotelera, los científicos de datos necesitan un perfil matemático especializado que les permita trabajar con datos operativos, financieros y de clientes. Esto incluye habilidades para analizar reservas, optimizar precios, gestionar inventarios, y modelar la participación en el mercado.  

Se requiere que el científico de datos en el proyecto pueda prever ingresos y ocupación hotelera en diferentes temporadas y presentar reportes con las predicciones. Para ello, serán usadas distintas técnicas dependiendo el propósito específico como se describen a continuación:

  • Suavización exponencial (ETS): permite capturar tendencias y estacionalidades.  
  • ARIMA (Autoregressive Integrated Moving Average): permite pronosticar ingresos futuros basados en datos históricos.  
  • Regresión Lineal Múltiple: permite identificar factores que influyen en las ventas, como promociones, precios y ubicación.
  • Análisis de Cohortes: permite segmentar clientes según su comportamiento a lo largo del tiempo.

También se realizan análisis de predicciones y se generan reportes de otra de las áreas del hotel, como es la gestión de inventario usando Modelos de Predicción de Demanda y modelos basados en regresión para prever la ocupación diaria, o redes neuronales para detectar patrones complejos en reservas. Esto permite también prever la demanda futura y evitar problemas de sobreventa o subutilización. 

Otra de las áreas comerciales de la cadena hotelera que el proyecto debe analizar es la participación en el mercado por regiones usando el Análisis Competitivo

(Benchmarking) para comparar el rendimiento del hotel con respecto a la competencia. Se utilizan indicadores clave de desempeño (KPI) como la ocupación promedio y RevPAR (Revenue per Available Room) para permitir el análisis de regresión y medir el impacto de estrategias competitivas. 

Comunicación: 

Se deben comunicar los hallazgos complejos de manera clara y persuasiva a un público diverso que puede incluir expertos técnicos, ejecutivos de negocio y otros interesados no técnicos. Para ello, se presenta un reporte mensual a la mesa directiva donde se entrega un informe ejecutivo con el resultado de las técnicas aplicadas que se podrá consultar en las herramientas de difusión de la compañía.  

...

Descargar como (para miembros actualizados) txt (21 Kb) pdf (830 Kb) docx (583 Kb)
Leer 12 páginas más »
Disponible sólo en Clubensayos.com