Big data aplicada a los negocios
SfDSFDfInforme15 de Diciembre de 2023
5.644 Palabras (23 Páginas)79 Visitas
BIG DATA APLICADA A LOS NEGOCIOS
CURSO: Big data aplicada a los negocios
DOCENTE:
Luis Alberto Salazar Mariños
ELABORADO POR:
- Salet Cristina Flores Suarez
- Jean Pierre Morales Tinoco
- Frank Julca Vega
- Miguel Angel castelo Ruiz
- Marco Castellano Rosas
- Juan David Escobar Velasque
- Aldana Mendez Portocarrero
ÍNDICE
- INTRODUCCIÓN
- MARCO TEÓRICO
2.1 Pasos de la metodología de procesamiento de datos
2.1.2 Recopilación de datos
2.1.3.Preparación de datos
2.1.4.Limpieza y Transformación
2.1.5 Análisis
2.16 Interpretación
2.2 Descripción general de las herramientas o tecnologías analítica de Big Data
- DESCRIPCIÓN DE HERRAMIENTAS
3.1 Descripción cada herramientas o tecnologías analítica de Big Data
3.1.1 Selección de herramientas más conocidas
- USOS DE LAS HERRAMIENTAS DE BIG DATA
4.1 Casos de éxito de organizaciones usan estas tecnologías
4.1.1 Caso Walmart
4.1.2 Caso Paypal
4.1.3 Caso Tesla
- COMPARATIVA DE HERRAMIENTAS DE BIG DATA
5.1. Cuadro comparativo técnico de las herramientas Apache Spark, Elasticsearch, Amazon DynamoDB y Big Table
- VENTAJAS DE LAS HERRAMIENTAS DE BIG DATA
6.1 Apache Spark
6.2 ElasticSearch
6.3 Amazon Dynamo DB
6.4 BigTable
- BENEFICIOS DE LAS HERRAMIENTAS DE BIG DATA
7.1 Apache Spark
7.2 ElasticSearch
7.3 Amazon Dynamo DB
7.4 BigTable
- CONCLUSIONES
- REFERENCIAS BIBLIOGRÁFICAS
1. INTRODUCCIÓN
La presente investigación se refiere al tema de big data que se puede definir en una situación práctica es lo que las empresas quieren saber de cada individuo gracias a la actividad que realizan en internet. Pero esta palabra está en inglés y traducida al español significa datos masivos, se define como la gestión y análisis de enormes volúmenes que no pueden ser procesados de manera convencional. Esto es debido a que superan los límites de de las herramientas de software utilizadas para el tratamiento, procesamiento y análisis de datos.
En este informe presentaremos la importancia acerca del uso del big data y el objetivo que tiene de convertir en información para la toma de decisión a corto, mediano plazo e incluso en tiempo real. Las empresas lo utilizan para entender y comprender a los usuarios respecto a los productos o servicios que ofrece, por lo que tiene mayor relevancia cuando estas quieren adelantarse a los deseos de los clientes para futuras compras o brindar un servicio y con ello realizar toma de decisiones. Se podría comentar que la problemática encontrada es que en su mayoría no desea implementarla por el alto costo que estas manejan y porque no pueden deducir qué herramienta es mejor que otra.
El objetivo central de este informe es brindar todo tiempo de conocimiento acerca de la metodología de procesamiento de datos, recopilación, preparación y la interpretación de estos. Para todo ello, se realizó una investigación acerca de 4 herramientas de big data en concreto que son: Apache Spark, Elasticsearch, DynamoDB y Big Table para describirlas brevemente y obtener una definición de estas. Posteriormente, a la investigación de cada herramienta elegida se procedió a realizar un cuadro comparativo para visualizar sus características de manera general para evidenciar la más factible y en qué tipo de situaciones se podría implementar. Asimismo, se detalla las ventajas brevemente explicadas, beneficios potenciales que ofrece y se caracteriza ante diferentes casuísticas y como se utiliza cada una de ellas. Finalmente se expone brevemente como parte de motivación para las empresas, 3 casos de éxitos que implementan las empresas más conocidas mundialmente y en qué área utilizaron big data para su toma de decisiones que los han impulsado a ser reconocidas en la actualidad por su rubro.
2. MARCO TEÓRICO
Los pasos del procesamiento de datos son el entendimiento del negocio, recopilación de datos, preparación de datos, limpieza y transformación, análisis, interpretación y almacenamiento de datos.
2.1 Pasos de la metodología del procesamiento de datos
2.1.1 Entendimiento del negocio
Es importante conocer a profundidad el negocio u organización ya que permite crear estrategias centradas en el desarrollo de este. Tener la información y cómo funciona facilita el análisis para la toma de decisiones favoreciendo su crecimiento.
- Core del negocio: conocer el rubro del negocio, a qué se dedica, el propósito de la empresa es necesario para establecer estrategias que ayudarán en la gestión del negocio.
- Objetivos estratégicos: Es importante tener claro lo que la empresa quiere lograr en un corto o largo plazo para conseguir la meta que la empresa se propone, contribuyendo al crecimiento y posición del negocio en el mercado.
- Estructura organizacional: Conocer la estructura de la organización, tanto la jerarquía como las áreas funcionales, ayudan a saber cómo está organizada y los roles y funciones que cumple cada área de la empresa.
- Misión y Visión: Razón de ser de la empresa o el propósito por el que fue creada y a dónde quiere llegar estableciendo metas con sus objetivos.
- Cultura organizacional: los valores, normas y principios que posee una empresa. Esto tiene suma importancia porque genera un ambiente más cómodo, mejora la relación laboral entre los miembros de la organización y se sientan más motivados al desempeñar sus funciones.
2.1 2 Recopilación de Datos
Consiste en la recolección de datos extraídos de diferentes fuentes de almacenamiento de datos. Las fuentes pueden ser: Base de datos empresariales, redes sociales, sitios web, excel, etc. Los datos obtenidos deben ser confiables, de calidad y actualizados. En este paso se debe determinar qué información será útil para el análisis que se llevará a cabo.
2.3 Preparación de datos
Se seleccionan los datos necesarios para el análisis. Es aquí dónde se dispone de la información útil para comenzar con la limpieza. Al llevar a cabo este paso hace que sea más fácil el procesamiento y consolidar los datos para efectuar un adecuado proceso.
2.4 Limpieza y Transformación
En esta etapa se realiza el descarte de datos erróneos o datos incompletos. Tiene como finalidad descartar los datos que no sirven y conservar lo que es relevante. Se debe verificar que la información sea útil y prevenir cualquier error.
Una vez terminada la limpieza también se realiza el proceso de transformación de datos. Los datos se procesan para su uso correspondiente mediante distintas técnicas de programación como la herramienta machine learning (aprendizaje automático) para comenzar el estudio de la interpretación.
2.5 Análisis
Es el proceso de observación y en él se examinan los datos para obtener información de gran valor y aporten a la toma de decisiones. La finalidad de esta técnica es analizar rigurosamente la información y brindarnos conocimiento clave de lo que se quiere investigar o procesar.
2.6 Interpretación
Es en esta etapa dónde la información resultante de las etapas anteriores, se vuelve visible y de una forma más entendible para todos los usuarios mediante tablas, gráficos, imágenes, esquemas, etc. Emplear estas herramientas mejora la comprensión y visualización de la información (Flujogramas, Dashboards, tablas dinámicas, google ads).
2.7 Almacenamiento de datos
La información útil se almacena para ser utilizada en el momento que se requiera, sea inmediato o en un futuro. Esta información se mantiene guardada y está disponible para que cualquier usuario pueda acceder a ella rápidamente.
2.2 Descripción general de las herramientas o tecnologías analítica de Big Data
Apache Spark
Es una herramienta de Big data sencilla de utilizar, flexible, gratuita y open source (código abierto). Conecta considerables ordenadores, el cuál permite el procesamiento de múltiples datos en simultáneo. También permite analizar datos a gran escala, porque Apache Spark fue creado con el propósito de cubrir una considerable gama de cargas de trabajo que anteriormente necesitaban de distintos sistemas distribuidos.
ElasticSearch
Elasticsearch es un motor de búsqueda de textos open source gratuito. Permite el procesamiento de grandes volúmenes de datos y ver la transformación en tiempo real. Base de datos NoSQL, tiene compatibilidad con lenguajes de programación Javaº , Python, entre otros, y ayuda a monitorear aplicaciones e identificar irregularidades.
Amazon DynamoDB
Esta herramienta de Amazon es una base de datos NoSQL, base de datos no relacional (disponibles, optimizados y escalables), el cual proporciona a sus clientes resultados de alta velocidad, porque sus bases de datos pueden almacenar documentos para la administración de datos generando un alto rendimiento. Por otro lado asegura la fiabilidad de datos
...