Qué es Big Data? La regla de las tres V

Gonzalo CorreaInforme5 de Abril de 2022

951 Palabras (4 Páginas)115 Visitas

Página 1 de 4

Qué es Big Data?

Big Data es un campo de la tecnología que ayuda con la extracción , procesamiento y análisis de información que es demasiado grande o compleja para ser tratada por software tradicional.

La regla de las tres V

Los macrodatos suelen tener una de las siguientes características

Velocidad : qué tan rápido ingresan los datos o qué tan rápido los estamos procesando

Lote
Periódico
Casi en tiempo real
Tiempo real

Volumen : cuántos datos estamos procesando

Megabytes
Gigabyte
Terabytes
Gigabytes

Variedad : qué tan estructurados / complejos son los datos

Mesas
Bases de datos
Foto, Audio
Video, redes sociales

Análisis de Azure Synapse

Plataforma de análisis de big data (PaaS), que permite a los usuarios e ingenieros de datos realizar análisis de datos y transformación de datos sobre conjuntos de datos muy grandes
Múltiples componentes

Spark
Synapse SQL

Grupos de SQL (dedicados: pagar por el rendimiento aprovisionado)
SQL bajo demanda (ad-hoc - pago por TB procesado)

Canalizaciones de Synapse (Data Factory - ETL)
Studio (experiencia unificada)

Los ingenieros de datos comienzan el proceso identificando dónde están sus datos, ya sean archivos planos, web services o bases de datos, y a partir de ahí un desarrollo típico comienza. Los desarrolladores primeros deberán ingerir los datos de sus fuentes a la nube, luego transformar esos conjuntos de datos y luego almacenarlos en algún lugar. Por último, exponerlos a otras herramientas como de elaboración de informes, con los cuales los usuarios pueden tomar mejores decisiones.

Azure Synapse Analytics ayuda con todos estos pasos. Proporciona "pipelines" para ingerir y transformar sus datos utilizando flujos de trabajo visuales.

Synapse Analytics viene con apache Spark integrado, una tecnología líder para el análisis y la transformación de Big Data. También, incluye Synapse SQL, una base de datos de procesamiento masivo de clusters en paralelo, basado en SQL. TODO ESTO ESTÁ UNIFICADO EN "SYNAPSE STUDIO", desde donde administramos todas estas herramientas, transformando los datos desde un solo lugar.

Azure HDInsight

Plataforma de big data multipropósito flexible (PaaS)
Múltiples tecnologías compatibles (Hadoop, Spark, Kafka, HBase, Hive, Storm, Machine Learning)

También permite realizar casi todas las etapas de desarrollo por parte de los ingenieros de datos, brindando "Big Data Clusters". Hay muchos tipos: Hadoop, Spark, Kafka, HBase, Storm, HVICE. Proporcionan tecnologías de BigData de código abierto que permiten aprovisionar clústeres, administrados por Microsfot. Usted solo toma la tecnología que necesita y realiza las tareas específicas que necesite. Todas estas herramientas tienen un propósito diferente pero puedes usarlas en combinación para respaldar el ciclo de vida de un desarrollo end-2-end.

Azure Databricks

Plataforma de colaboración de big data (PaaS)
Espacio de trabajo unificado para notebook, clúster, datos, administración de acceso y colaboración
Basado en Apache Spark
Se integra muy bien con los servicios de datos comunes de Azure.

Bastante similar a HDInsight, excepto que los clústeres que creamos se basan en Apache Spark. El objetivo del servicio es ayudarlo con la transformación de datos a gran escala.

También proporciona una plataforma de colaboración para ingenieros de datos y analistas de datos, para que tengan un solo lugar donde puedan administrar su clúster y colaborar en sus soluciones.

¿Qué es la inteligencia artificial?

La Inteligencia Artificial ( IA ) es la simulación de la inteligencia y las capacidades humanas mediante software informático.

...

Descargar como (para miembros actualizados) txt (6 Kb) pdf (250 Kb) docx (398 Kb)

Leer 3 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com