ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Qué es Big Data? La regla de las tres V


Enviado por   •  5 de Abril de 2022  •  Informes  •  951 Palabras (4 Páginas)  •  44 Visitas

Página 1 de 4

Qué es Big Data?

Big Data es un campo de la tecnología que ayuda con la extracción , procesamiento y análisis de información que es demasiado grande o compleja para ser tratada por software tradicional.

La regla de las tres V

Los macrodatos suelen tener una de las siguientes características

  • Velocidad : qué tan rápido ingresan los datos o qué tan rápido los estamos procesando
  • Lote
  • Periódico
  • Casi en tiempo real
  • Tiempo real
  • Volumen : cuántos datos estamos procesando
  • Megabytes
  • Gigabyte
  • Terabytes
  • Gigabytes
  • Variedad : qué tan estructurados / complejos son los datos
  • Mesas
  • Bases de datos
  • Foto, Audio
  • Video, redes sociales

Análisis de Azure Synapse

  • Plataforma de análisis de big data (PaaS), que permite a los usuarios e ingenieros de datos realizar análisis de datos y transformación de datos sobre conjuntos de datos muy grandes
  • Múltiples componentes
  • Spark
  • Synapse SQL
  • Grupos de SQL (dedicados: pagar por el rendimiento aprovisionado)
  • SQL bajo demanda (ad-hoc - pago por TB procesado)
  • Canalizaciones de Synapse (Data Factory - ETL)
  • Studio (experiencia unificada)

Los ingenieros de datos comienzan el proceso identificando dónde están sus datos, ya sean archivos planos, web services o bases de datos, y a partir de ahí un desarrollo típico comienza. Los desarrolladores primeros deberán ingerir los datos de sus fuentes a la nube, luego transformar esos conjuntos de datos y luego almacenarlos en algún lugar. Por último, exponerlos a otras herramientas como de elaboración de informes, con los cuales los usuarios pueden tomar mejores decisiones.

Azure Synapse Analytics ayuda con todos estos pasos. Proporciona "pipelines" para ingerir y transformar sus datos utilizando flujos de trabajo visuales.

Synapse Analytics viene con apache Spark integrado, una tecnología líder para el análisis y la transformación de Big Data. También, incluye Synapse SQL, una base de datos de procesamiento masivo de clusters en  paralelo, basado en SQL. TODO ESTO ESTÁ UNIFICADO EN "SYNAPSE STUDIO", desde donde administramos todas estas herramientas, transformando los datos desde un solo lugar.

Azure HDInsight

  • Plataforma de big data multipropósito flexible (PaaS)
  • Múltiples tecnologías compatibles (Hadoop, Spark, Kafka, HBase, Hive, Storm, Machine Learning)

También permite realizar casi todas las etapas de desarrollo por parte de los ingenieros de datos, brindando "Big Data Clusters". Hay muchos tipos: Hadoop, Spark, Kafka, HBase, Storm, HVICE. Proporcionan tecnologías de BigData de código abierto que permiten aprovisionar clústeres, administrados por Microsfot. Usted solo toma la tecnología que necesita y realiza las tareas específicas que necesite. Todas estas herramientas tienen un propósito diferente pero puedes usarlas en combinación para respaldar el ciclo de vida de un desarrollo end-2-end.

Azure Databricks

  • Plataforma de colaboración de big data (PaaS)
  • Espacio de trabajo unificado para notebook, clúster, datos, administración de acceso y colaboración
  • Basado en Apache Spark
  • Se integra muy bien con los servicios de datos comunes de Azure.

Bastante similar a HDInsight, excepto que los clústeres que creamos se basan en Apache Spark. El objetivo del servicio es ayudarlo con la transformación de datos a gran escala.

También proporciona una plataforma de colaboración para ingenieros de datos y analistas de datos, para que tengan un solo lugar donde puedan administrar su clúster y colaborar en sus soluciones.

¿Qué es la inteligencia artificial?

La Inteligencia Artificial ( IA ) es la simulación de la inteligencia y las capacidades humanas mediante software informático.

...

Descargar como (para miembros actualizados)  txt (6.3 Kb)   pdf (249.8 Kb)   docx (398.5 Kb)  
Leer 3 páginas más »
Disponible sólo en Clubensayos.com