ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Resumen BIG DATA


Enviado por   •  27 de Septiembre de 2023  •  Apuntes  •  4.079 Palabras (17 Páginas)  •  83 Visitas

Página 1 de 17

BIG DATA

Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se considera Big Data no está firmemente definido y sigue cambiando con el tiempo, la mayoría de los analistas y profesionales actualmente se refieren a conjuntos de datos que van desde 30-50 Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada de gran parte de los datos generados por las tecnologías modernas.

“Los datos son el nuevo petróleo” se pueden resaltar tres aspectos. Primero, explica cómo los datos se convierten rápidamente en bienes sin los que el éxito en cualquier negocio es imposible. En segundo lugar, los datos ahora son el combustible que impulsa la nueva economía digital. Esta información es un material valiosísimo para empresas de todo tipo, no solo las de comercio electrónico y marketing. Finalmente, su expresión «los datos son el nuevo petróleo» nos da a entender que son un bien valioso y muy cotizado que, si no se protege, podría generar conflictos.

No existe unanimidad en la definición de Big Data, aunque si un cierto consenso en la fuerza disruptiva que suponen los grandes volúmenes de datos y la necesidad de su captura, almacenamiento y análisis.[pic 1]

Big Data implica grandes desafíos:

  • El tamaño del “Big data”, que supera la capacidad de almacenamiento y procesamiento de las bases de datos relacionales.
  • El gran porcentaje de los datos son no estructurados.
  • El análisis de los datos en tiempo real

Big Data vs. Business Intelligence

Durante años las soluciones de Business Intelligence (BI) han permitido transformar los datos en información para optimizar los procesos de toma de decisiones empresariales. Las metodologías BI están basadas en centralizar la información de forma estructurada, utilizando bases de datos relacionales convencionales en distintos almacenes de datos o silos. El análisis de estos datos se realiza en modo offline y de forma focalizada en determinados ámbitos (ventas, calidad, marketing, producción, etc.) para responder preguntas concretas sobre situaciones del presente.

En cambio, Big Data, como un nuevo paradigma de almacenamiento, procesamiento, gestión, y análisis de datos, tiene como objetivo localizar patrones y tendencias que nos permitan extraer el conocimiento oculto en volúmenes masivos de datos, que se generan a gran velocidad, no necesariamente estructurados y almacenados en sistemas distribuidos.

[pic 2]

Big Data no sustituye, sino que amplía las posibilidades del BI, ya que permite realizar análisis con volumen de datos muy superiores y de todas las tipologías (Ver Tipología de Datos), en menos tiempo, así como aplicar patrones y algoritmos de Machine Learning de una forma más eficiente.

Características que definen el Big Data:

  • Volumen

Hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en información lista para tomar decisiones y realizar acciones. Aproximadamente, en 1 segundo, se transfieren 22.574 GB de datos a través de internet. El valor real no se encuentra en los grandes volúmenes de datos, sino en lo que se puede hacer con ellos.

  • Variedad

Una de las principales diferencias entre el Big Data y los sistemas tradicionales de almacenes de datos es la necesidad de almacenar y analizar datos en distintos formatos, tipos y estructuras de forma conjunta.

  • Velocidad

Nos referimos a la velocidad a la que se generan los datos y la velocidad a la que deben analizarse y aplicarse. La velocidad hace referencia no solo a la generación rápida de datos sino también a la necesidad de su análisis en tiempo real dada su naturaleza cambiante, es decir, su volatilidad.

  • Veracidad

es importante contar con un equipo imparcial que asegure en los datos: confianza, autenticidad, disponibilidad, responsabilidad, origen y reputación. De la veracidad de los datos recogidos y analizados depende en gran manera la validez de estos para un entorno de trabajo.

  • Valor

El valor se refiere a la extracción de conocimiento oculto a partir del análisis de grandes volúmenes de datos, y a la capacidad de transformar este conocimiento en mejoras en la toma de decisiones, reducción de riesgos y detección de nuevas oportunidades. El Valor potencial imbuido en los datos hace que ‘Big Data’ puede considerarse un activo estratégico en sí mismo, el cual debe ser monitoreado, administrado, protegido y hasta incluso comercializado.

Tipología de Datos

Existen tres tipos de datos en base a su estructura.

  • Datos estructurados

Todos aquellos con longitud y forma definida. El 20% de los datos de unaorganización son estructurados y suelen almacenarse en data warehouse o data marts.

Son los datos de las bases de datos relacionales, las hojas de cálculo y los archivos, normalmente se consultan a través de lenguaje SQL.

  • Datos semiestructurados

Tienen un esquema definido al igual que los estructurados, pero a diferencia de estos el esquema es flexible, tienen etiquetas y otros elementos marcadores que permiten separar los elementos del dato. Corresponden a formatos del tipo EDI, HTML y XML. Un ejemplo son los registros Web log compuestos por distintas piezas de información que cumplen distintos propósitos.

  • Datos no estructurados

Carecen de formato fijo. Representan el 80% de los datos de una organización. Se almacenan como documentos u objetos y apenas se tiene control sobre ellos

La existencia de un gran número de datos no estructurados o semiestructurados presenta un reto importante para hacerlos manejables y compatibles con el resto

Almacenamiento de datos

El principio más básico de las bases de datos es que las decisiones que se toman a la hora de diseñar y seleccionar su forma de almacenamiento tienen una enorme repercusión en su eficiencia, el coste, la seguridad del sistema, el mantenimiento y la velocidad y facilidad de consulta. Afortunadamente, el almacenamiento de datos ha sufrido una gran transformación y se ha abaratado enormemente. Además, la velocidad de procesamiento ha aumentado enormemente con la aparición, a principios de los años 2000, de la computación paralela masiva.

...

Descargar como (para miembros actualizados)  txt (27.2 Kb)   pdf (616.8 Kb)   docx (734.5 Kb)  
Leer 16 páginas más »
Disponible sólo en Clubensayos.com