IMPORTANCIA DE CALIDAD DE DATOS EN BIGDATA

jofemenInforme4 de Diciembre de 2021

3.951 Palabras (16 Páginas)120 Visitas

Página 1 de 16

[pic 1][pic 2][pic 3][pic 4]

IMPORTANCIA DE LA CALIDAD DE DATOS EN BIGDATA

ÍNDICE

Introducción 3
Los riesgos de la calidad de datos en Big Data 4

Diversidad de fuentes y tipos de datos 5

Cómo afrontar un proyecto de calidad de datos en Big Data 7

Primeros pasos para afrontar un proyecto Big Data 7

Afrontando el problema de Calidad de Datos en Big Data 8

Dónde aplicar calidad de datos en big data: direcciones y correos 10

Garantizando la información mediante un Gobierno de datos

de Big Data con Calidad de Datos 13

Una vista única 13

Data Lakes 14

Experiencia del cliente 14

Calidad de los datos como servicio 14

Conclusión 15

Banca y Finanzas 15

Producción 16

Seguros 16

Introducción

[pic 5][pic 6]

A medida que el volumen de datos generados por empresas, consumidores y servicios públicos crece (las expectati- vas son que en 2020 vamos a tener 50 veces más datos que hoy), las organizaciones van poniendo en marcha sus estrategias de datos.

Hoy en día las empresas tienen acceso a una avalancha de datos sobre el comportamiento de sus clientes, la percep- ción de marca, información de productos, problemas,... datos sobre todo lo que virtualmente puede tener impacto en su negocio.

Sin embargo, el desafío no reside solo en el volumen de datos, sino en el objetivo de dar sentido a todos esos datos.

La clave es convertir los datos en conocimiento dinámico que lleve a las empresas al desarrollo de nuevos pro- ductos y servicios, nuevos procesos de trabajo y nuevos modelos de negocio.

Los factores de éxito para un crecimiento impulsado por los datos radican en la capacidad de la empresa para poner en marcha el plan de gestión de datos más adecuado para que los datos no solo se almacenen, sino que se aprove- chen plenamente, donde quiera que se encuentren.

El objetivo principal de la gestión de big data es garantizar un alto nivel de calidad de los datos.

Los riesgos de la calidad de datos en Big Data

Big data es ya una tendencia. Son muchas las empresas que tienen estos proyectos encima de la mesa para poder hacer análisis predictivos muy completos que les ayuden a posicionar sus productos y que puedan darles opciones de identificar tendencias o patrones en sus clientes.

Pero esta tendencia también genera un gran riesgo ya que se trata de un tipo de información distinta a la informa- ción estructurada tradicional que está dentro de nuestra organización.

El big data presenta características diferentes al resto de datos que hacen que la calidad de datos del big data se enfrente a diferentes riesgos. Sus principales características se pueden reducir en las conocidas como 5 Vs: Volu- men, Velocidad, Variedad, Veracidad y Valor:

[pic 7]

Debido a estas 5 características del big data, cuando las empresas lo utilizan y procesan, se enfrentan con el pro- blema de tener que extraer datos reales y de alta calidad, de conjuntos de datos masivos, variables y complicados.

Antes del big data solamente teníamos un proceso que cargaba la información estructurada que teníamos en nuestro sistema: lista de clientes y ventas, por ejemplo, que estaban allí almacenadas. Todo eso se cargaba con un tradicional ETL.

Pero en la actualidad, con Hadoop podemos cargar información proveniente de fuera de nuestra organización, como campañas, comentarios o likes en redes sociales, etc., que nos avisan o nos ofrecen pistas sobre si nuestros productos están calando exitosamente en el mercado, no se venden o hay muchas reclamaciones, por ejemplo.

Todo esto hace que la calidad de datos del big data se enfrente a algunos desafíos que entrañan riesgos.

[pic 8]

Diversidad de fuentes y tipos de datos

La diversidad de fuentes de datos aporta abundantes tipos de datos y estructuras de datos complejas y aumenta la dificultad de integración de datos.

En el pasado, las empresas sólo utilizaban los datos generados a partir de sus propios sistemas empresariales, como las ventas y los datos de inventario. Pero ahora, los datos recogidos y analizados por las empresas han sobre- pasado este ámbito. Las fuentes de datos de big data son muy amplias, incluyendo:

Conjuntos de datos de internet y de Internet móvil.
Datos del Internet de las Cosas.
Datos recogidos por diversas industrias.
Datos experimentales y observacionales.

Estas fuentes producen:

Datos no estructurados: documentos, vídeo, audio, etc.
Datos semi-estructurados: paquetes / módulos de software, hojas de cálculo e informes financieros.
Datos estructurados: solo son un 20% de la cantidad total de datos existentes.

Esta diversidad de fuentes y tipos de datos incrementan el riesgo de mostrar errores de calidad de datos debido sobre todo a ese 80% de información que no es completamente estructurada.

El big data es una estructura donde se almacena información y debe pasar un proceso de calidad de datos. De nada sirve enviar información semiestructurada, estructurada o una combinación, con salesforce, twitter, etc., si no la estamos sirviendo corregida, limpia, estandarizada y homologada.

Las dificultades que podemos ver con este tipo de datos en el big data es precisamente por el ingreso de este tipo de datos “no convencionales”. Quizás podemos caer en el error de pensar que algunos de estos datos no se les puede pasar un proceso “calidad de datos” pero no es así. Sí se puede hacer.

Enorme volumen de datos

El volumen de datos es tremendo, y es difícil juzgar la calidad de datos dentro de un tiempo razonable.

Después de la revolución industrial, la cantidad de información se duplicaba cada diez años. Después de 1970, la cantidad de información se duplicaba cada tres años. Hoy en día, la cantidad global de información puede dupli- carse cada dos años.

Es difícil recolectar, limpiar, integrar y, finalmente, obtener datos de alta calidad en un plazo razonable. Debido a que la proporción de datos no estructurados en big data es muy alta, se necesita mucho tiempo para transformar tipos no estructurados en tipos estructurados y procesar los datos.

Son grandes volúmenes de información que se miden por petabytes. Es difícil tratar de trabajar con procesos de calidad de datos tradicionales cuando tenemos tantos datos.

Se trata de un riesgo muy importante.

Datos muy volátiles

Los datos cambian muy rápido y la validez de los datos es muy corta, lo que requiere mayores requisitos en tec- nología de procesamiento.

Si las empresas no pueden recopilar y utilizar los datos que necesitan en tiempo real, es muy posible que obtengan información anticuada e inválida. El procesamiento y análisis basado en estos datos producirá conclusiones inúti- les o engañosas, que pueden conducir a errores de toma de decisiones.

Falta de estándares de calidad de datos unificados

Podríamos decir que la investigación sobre la calidad de datos en big data acaba de comenzar.

Para garantizar la calidad de los productos y mejorar los beneficios para las empresas, en 1987 la Organización Internacional de Normalización (ISO) publicó las normas ISO 9000. Hoy en día, hay más de 100 países y regiones de todo el mundo llevando a cabo activamente estas normas. Esta implementación promueve la comprensión mutua entre las empresas en el comercio nacional e internacional y trae el beneficio de eliminar las barreras comerciales.

Por el contrario, el estudio de los estándares de calidad de los datos comenzó en los años noventa, pero no fue hasta 2011 cuando ISO publicó los estándares de calidad de da- tos ISO 8000. En la actualidad, más de 20 países participan en esta norma, aunque hay muchas disputas sobre ella.[pic 9]

Los estándares necesitan ser maduros y perfectos. Al mis- mo tiempo, la investigación sobre la calidad de datos de big data acaba de comenzar y todavía hay pocos resultados.

Pese a estos desafíos, la necesidad de mejorar la calidad de datos de big data es clave, no solo para poder conseguir ventajas competitivas analizando esas grandes cantidades de datos, sino también porque basar la toma de decisiones en un big data sin calidad de datos puede suponer incu- rrir en graves errores estratégicos y operacionales con consecuencias que pueden llegar a ser muy graves.

...

Descargar como (para miembros actualizados) txt (24 Kb) pdf (2 Mb) docx (1 Mb)

Leer 15 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com