Los 13 tipos de datos
williammarquezrResumen30 de Julio de 2023
2.729 Palabras (11 Páginas)95 Visitas
LOS 13 TIPOS DE DATOS
Los datos son un tema espinoso. Para empezar, no estamos seguros de cómo se supone que debemos referirnos a él, es decir, datos es el plural de dato. Estrictamente hablando, deberíamos hablar de datos que "son" y no "están" disponibles para respaldar una teoría, etc. El periódico The Guardian discutió el debate aquí y pareció sugerir que (a pesar de los infinitivos divididos y los matices del latín idiomático) se permite que el uso del término permanezca convenientemente gramaticalmente incorrecto.
“Por si sirve de algo, puedo decir con confianza que esta será probablemente la única vez que escriba la palabra 'dato' en una publicación [de blog]. Los datos como término plural pueden ser el uso adecuado, pero el lenguaje evoluciona y queremos escribir en términos que todos entiendan, y que no parezcan ridículos”, escribió Simon Rogers , en 2012, antes de pasar a su puesto como editor de datos en Google.
Entonces, de las muchas instancias diferentes de datos individuales (perdón, datos) que existen, ¿podemos agruparlos en distintos tipos, categorías, variedades y clasificaciones? En este mundo de la llamada transformación digital y la computación en la nube que impulsa nuestros estilos de vida siempre activos y súper conectados, seguramente sería útil comprender el qué, cuándo, dónde y por qué de los datos en nuestro viaje para luego comenzar a apreciar el cómo. factor.
1 - Grandes datos
Un favorito central, los grandes datos han surgido para definirse como algo así como: esa cantidad de datos que prácticamente no caben en una base de datos estándar (relacional) para el análisis y el procesamiento causado por los enormes volúmenes de información creados por humanos y generados por máquinas. procesos.
“Si bien las definiciones de 'grandes datos' pueden diferir ligeramente, en la raíz de cada uno hay conjuntos de datos muy grandes y diversos que incluyen datos estructurados, semiestructurados y no estructurados, de diferentes fuentes y en diferentes volúmenes, desde terabytes hasta zettabytes. Se trata de conjuntos de datos tan grandes y diversos que es difícil, si no imposible, que las bases de datos relacionales tradicionales los capturen, administren y procesen con baja latencia”, dijo Rob Thomas , gerente general de IBM Analytics .
Thomas sugiere que los grandes datos son un gran problema porque son el combustible que impulsa cosas como el aprendizaje automático, que forman los componentes básicos de la inteligencia artificial (IA). Él dice que al profundizar (y analizar) los grandes datos, las personas pueden descubrir patrones para comprender mejor por qué sucedieron las cosas. Luego, también pueden usar la IA para predecir cómo pueden suceder en el futuro y prescribir direcciones estratégicas basadas en estos conocimientos.
2 - Datos estructurados, no estructurados, semiestructurados
Todos los datos tienen una estructura de algún tipo. Delinear entre datos estructurados y no estructurados se reduce a si los datos tienen un modelo de datos predefinido y si están organizados de una manera predefinida.
Mat Keep es director sénior de productos y soluciones en MongoDB . Keep explica que, en el pasado, las estructuras de datos eran bastante simples y, a menudo, se conocían antes del diseño del modelo de datos, por lo que los datos generalmente se almacenaban en el formato tabular de filas y columnas de las bases de datos relacionales.
“Sin embargo, el avance de las aplicaciones modernas web, móviles, sociales, de IA y de IoT, junto con la programación moderna orientada a objetos, rompen ese paradigma. Los datos que describen una entidad (es decir, un cliente, producto, activo conectado) se gestionan en código como objetos completos , que contienen elementos profundamente anidados . La estructura de esos objetos puede variar (polimorfismo), es decir, algunos clientes tienen un perfil de redes sociales que se rastrea y otros no. Y, con metodologías de desarrollo ágiles, las estructuras de datos también cambian rápidamente a medida que se crean nuevas funciones de aplicación”, dijo Keep.
Como resultado de todo este polimorfismo actual, muchos desarrolladores de software buscan alternativas más flexibles a las bases de datos relacionales para acomodar datos de cualquier estructura.
3 - Datos con sello de tiempo
Los datos con marca de tiempo son un conjunto de datos que tiene un concepto de ordenamiento temporal que define la secuencia en la que se capturó cada punto de datos (tiempo del evento) o se recopiló (tiempo procesado).
“Este tipo de datos generalmente se usa cuando se recopilan datos de comportamiento (por ejemplo, acciones de los usuarios en un sitio web) y, por lo tanto, es una representación real de las acciones a lo largo del tiempo. Tener un conjunto de datos como este es invaluable para los científicos de datos que trabajan en sistemas que tienen la tarea de predecir o estimar los siguientes mejores modelos de estilo de acción, o realizar análisis de viaje, ya que es posible reproducir los pasos de un usuario a través de un sistema, aprender de los cambios sobre tiempo y responder”, dijo Alex Olivier , gerente de producto de la empresa de plataforma de software de personalización de marketing Qubit .
4 - Datos de la máquina
En pocas palabras, los datos de las máquinas son el escape digital creado por los sistemas, las tecnologías y la infraestructura que impulsan las empresas modernas.
Matt Davies , jefe de marketing de EMEA en Splunk , nos pide que pintemos un cuadro e imaginemos un día típico en el trabajo, conduciendo a la oficina en su automóvil conectado, iniciando sesión en su computadora, haciendo llamadas telefónicas, respondiendo correos electrónicos, accediendo a aplicaciones. Davies explica que toda esta actividad crea una gran cantidad de datos de máquina en una variedad de formatos impredecibles que a menudo se ignoran.
“Los datos de la máquina incluyen datos de áreas tan variadas como interfaces de programación de aplicaciones (API), puntos finales de seguridad, colas de mensajes, eventos de cambio, aplicaciones en la nube, registros de detalles de llamadas y datos de sensores de sistemas industriales”, dijo Davies. “Sin embargo, los datos de las máquinas son valiosos porque contienen un registro definitivo en tiempo real de toda la actividad y el comportamiento de los clientes, usuarios, transacciones, aplicaciones, servidores, redes y dispositivos móviles”.
Si se hacen accesibles y utilizables, se argumenta que los datos de las máquinas pueden ayudar a las organizaciones a solucionar problemas, identificar amenazas y utilizar el aprendizaje automático para ayudar a predecir problemas futuros.
5 - Datos espaciotemporales
Los datos espaciotemporales describen tanto la ubicación como el tiempo para el mismo evento, y pueden mostrarnos cómo los fenómenos en una ubicación física cambian con el tiempo.
“Los datos espaciales son el 'spatio' en espaciotemporal. Puede describir ubicaciones de puntos o líneas más complejas, como trayectorias de vehículos o polígonos (figuras planas) que forman objetos geográficos como países, carreteras, lagos o huellas de edificios”, explicó Todd Mostak , director ejecutivo de MapD .
Los datos temporales contienen información de fecha y hora en una marca de tiempo. El tiempo válido es el período de tiempo cubierto en el mundo real. El Tiempo de Transacción es el tiempo en que se conoció un hecho almacenado en la base de datos.
“Ejemplos de cómo los analistas pueden visualizar e interactuar con datos espaciotemporales incluyen: rastrear vehículos en movimiento, describir el cambio en las poblaciones a lo largo del tiempo o identificar anomalías en una red de telecomunicaciones. Los encargados de tomar decisiones también pueden ejecutar cálculos de bases de datos back-end para encontrar distancias entre objetos o resumir estadísticas sobre objetos contenidos en ubicaciones específicas”, dijo Mostak de MapD.
6 - Datos abiertos
Los datos abiertos son datos que están disponibles gratuitamente para cualquier persona en términos de su uso (la posibilidad de aplicarle análisis) y derechos para volver a publicar sin restricciones de derechos de autor, patentes u otros mecanismos de control. El Open Data Institute afirma que los datos abiertos solo son útiles si se comparten de manera que las personas realmente puedan entender. Debe compartirse en un formato estandarizado y rastrearse fácilmente hasta su origen.
“¿No sería interesante si pudiéramos hacer que algunos datos privados [formas, tendencias extrapoladas, valores agregados y análisis] estén disponibles para el mundo sin renunciar a la fuente y la identificación del propietario de esos datos? Están surgiendo algunas tecnologías, como la computación multipartita y la privacidad diferencial, que pueden ayudarnos a hacer esto”, dijo Mike Bursell , arquitecto jefe de seguridad de Red Hat .
Bursell explica que estas todavía son técnicas académicas en este momento, pero en los próximos diez años dice que la gente pensará sobre lo que entendemos por datos abiertos de diferentes maneras. El mundo del código abierto entiende algunas de esas preguntas y puede liderar el grupo. El encargado de seguridad de Red Hat dice que puede ser difícil para las organizaciones que han construido su negocio en torno a guardar secretos. Ahora tienen que ver cómo abren eso para crear oportunidades para la creación de riqueza y la innovación.
...