BIG DATA:ALTERNATIVA DE TRATAMIENTO A LA INCONMENSURABILIDAD COMPUTACIONAL
Alejandro López CMonografía11 de Noviembre de 2018
12.446 Palabras (50 Páginas)119 Visitas
BIG DATA:
ALTERNATIVA DE TRATAMIENTO A LA INCONMENSURABILIDAD COMPUTACIONAL
ALEJANDRO LÓPEZ CORREA
DIRECTORA:
PAULA ANDREA VILLA SANCHEZ
FACULTAD DE INGENIERÍAS: ELÉCTRICA, ELECTRÓNICA, FÍSICA Y CIENCIAS DE LA COMPUTACIÓN
INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
UNIVERSIDAD TECNOLÓGICA DE PEREIRA
PEREIRA, JUNIO 2016
Nota de aceptación
____________________________
____________________________
____________________________
____________________________
____________________________
____________________________
Firma de jurado 1
Pereira, junio de 2016
DEDICATORIA
A mi madre, a mi padre y especialmente a mi hermano, quienes me apoyaron y orientaron en el desarrollo de mis estudios.
AGRADECIMIENTOS
A la universidad Tecnológica de Pereira por brindarme un espacio integral de aprendizaje en mi formación academica.
A mi directora de proyecto de grado Paula Andrea Villa Sánchez por guiarmente en la formulación y desarrollo del proyecto.
A algunos amigos, compañeros y colegas que hicieron mi experiencia universitaria aún más enriquecedora: Nelson E. y Richard S., a quienes con cada conversación académica se les evidenciaba el deseo por aprender; a Santiago O. quien fue un compañero de trabajo de inicio de la carrera hasta el fin de la misma; y a Sebastian Z. a quien en cada conversación se le sentía vívidamente el deseo por convertirse en un excelente profesional, y así mismo al graduarme, con todos ellos, se que convertirán en excelentes profesionales y continuarán siendo excelentes seres humanos.
Tabla de contenido
Lista de tablas 7
Resumen 8
1 Datos en Big Data. 10
1.1 Estadísticas generales sobre crecimiento de datos: 10
1.2 Fuentes de datos usadas en Big Data. 11
1.3 Tipos de datos usados y gestores de datos. 13
2 Big Data Analytics: Técnicas. 22
2.1 Clases de técnicas analíticas. 22
2.2 Técnicas analíticas. 23
3 Entornos de trabajo, herramientas de análisis matemático y estadístico, y software complementario. 31
3.1 Entornos de trabajo 31
3.2 Herramientas de análisis matemático y estadístico 37
3.3 Software complementario 40
4 Discusión de resultados 49
4.1 Fases del proceso Big Data 49
4.2 Aportes del autor a la comunidad de investigadores de esta temática, especialmente a los que se inician en ella. 54
Conclusiones 55
Bibliografía 56
Lista de ilustraciones:
Ilustración 1Fuentes de Big Data (IBM, (2012)) 12
Ilustración 2Fuentes de Big Data con mercados bancarios y financieros (IBM, (2013)) 13
Ilustración 3The conceptual structure of a key/value store (McMurtry et al. (2012)) 17
Ilustración 4 An example set of documents in a document database (McMurtry et al. (2012)) 18
Ilustración 5 Personnel information structured as a graph (McMurtry et al. (2012)) 19
Ilustración 6 Implementing a one-to-many relationship in a relational database (McMurtry et al. (2012)) 20
Ilustración 7 The structure of data in a column-family database (McMurtry et al. (2012)) 21
Ilustración 8 Classes of Analytic Techniques (Booz Allen Hamilton, (2015)) 22
Ilustración 9 The Big Data Pipeline, propuesta CCC (Computing Community Consortium, (2012)) 49
Ilustración 10 Fases de proceso Big Data, propuesta monógrafia. 53
Lista de tablas
Tabla 1 Clasificación de técnicas analíticas. 29
Tabla 2 Frameworks Big Data 37
Resumen
En la actualidad Big Data –todo lo que no cabe en una sola máquina, tanto como en almacenamiento como en procesamiento y análisis de datos- está tomando mucha fuerza, así como todas las herramientas y técnicas que se están creando y reinventando constantemente, para poder cubrir las necesidades de esta tendencia. Este trabajo monográfico emerge con el propósito de aportar proactiva, preventiva y reactivamente, a situaciones tanto problemáticas como de oportunidad, que configuran tal tendencia; de distinguir e indicar algunas técnicas y herramientas que ésta usa, como también de establecer las fases del proceso que se debe realizar para sacar provecho de Big Data.
Introducción
Big Data posee muchos significados hoy en día, sin embargo, lo que se comprende habitualmente es que Big Data es todo lo que no cabe en una sola máquina, tanto como en almacenamiento como en procesamiento y análisis de datos.
Habitualmente para explicar Big Data se presentan las 5 Vs sobré ella, siendo así:
- Volumen: La gran cantidad de datos existente y la velocidad en la que se incrementa este volumen de datos.
- Variedad: La gran cantidad de tipos y representaciones de los datos, existiendo heterogeneidad entre ellos, siendo estructurados, semi-estructurados y no estructurados.
- Velocidad: La gran velocidad en la que se mueven estos flujos de datos y la necesidad de toma de decisiones en cuestión de segundos sobre los mismos.
- Veracidad: Consiste en la incertidumbre de los datos, corresponde a la fiabilidad que existe sobre ellos.
- Valor: Podria decirse que es la V más importante dado que consiste en la obtención de valor de los datos, esto significa sacarle provecho a todo el proceso obteniendo un valor de él.
Pero Big Data explicada de esa manera resulta algo ambigua, por tanto, surge la pregunta de investigación de esta monografía que podría aclarar un poco que significa Big data, así:
¿Cómo son las fases del proceso de Big Data? Dando una respuesta general e introduciendo Big Data Analytics y explicando algunas herramientas y técnicas.
1 Datos en Big Data.
En este apartado se ubicará la información encontrada sobre características de los datos utilizados comúnmente en Big Data, así como sus fuentes más relevantes, los tipos de datos que se extraen de ellas e información adicional.
1.1 Estadísticas generales sobre crecimiento de datos:
Según el documento llamado “The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things” del año 2014 se encuentran estadísticas sobre el universo digital, encontrándose con que el crecimiento de datos por año es del 40%, incluyendo los comportamientos de las personas, empresas e incluso de dispositivos inteligentes conectados a internet.
Se estima que para el año 2020 el universo digital poseerá datos que pesen alrededor de 44 Zettabytes, lo que es equivalente a 44 trillones de Gigabytes.
En el documento se encuentra una comparativa sobre el año en el que se hizo el estudio (año 2013) y la proyección hacia el año 2020, en el estudio se encuentran analizados más de 40 tipos de dispositivos, desde etiquetas RFID y sensores, hasta supercomputadores y supercolisionadores, desde computadores personales y servidores hasta carros y aviones dando como resultado lo siguiente:
- Desde el año 2013 hasta el año 2020, el universo digital crecerá en un factor de 10, incrementando de 4.4 trillones de Gigabytes hasta 44 Trillones. Más del doble de cada dos años.
- En 2013, dos tercios de los bits del universo digital fueron creados o capturados por consumidores y trabajadores, de allí se desprende que las empresas tengan responsabilidad por el 85% del universo digital.
- En 2013, solo el 22% de la información en el universo digital pudo ser candidata para análisis, menos del 5% de ello fue analizado, En el año 2020, ese porcentaje podría crecer a más del 35%, más que nada debido al crecimiento de datos provenientes de sistemas embebidos.
- De los datos útiles, se estima que en 2013 quizás el 5% fue especialmente valioso. Ese porcentaje podría ser más del doble del cual en el 2020 las empresas podrían tomar ventaja de las nuevas tecnologías de Big Data y Analytics, y nuevas fuentes de datos. Y la aplicación de ellas a nuevas partes de la organización.
- En 2013 mientras que alrededor del 40% de la información requería algún tipo de protección, menos del 20% del universo digital poseía dicha protección.
- Los datos provenientes de sistemas embebidos, siendo un pilar importante para el internet de las cosas, creció alrededor de un 2% en el año 2013 se estima que será un 10% para el año 2020.
- En el año 2013, menos del 20% de los datos en el universo digital tiene contacto con la nube. En el año 2020, ese porcentaje crecerá a 40%.
- La mayoría del universo digital es transitorio, como las películas reproducidas en Netflix o Hulu, o interacciones en juegos online, siendo algo bueno porque la capacidad de almacenamiento está creciendo a menor velocidad que el mismo universo digital. En 2013, la capacidad de almacenamiento disponible podría soportar solo el 33% del universo digital. En el 2020, será posible almacenar menos del 15%.
- En el 2014, el universo digital fue equivalente a alrededor de 1.7 Megabytes por minuto por persona en la tierra.
Estas fueron algunas de las estimaciones propuestas por los autores del documento proyectando las oportunidades, desafíos y paradojas del universo digital.
1.2 Fuentes de datos usadas en Big Data.
En este apartado pasaremos a hablar sobre las fuentes de datos usados en Big Data, según un estudio realizado por IBM colaborando con la Escuela de Negocios Säid en la Universidad de Oxford llamado “Big Data @Work” se generó el documento llamado "Analytics: el uso de Big data en el mundo real" del año 2012 en donde se descubrió que las fuentes de Big Data son las siguientes:
...