ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Una encuesta sobre técnicas de agrupamiento para grandes


Enviado por   •  28 de Junio de 2022  •  Documentos de Investigación  •  7.490 Palabras (30 Páginas)  •  55 Visitas

Página 1 de 30

Traducido del inglés al español  - www.onlinedoctranslator.com

Revista  india de ciencia y tecnología,Vol. 9(3), DOI: 10.17485/ijst/2016/v9i3/75971, enero  de 2016[pic 1]


ISSN (Impreso): 0974-6846

ISSN (En línea): 0974-5645

Una encuesta sobre  técnicas de agrupamiento para  grandes

Procesamiento de datos

T. Sajana,  CM Sheela  Rani y KV Narayana

Universidad KL, Vaddeswaram – 522502, Guntur Dist., Andhra Pradesh,  India;

sajana.cse@kluniversity.in , sheelarani_cse@kluniversity.in , kvnarayana@kluniversity.in[pic 2]

Resumen[pic 3]

Este documento se centra  en un estudio profundo de diferentes algoritmos de agrupamiento que destaca las características de los grandes datos. Se analiza una breve descripción  general  de varios algoritmos de agrupamiento que se agrupan  en partición, jerárquica, densidad, basada  en cuadrícula y basada  en modelo.

Palabras clave:Características de Big Data, algoritmos de agrupamiento: particionamiento, densidad, basado  en cuadrículas, basado  en modelos,  datos homogéneos, jerárquicos

1. Introducción                                         algoritmos Entre estas  técnicas de minería, las técnicas de agrupamiento producen  agrupaciones de buena  calidad con la agrupación de datos no[pic 4]

[pic 5]Big Data es la gran cantidad de datos que procesa el entorno de minería de datos. En otras palabras,  es la recopilación  de conjuntos de datos grandes y complejos que son difíciles de procesar con las aplicaciones tradicionales de procesamiento

de datos. Big Data consiste en convertir datos no estructurados, invaluables, imperfectos y complejos en información  utilizable[1]. Pero se vuelve difícil mantener un gran volumen de

información  y datos día a día de muchos  recursos y

servicios diferentes que no estaban disponibles  para el espacio  humano  hace solo unas décadas. Todos los días se producen  enormes cantidades de datos por y sobre  personas, cosas  y sus interacciones. Muchos grupos diferentes discuten sobre  los posibles beneficios y costos  de analizar la información  que proviene de Twitter, Google, Facebook, etc. Hay disponible un gran volumen de datos de diferentes recursos y servicios en línea, como redes de sensores, computación en la nube, etc., que se establecieron para atender a sus clientes.  Para superar estos problemas, Big Data se agrupa en un formato compacto que sigue siendo una versión informativa de datos completos. Las técnicas de clustering  son muy útiles para procesar la minería de datos.[pic 6]

* Autor de la correspondencia


etiquetados. La agrupación en clústeres es el proceso de agrupar los datos en función de sus propiedades similares. El objetivo principal de este  documento es proporcionar varios algoritmos de agrupamiento para Big Data.

Este artículo presenta el levantamiento de técnicas de

clustering  definidas con las 4 V's de Big Data características

- Volumen, Variedad, Velocidad y Valor[2] [3]. El volumen es la característica básica  de Big Data que se ocupa del tamaño  de los datos, la dimensionalidad  del conjunto  de datos y la detección de valores atípicos. La variedad se ocupa del tipo de atributos  del conjunto  de datos como numérico,  categórico, continuo,  ordinal y de proporción.  Velocity se ocupa del análisis de algoritmos para el cálculo de varios atributos  para procesar datos. Finalmente,  Value se ocupa de los parámetros que se utilizan para el procesamiento. En el presente documento, la Introducción  a Big Data se analiza en la sección  1, la Arquitectura de Big Data en la sección  2, la Descripción de los algoritmos de agrupamiento en la sección  3 y, finalmente, en la sección  4 se presenta la comparación de diferentes algoritmos de agrupamiento.

Este artículo presenta un estudio claro de varios algoritmos de agrupamiento[4][5][6][7]para procesar datos que ayuden a los investigadores y estudiantes a decidir qué algoritmo  es el mejor para agrupar según  los requisitos.

[pic 7]2. grandeData arquitectura                            3. Algoritmos de agrupamiento[pic 8]

Como una década  se pueden almacenar grandes volúmenes  de datos en todos los sectores, se requiere  administrar,  almacenar, analizar y predecir esos  grandes volúmenes  de datos llamados "Big Data". La arquitectura de almacenamiento de datos no puede mantener volúmenes de grandes conjuntos de datos porque utiliza una arquitectura centralizada  de 3 niveles, mientras que en la arquitectura Big Data se ocupa del procesamiento distribuido de datos.[8].  La arquitectura de Big Data se muestra  en la Figura 1.

Figura 1.     Gran arquitectura de datos.


Este documento presenta varios algoritmos de agrupamiento considerando las propiedades de las características de Big Data, como el tamaño, el ruido, la dimensionalidad, los cálculos de los algoritmos, la forma del agrupamiento, etc.[10] [11]. La descripción  general  de los algoritmos de agrupamiento se muestra  en la Figura 2.

3.1 Algoritmos de agrupamiento basados en partición:

Todos los objetos se consideran inicialmente  como un solo

grupo. Los objetos se dividen en un número  de particiones mediante  la ubicación iterativa de los puntos entre  las particiones. Los algoritmos de partición como K-means, K- medoids (PAM, CLARA, CLARANS y FCM) y K-modes. Los algoritmos basados   en particiones  pueden encontrar grupos de formas  no convexas.

3.2 Algoritmos de agrupamiento jerárquico:

Hay dos enfoques para realizar técnicas de agrupamiento jerárquico Aglomerativo (arriba-abajo) y Divisivo (abajo-arriba). En el enfoque aglomerativo, inicialmente  se selecciona un objeto y, sucesivamente, se fusionan los objetos vecinos en función de la distancia como mínimo, máximo y promedio.  El proceso es continuo hasta que se forma un grupo deseado. El enfoque divisivo trata el conjunto  de objetos como un solo grupo y divide el grupo en

Figura 2.Una descripción  general  de los algoritmos de agrupamiento para la minería de Big Data.

...

Descargar como (para miembros actualizados)  txt (48.3 Kb)   pdf (252.9 Kb)   docx (828.4 Kb)  
Leer 29 páginas más »
Disponible sólo en Clubensayos.com