Una encuesta sobre técnicas de agrupamiento para grandes

Allison PalmerDocumentos de Investigación28 de Junio de 2022

7.490 Palabras (30 Páginas)136 Visitas

Página 1 de 30

Traducido del inglés al español - www.onlinedoctranslator.com

Revista india de ciencia y tecnología,Vol. 9(3), DOI: 10.17485/ijst/2016/v9i3/75971, enero de 2016[pic 1]

ISSN (Impreso): 0974-6846

ISSN (En línea): 0974-5645

Una encuesta sobre técnicas de agrupamiento para grandes

Procesamiento de datos

T. Sajana, CM Sheela Rani y KV Narayana

Universidad KL, Vaddeswaram – 522502, Guntur Dist., Andhra Pradesh, India;

sajana.cse@kluniversity.in , sheelarani_cse@kluniversity.in , kvnarayana@kluniversity.in[pic 2]

Resumen[pic 3]

Este documento se centra en un estudio profundo de diferentes algoritmos de agrupamiento que destaca las características de los grandes datos. Se analiza una breve descripción general de varios algoritmos de agrupamiento que se agrupan en partición, jerárquica, densidad, basada en cuadrícula y basada en modelo.

Palabras clave:Características de Big Data, algoritmos de agrupamiento: particionamiento, densidad, basado en cuadrículas, basado en modelos, datos homogéneos, jerárquicos

1. Introducción algoritmos Entre estas técnicas de minería, las técnicas de agrupamiento producen agrupaciones de buena calidad con la agrupación de datos no[pic 4]

[pic 5]Big Data es la gran cantidad de datos que procesa el entorno de minería de datos. En otras palabras, es la recopilación de conjuntos de datos grandes y complejos que son difíciles de procesar con las aplicaciones tradicionales de procesamiento

de datos. Big Data consiste en convertir datos no estructurados, invaluables, imperfectos y complejos en información utilizable[1]. Pero se vuelve difícil mantener un gran volumen de

información y datos día a día de muchos recursos y

servicios diferentes que no estaban disponibles para el espacio humano hace solo unas décadas. Todos los días se producen enormes cantidades de datos por y sobre personas, cosas y sus interacciones. Muchos grupos diferentes discuten sobre los posibles beneficios y costos de analizar la información que proviene de Twitter, Google, Facebook, etc. Hay disponible un gran volumen de datos de diferentes recursos y servicios en línea, como redes de sensores, computación en la nube, etc., que se establecieron para atender a sus clientes. Para superar estos problemas, Big Data se agrupa en un formato compacto que sigue siendo una versión informativa de datos completos. Las técnicas de clustering son muy útiles para procesar la minería de datos.[pic 6]

* Autor de la correspondencia

etiquetados. La agrupación en clústeres es el proceso de agrupar los datos en función de sus propiedades similares. El objetivo principal de este documento es proporcionar varios algoritmos de agrupamiento para Big Data.

Este artículo presenta el levantamiento de técnicas de

clustering definidas con las 4 V's de Big Data características

- Volumen, Variedad, Velocidad y Valor[2] [3]. El volumen es la característica básica de Big Data que se ocupa del tamaño de los datos, la dimensionalidad del conjunto de datos y la detección de valores atípicos. La variedad se ocupa del tipo de atributos del conjunto de datos como numérico, categórico, continuo, ordinal y de proporción. Velocity se ocupa del análisis de algoritmos para el cálculo de varios atributos para procesar datos. Finalmente, Value se ocupa de los parámetros que se utilizan para el procesamiento. En el presente documento, la Introducción a Big Data se analiza en la sección 1, la Arquitectura de Big Data en la sección 2, la Descripción de los algoritmos de agrupamiento en la sección 3 y, finalmente, en la sección 4 se presenta la comparación de diferentes algoritmos de agrupamiento.

Este artículo presenta un estudio claro de varios algoritmos de agrupamiento[4][5][6][7]para procesar datos que ayuden a los investigadores y estudiantes a decidir qué algoritmo es el mejor para agrupar según los requisitos.

[pic 7]2. grandeData arquitectura 3. Algoritmos de agrupamiento[pic 8]

Como una década se pueden almacenar grandes volúmenes de datos en todos los sectores, se requiere administrar, almacenar, analizar y predecir esos grandes volúmenes de datos llamados "Big Data". La arquitectura de almacenamiento de datos no puede mantener volúmenes de grandes conjuntos de datos porque utiliza una arquitectura centralizada de 3 niveles, mientras que en la arquitectura Big Data se ocupa del procesamiento distribuido de datos.[8]. La arquitectura de Big Data se muestra en la Figura 1.

Figura 1. Gran arquitectura de datos.

Este documento presenta varios algoritmos de agrupamiento considerando las propiedades de las características de Big Data, como el tamaño, el ruido, la dimensionalidad, los cálculos de los algoritmos, la forma del agrupamiento, etc.[10] [11]. La descripción general de los algoritmos de agrupamiento se muestra en la Figura 2.

3.1 Algoritmos de agrupamiento basados en partición:

Todos los objetos se consideran inicialmente como un solo

grupo. Los objetos se dividen en un número de particiones mediante la ubicación iterativa de los puntos entre las particiones. Los algoritmos de partición como K-means, K- medoids (PAM, CLARA, CLARANS y FCM) y K-modes. Los algoritmos basados en particiones pueden encontrar grupos de formas no convexas.

3.2 Algoritmos de agrupamiento jerárquico:

Hay dos enfoques para realizar técnicas de agrupamiento jerárquico Aglomerativo (arriba-abajo) y Divisivo (abajo-arriba). En el enfoque aglomerativo, inicialmente se selecciona un objeto y, sucesivamente, se fusionan los objetos vecinos en función de la distancia como mínimo, máximo y promedio. El proceso es continuo hasta que se forma un grupo deseado. El enfoque divisivo trata el conjunto de objetos como un solo grupo y divide el grupo en

Figura 2.Una descripción general de los algoritmos de agrupamiento para la minería de Big Data.

más grupos hasta que se forme el número deseado de grupos. BIRCH, CURE, ROCK, Chameleon, Echidna, Wards, SNN, GRIDCLUST, CACTUS son algunos de los algoritmos de agrupamiento jerárquico en los que se forman grupos de Hiperrectangular arbitrario no convexo.

3.3 Algoritmos de agrupamiento basados en la densidad:

Los objetos de datos se clasifican en puntos centrales, puntos de borde y puntos de ruido. Todos los puntos centrales están conectados entre sí en función de las densidades para formar un grupo. Los clústeres de forma arbitraria están formados por varios algoritmos de agrupamiento como DBSCAN, OPTICS, DBCLASD, GDBSCAN, DENCLU y SUBCLU.

3.4 Algoritmos de agrupamiento basados en cuadrículas:

El algoritmo basado en cuadrícula divide el conjunto de datos en un número ilimitado de celdas para formar una estructura de cuadrícula. Los clústeres se forman en base a la estructura de cuadrícula. Para formar clústeres, el algoritmo Grid utiliza técnicas de agrupamiento subespacial y jerárquico. STING, CLIQUE, Wave cluster, BANG, OptiGrid, MAFIA, ENCLUS, PROCLUS, ORCLUS, FC y STIRR. Comparar con todos los algoritmos de agrupamiento Los algoritmos de cuadrícula son algoritmos de procesamiento muy rápidos. Los algoritmos de cuadrícula uniforme no son suficientes para formar los grupos deseados. Para superar estos problemas, las celdas de la cuadrícula forman agrupaciones de forma arbitraria, como MAFIA y AMR.

3.5 Algoritmos de agrupamiento basados en modelos:

El conjunto de puntos de datos se conectan entre sí en función de diversas estrategias, como métodos estadísticos, métodos conceptuales y métodos de agrupamiento robustos. Hay dos enfoques para los algoritmos basados en modelos, uno es el enfoque de red neuronal y otro es el enfoque estadístico. Algoritmos como EM, COBWEB, CLASSIT, SOM y SLINK son algoritmos de agrupamiento basados en modelos bien conocidos.

4. Comparación deClustre A

algoritmos de agrupamiento relacionados con las características de las 4

...

Descargar como (para miembros actualizados) txt (48 Kb) pdf (253 Kb) docx (828 Kb)

Leer 29 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com