Una encuesta sobre técnicas de agrupamiento para grandes
Enviado por Allison Palmer • 28 de Junio de 2022 • Documentos de Investigación • 7.490 Palabras (30 Páginas) • 74 Visitas
Traducido del inglés al español - www.onlinedoctranslator.com
Revista india de ciencia y tecnología,Vol. 9(3), DOI: 10.17485/ijst/2016/v9i3/75971, enero de 2016[pic 1]
ISSN (Impreso): 0974-6846
ISSN (En línea): 0974-5645
Una encuesta sobre técnicas de agrupamiento para grandes
Procesamiento de datos
T. Sajana, CM Sheela Rani y KV Narayana
Universidad KL, Vaddeswaram – 522502, Guntur Dist., Andhra Pradesh, India;
sajana.cse@kluniversity.in , sheelarani_cse@kluniversity.in , kvnarayana@kluniversity.in[pic 2]
Resumen[pic 3]
Este documento se centra en un estudio profundo de diferentes algoritmos de agrupamiento que destaca las características de los grandes datos. Se analiza una breve descripción general de varios algoritmos de agrupamiento que se agrupan en partición, jerárquica, densidad, basada en cuadrícula y basada en modelo.
Palabras clave:Características de Big Data, algoritmos de agrupamiento: particionamiento, densidad, basado en cuadrículas, basado en modelos, datos homogéneos, jerárquicos
1. Introducción algoritmos Entre estas técnicas de minería, las técnicas de agrupamiento producen agrupaciones de buena calidad con la agrupación de datos no[pic 4]
[pic 5]Big Data es la gran cantidad de datos que procesa el entorno de minería de datos. En otras palabras, es la recopilación de conjuntos de datos grandes y complejos que son difíciles de procesar con las aplicaciones tradicionales de procesamiento
de datos. Big Data consiste en convertir datos no estructurados, invaluables, imperfectos y complejos en información utilizable[1]. Pero se vuelve difícil mantener un gran volumen de
información y datos día a día de muchos recursos y
servicios diferentes que no estaban disponibles para el espacio humano hace solo unas décadas. Todos los días se producen enormes cantidades de datos por y sobre personas, cosas y sus interacciones. Muchos grupos diferentes discuten sobre los posibles beneficios y costos de analizar la información que proviene de Twitter, Google, Facebook, etc. Hay disponible un gran volumen de datos de diferentes recursos y servicios en línea, como redes de sensores, computación en la nube, etc., que se establecieron para atender a sus clientes. Para superar estos problemas, Big Data se agrupa en un formato compacto que sigue siendo una versión informativa de datos completos. Las técnicas de clustering son muy útiles para procesar la minería de datos.[pic 6]
* Autor de la correspondencia
etiquetados. La agrupación en clústeres es el proceso de agrupar los datos en función de sus propiedades similares. El objetivo principal de este documento es proporcionar varios algoritmos de agrupamiento para Big Data.
Este artículo presenta el levantamiento de técnicas de
clustering definidas con las 4 V's de Big Data características
- Volumen, Variedad, Velocidad y Valor[2] [3]. El volumen es la característica básica de Big Data que se ocupa del tamaño de los datos, la dimensionalidad del conjunto de datos y la detección de valores atípicos. La variedad se ocupa del tipo de atributos del conjunto de datos como numérico, categórico, continuo, ordinal y de proporción. Velocity se ocupa del análisis de algoritmos para el cálculo de varios atributos para procesar datos. Finalmente, Value se ocupa de los parámetros que se utilizan para el procesamiento. En el presente documento, la Introducción a Big Data se analiza en la sección 1, la Arquitectura de Big Data en la sección 2, la Descripción de los algoritmos de agrupamiento en la sección 3 y, finalmente, en la sección 4 se presenta la comparación de diferentes algoritmos de agrupamiento.
Este artículo presenta un estudio claro de varios algoritmos de agrupamiento[4][5][6][7]para procesar datos que ayuden a los investigadores y estudiantes a decidir qué algoritmo es el mejor para agrupar según los requisitos.
[pic 7]2. grandeData arquitectura 3. Algoritmos de agrupamiento[pic 8]
Como una década se pueden almacenar grandes volúmenes de datos en todos los sectores, se requiere administrar, almacenar, analizar y predecir esos grandes volúmenes de datos llamados "Big Data". La arquitectura de almacenamiento de datos no puede mantener volúmenes de grandes conjuntos de datos porque utiliza una arquitectura centralizada de 3 niveles, mientras que en la arquitectura Big Data se ocupa del procesamiento distribuido de datos.[8]. La arquitectura de Big Data se muestra en la Figura 1.
Figura 1. Gran arquitectura de datos.
Este documento presenta varios algoritmos de agrupamiento considerando las propiedades de las características de Big Data, como el tamaño, el ruido, la dimensionalidad, los cálculos de los algoritmos, la forma del agrupamiento, etc.[10] [11]. La descripción general de los algoritmos de agrupamiento se muestra en la Figura 2.
3.1 Algoritmos de agrupamiento basados en partición:
Todos los objetos se consideran inicialmente como un solo
grupo. Los objetos se dividen en un número de particiones mediante la ubicación iterativa de los puntos entre las particiones. Los algoritmos de partición como K-means, K- medoids (PAM, CLARA, CLARANS y FCM) y K-modes. Los algoritmos basados en particiones pueden encontrar grupos de formas no convexas.
3.2 Algoritmos de agrupamiento jerárquico:
Hay dos enfoques para realizar técnicas de agrupamiento jerárquico Aglomerativo (arriba-abajo) y Divisivo (abajo-arriba). En el enfoque aglomerativo, inicialmente se selecciona un objeto y, sucesivamente, se fusionan los objetos vecinos en función de la distancia como mínimo, máximo y promedio. El proceso es continuo hasta que se forma un grupo deseado. El enfoque divisivo trata el conjunto de objetos como un solo grupo y divide el grupo en
Figura 2.Una descripción general de los algoritmos de agrupamiento para la minería de Big Data.
...