Algoritmo de agrupamiento

adrinnarDocumentos de Investigación25 de Noviembre de 2015

517 Palabras (3 Páginas)229 Visitas

Página 1 de 3

[pic 1]

ALGORITMO DE AGRUPAMIENTO

INTRODUCCIÓN

Un algoritmo de agrupamiento, clustering es un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud.

La cercanía se define en términos de una determinada función de distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas.

Existen dos grandes técnicas para el agrupamiento de casos:

Agrupamiento jerárquico, que puede ser aglomerativo o divisivo.
Agrupamiento no jerárquico, en los que el número de grupos se determina de antemano y las observaciones se van asignando a los grupos en función de su cercanía. Existen los métodos de k-mean y k-medioid.

Y este documento se basa en el método de agrupamiento K-means, donde describe una breve definición y como tal la importancia del algoritmo.

Cluster

Un punto usado para representar un conjunto de valores de entre todos los iniciales que tienen algo en común.

[pic 2]

K-means

Este método de agrupamiento tiene como objetivo la partición de un conjunto n observaciones en k grupos en el que cada observación pertenece al grupo más cercano a la media.

Proceso, ejemplo de este algoritmo

Inicialmente se determina el número de grupos K y se asume el centroide o centro de esos grupos. Para determinar los centroides hay dos alternativas prácticas: la primera es tomar de forma aleatoria K objetos como centroides iniciales y la segunda es tomar los primeros K objetos en secuencia.

Este algoritmo ejecuta tres pasos importantes:

Se determina el o los centroides iniciales de acuerdo al número de cluster esperado.
Se determina la distancia de cada objeto con relación a los centroides.
Se agrupan los objetos con base en la distancia mínima.

[pic 3]

Centroide

Punto central de un conjunto de datos o clúster. Punto que minimiza la distancia total entre cada punto del clúster y el centro.

EJEMPLO[pic 4][pic 5]

[pic 6][pic 7]

DATASET

Título: “Base de datos de evaluación de coches”

Número de instancias: 1728 (casos cubren completamente el espacio de atributos)

Número de Atributos: 6

Valores de atributos:

Atributos	Valores de atributos
buying	v-high, high, med, low
maint	v-high, high, med, low
doors	2, 3, 4, 5-more
persons	2, 4, more
lug_boot	small, med, big
safety	low, med, high

Clases: acc, unacc, good, vgood

Ejemplo:

Buying	Maint	Doors	Persons	Lug-boot	safety
vhigh	vhigh	2	2	small	low
vhigh	vhigh	2	2	small	med
vhigh	vhigh	2	2	small	high
vhigh	vhigh	2	2	med	low
vhigh	vhigh	2	2	med	med
vhigh	vhigh	2	2	med	high
vhigh	vhigh	2	2	big	low
vhigh	vhigh	2	2	big	med
vhigh	vhigh	2	2	big	high
vhigh	vhigh	2	4	small	low
vhigh	vhigh	2	4	small	med
vhigh	vhigh	2	4	small	high
vhigh	vhigh	2	4	med	low
vhigh	vhigh	2	4	med	med
vhigh	vhigh	2	4	med	high
vhigh	vhigh	2	4	big	low
vhigh	vhigh	2	4	big	med
vhigh	vhigh	2	4	big	high
vhigh	vhigh	2	more	small	low
vhigh	vhigh	2	more	small	med

...

Descargar como (para miembros actualizados) txt (5 Kb) pdf (530 Kb) docx (613 Kb)

Leer 2 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com