ALGORITMO DE AGRUPAMIENTO
Enviado por adrinnar • 25 de Noviembre de 2015 • Documentos de Investigación • 517 Palabras (3 Páginas) • 145 Visitas
[pic 1]
ALGORITMO DE AGRUPAMIENTO
INTRODUCCIÓN
Un algoritmo de agrupamiento, clustering es un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud.
La cercanía se define en términos de una determinada función de distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas.
Existen dos grandes técnicas para el agrupamiento de casos:
- Agrupamiento jerárquico, que puede ser aglomerativo o divisivo.
- Agrupamiento no jerárquico, en los que el número de grupos se determina de antemano y las observaciones se van asignando a los grupos en función de su cercanía. Existen los métodos de k-mean y k-medioid.
Y este documento se basa en el método de agrupamiento K-means, donde describe una breve definición y como tal la importancia del algoritmo.
Cluster
Un punto usado para representar un conjunto de valores de entre todos los iniciales que tienen algo en común.
[pic 2]
K-means
Este método de agrupamiento tiene como objetivo la partición de un conjunto n observaciones en k grupos en el que cada observación pertenece al grupo más cercano a la media.
Proceso, ejemplo de este algoritmo
Inicialmente se determina el número de grupos K y se asume el centroide o centro de esos grupos. Para determinar los centroides hay dos alternativas prácticas: la primera es tomar de forma aleatoria K objetos como centroides iniciales y la segunda es tomar los primeros K objetos en secuencia.
Este algoritmo ejecuta tres pasos importantes:
- Se determina el o los centroides iniciales de acuerdo al número de cluster esperado.
- Se determina la distancia de cada objeto con relación a los centroides.
- Se agrupan los objetos con base en la distancia mínima.
[pic 3]
Centroide
Punto central de un conjunto de datos o clúster. Punto que minimiza la distancia total entre cada punto del clúster y el centro.
EJEMPLO[pic 4][pic 5]
[pic 6][pic 7]
DATASET
Título: “Base de datos de evaluación de coches”
Número de instancias: 1728 (casos cubren completamente el espacio de atributos)
Número de Atributos: 6
Valores de atributos:
Atributos | Valores de atributos |
buying | v-high, high, med, low |
maint | v-high, high, med, low |
doors | 2, 3, 4, 5-more |
persons | 2, 4, more |
lug_boot | small, med, big |
safety | low, med, high |
Clases: acc, unacc, good, vgood
Ejemplo:
Buying | Maint | Doors | Persons | Lug-boot | safety |
vhigh | vhigh | 2 | 2 | small | low |
vhigh | vhigh | 2 | 2 | small | med |
vhigh | vhigh | 2 | 2 | small | high |
vhigh | vhigh | 2 | 2 | med | low |
vhigh | vhigh | 2 | 2 | med | med |
vhigh | vhigh | 2 | 2 | med | high |
vhigh | vhigh | 2 | 2 | big | low |
vhigh | vhigh | 2 | 2 | big | med |
vhigh | vhigh | 2 | 2 | big | high |
vhigh | vhigh | 2 | 4 | small | low |
vhigh | vhigh | 2 | 4 | small | med |
vhigh | vhigh | 2 | 4 | small | high |
vhigh | vhigh | 2 | 4 | med | low |
vhigh | vhigh | 2 | 4 | med | med |
vhigh | vhigh | 2 | 4 | med | high |
vhigh | vhigh | 2 | 4 | big | low |
vhigh | vhigh | 2 | 4 | big | med |
vhigh | vhigh | 2 | 4 | big | high |
vhigh | vhigh | 2 | more | small | low |
vhigh | vhigh | 2 | more | small | med |
...