INTRODUCCION AL ANALISIS CLUSTER

casmoad23 de Agosto de 2012

4.900 Palabras (20 Páginas)638 Visitas

Página 1 de 20

INTRODUCCIÓN AL ANÁLISIS CLUSTER

Planteamiento general

Criterios basados en distancias como indicadores de disimilaridad  DISTANCIA EUCLIDEA   DISTANCIA EUCLIDEA NORMALIZADA   DISTANCIA DE MAHALANOBIS   OTRAS DISTANCIAS   Criterios basados en similaridades. Medidas de similaridad

Medidas de similitud y distancia entre grupos   DISTANCIA MINIMA (NEAREST NEIGHBOUR DISTANCE)  DISTANCIA MAXIMA (FURTHEST NEIGHBOUR DISTANCE)  DISTANCIA ENTRE CENTROIDES

Métodos de análisis cluster   Métodos jerárquicos   Método de la distancia mínima (nearest neighbour o single linkage)  Método de la distancia máxima (furthest neighbour o complete linkage)   Método de la media (u.p.g.m.a.)   Método del centroide   Método de la mediana   Método de Ward   Método flexible de Lance y Williams

ANÁLISIS CLUSTER

Planteamiento general

El análisis cluster es un conjunto de técnicas multivariantes utilizadas para clasificar a un conjunto de individuos en grupos homogéneos.

Pertenece, al igual que otras tipologías y que el análisis discriminante al conjunto de técnicas que tiene por objetivo la clasificación de los individuos. La diferencia fundamental entre el análisis cluster y el discriminante reside en que en el análisis cluster los grupos son desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el análisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qué medida las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o asignar los individuos en/a los grupos dados .

Así pues, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio.

Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de individuos (de N elementos) caracterizados por la información de n variables Xj , (j = 1,2,..., n), nos planteamos el reto de ser capaces de clasificarlos de manera que los individuos pertenecientes a un grupo (cluster) (y siempre con respecto a la información disponible) sean tan similares entre sí como sea posible, siendo los distintos grupos entre ellos tan disimilares como sea posible.

Como puede comprenderse fácilmente el análisis cluster tiene una extraordinaria importancia en la investigación científica, en cualquier rama del saber. Téngase presente que la clasificación es uno de los objetivos fundamentales de la ciencia .Y en la medida en que el análisis cluster nos proporciona los medios técnicos para realizarla, se nos hará imprescindible en cualquier investigación.

Ya desde Linneo, las clasificaciones y taxonomías fueron piezas clave en las investigaciones biológicas, y, en consecuencia, no puede resultarnos extraño que haya sido en los entornos de este tipo de ciencias donde hayan surgido las técnicas del análisis cluster. Los trabajos de Sokal y Sneath , marcan el inicio de las técnicas de clusterización, que, poco a poco, han ido extendiendo sus aplicaciones a todos los ámbitos científicos.

Con el análisis cluster se pretende encontrar un conjunto de grupos a los que ir asignando los distintos individuos por algún criterio de homogeneidad. Por lo tanto, se hace imprescindible definir una medida de similitud o bien de divergencia para ir clasificando a los individuos en unos u otros grupos.

Además algunas consideraciones podrán tenerse en cuenta antes de comenzar el análisis:

Así, debemos plantearnos si vamos a comenzar la agrupación partiendo de algunos grupos ya establecidos o si, por el contrario, comenzaremos por considerar cada elemento individual como un cluster inicial que posteriormente iremos agrupando hasta obtener los clusters finales: Deberemos plantearnos la posibilidad de reasignaciones a lo largo del proceso. Igualmente deberemos establecer criterios para detener la agrupación y para llevarla a cabo.

Básicamente, el análisis constará de un algoritmo de clasificación que nos permitirá la obtención de una o varias particiones, de acuerdo con los criterios establecidos

El proceso completo puede estructurarse de acuerdo con el siguiente esquema:

Partimos de un conjunto de N individuos de los que se dispone de una información cifrada por un conjunto de n variables (una matriz de datos de N individuos ´ n variables) .

Establecemos un criterio de similaridad para poder determinar: Una matriz de similaridades que nos permita relacionar la semejanza de los individuos entre sí (matriz de N individuos x N individuos).

Escogemos un algoritmo de clasificación para determinar la estructura de agrupación de los individuos.

Especificamos esa estructura mediante diagramas arbóreos o dendogramas u otros gráficos.

Así pues, la clave de una buena clasificación pasará por :

a) Una buena selección de las variables que nos van a describir a los individuos. En este sentido un análisis de datos previo puede ser necesario o interesante. La posibilidad de combinar secuencialmente el análisis factorial y el análisis cluster, como se hará aquí, puede ser provechosa.

b) Poner buen cuidado en el criterio de similiaridad a utilizar.

c) Seleccionar adecuadamente el algoritmo de clasificación.

Así pues, en las siguientes páginas dedicaremos algún espacio a reseñar los criterios más importantes de similaridad y los principales métodos de análisis , centrándonos en los algoritmos de clasificación jerárquica ascendente más utilizados.

Criterios de similitud. Similitud, divergencia y distancia

Una vez hemos hecho una adecuada selección de las variables a considerar, cada uno de los individuos sujetos al análisis nos vendrá representado por los valores que tomen estas variables en cada uno de ellos. Este es el punto de partida de la clasificación. Para clasificar adecuadamente los individuos deberemos determinar lo similares o disimilares (divergentes) que son entre sí, en función de lo diferentes que resulten ser sus representaciones en el espacio de las variables.

Para medir lo similares ( o disimilares) que son los individuos existe una enorme cantidad de índices de similaridad y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y habrá que ser consciente de ellas para su correcta aplicación al caso que nos ocupe.

La mayor parte de estos índices serán o bien, indicadores basados en la distancia (considerando a los individuos como vectores en el espacio de las variables) (en este sentido un elevado valor de la distancia entre dos individuos nos indicará un alto grado de disimilaridad entre ellos); o bien, indicadores basados en coeficientes de correlación ; o bien basados en tablas de datos de posesión o no de una serie de atributos.

Criterios basados en distancias como indicadores de disimilaridad

Se da, en general, el nombre de distancia o disimilaridad entre dos individuos i y j a una medida, indicada por d(i,j) , que mide el grado de semejanza, o a mejor decir de desemejanza, entre ambos objetos o individuos, en relación a un cierto número de características cuantitativa y / o cualitativas. El valor de d(i,j) es siempre un valor no negativo, y cuanto mayor sea este valor mayor será la diferencia entre los individuos i y j.

Toda distancia debe verificar, al menos, las siguientes propiedades:

(P.1) d(i,j) > 0 (no negatividad)

(P.2) d(i,i) = 0

(P.3) d(i,j) = d(j,i) (simetría)

Diremos que una distancia es euclidiana cuando pueda encontrarse un espacio vectorial de dimensión igual o inferior a la dimensión del espacio de las variables en el que podamos representar a los individuos por puntos cuya distancia euclídea ordinaria coincida con la distancia utilizada.

Es decir si existe un espacio vectorial Rm , con m < n (siendo n el número de variables consideradas para representar a los individuos ) y dos puntos de ese espacio, Pi y Pj de coordenadas : Pi = (Pi1 , Pi2 ,... Pi m ) y Pj = (Pj1 , Pj2 ,..., Pj m ) verificándose que la distancia que estamos considerando entre los individuos i y j es igual a la distancia euclídea entre los puntos Pi y Pj en Rm ; esto es: Si d (i,j) =º ( Pi - Pj )º , diremos que la distancia d (i,j) es euclidiana .

Cuando la distancia es euclidiana se verifica además que:

(P.4) d(i,j)< d(i,t) + d(j,t) (desigualdad triangular)

(P.5) d(i,j) > 0 " i ¹ j

Cualquier distancia que verifica la propiedad P.4 es llamada distancia métrica. Cumpliéndose , en consecuencia, que las distancias euclidianas son un subconjunto de las distancias métricas.

Si además de verificar la propiedad P.4 una distancia verifica la propiedad:

(P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramétrica)

...

Descargar como (para miembros actualizados) txt (34 Kb)

Leer 19 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com