CLUSTERING MEDALLISTAS OLÍMPICOS EN JMP
hoseofmouse1 de Mayo de 2014
804 Palabras (4 Páginas)261 Visitas
CLUSTERING MEDALLISTAS OLÍMPICOS EN JMP
Vamos a echar un vistazo a los resultados de los Juegos Olímpicos de verano en 2008 en Beijing. Nos preguntamos si sería posible descubrir patrones en los datos cuando se combinan con indicadores económicos, como el producto interno bruto (PIB) y la población de los respectivos países en el mismo año que se llevaron a cabo las olimpiadas.
¿Qué es Clustering?
Clustering es una técnica multivariante de agrupación de filas que comparten valores similares. El objetivo de la agrupación es dividir los datos en grupos de manera que las observaciones dentro de un grupo son tan similares como sea posible el uno al otro, y tan diferentes como sea posible a las observaciones de otros grupos.
Hay varios métodos de agrupación; los más comunes son k-means clustering y la agrupación jerárquica. Elegimos la agrupación jerárquica, ya que es un buen método para los conjuntos de datos más pequeños. En cada paso, los dos grupos que están más cerca juntos se combinan en un solo grupo. Este proceso continúa hasta que sólo hay un grupo que contiene todos los puntos.
Clustering es posible en muchos productos de SAS: SAS Enterprise Guide, SAS Enterprise Miner, Base SAS JMP. Hemos realizado el análisis de cluster Olímpicos en JMP.
Cómo agrupar en JMP?
1. Abra el conjunto de datos medallas en JMP y seleccione Analyze > Multivariate Methods > Cluster
2. Seleccione medallas, el PIB, la población -> Y, Columns
3. Seleccionar Nombre País -> Label
4. Asegúrese de que Hierarchical sea seleccionada en Opciones y que Ward y Standardize Data estén seleccionadas en Método.
5. Al hacer clic en Aceptar, el proceso de clustering empezara.
Cómo interpretar los resultados?
La secuencia de la agrupación se visualiza fácilmente con la ayuda del dendrograma. Un dendrograma es un diagrama de árbol que muestra cada observación, y demuestra que se agrupan como y cuando entró en su cluster.
Puede arrastrar la pequeña asa en forma de diamante en la parte superior o inferior de la dendrograma para identificar un determinado número de clusters. Quisimos identificar 10 grupos. Si hace clic en cualquier tallo clúster, todos los miembros del grupo más destacado en el dendrograma como en la tabla de datos.
El gráfico de sedimentación debajo del dendrograma tiene un punto para cada grupo unirse.
En la tabla histórica agrupación se ve que el número de grupos comienzan con 83, que es el número de filas de la tabla de datos menos uno. Se puede ver que los dos puntos más cercanos, Estonia y Trinidad y Tobago, se unen para reducir el número de grupos a 82. Al final un grupo liderado por Afganistán se unieron al resto de los puntos, liderado por China. El orden de los grupos en cada combinación es poco importante, esencialmente un accidente de la forma en que los datos fueron ordenados.
También puede guardar el número del clúster como una nueva columna en el conjunto de datos (seleccionamos sabe clusters). Ahora usted puede crear un conjunto de datos basado en el número de clúster ordenados:
1. Seleccionar Tables > Sort
2. Seleccione Cluster - > haga clic en el botón Orden descendente
3. Escriba grupos Olímpicos en el campo nombre de la tabla de salida
Esta será su resultado. Observe que las filas se marcan de la misma manera como en el dendrograma.
Conclusiones
Cada uno de los cinco primeros grupos sólo contiene un solo país, que se debe a que sus valores variables en las medallas, el PIB y la población varían mucho. Los Estados Unidos tiene el mayor número de medallas, junto con el mayor PIB. China, por su parte obtuvo un número similar de medallas como los EE.UU. Pero tiene un PIB y de poblaciones muy
...