ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

SELECCION DE LA TECNICA DE MODELADO


Enviado por   •  19 de Junio de 2021  •  Trabajos  •  937 Palabras (4 Páginas)  •  117 Visitas

Página 1 de 4

4. SELECCION DE LA TECNICA DE MODELADO

Como primer paso en el modelamiento es preciso seleccionar la técnica que se utilizara. Las distintas técnicas disponibles deben evaluarse en relación a su capacidad para alcanzar los objetivos de minería de datos, teniendo en cuenta las restricciones de recursos del proyecto, cabe anotar que no todas las herramientas y técnicas son aplicables a cada tarea, para ciertos problemas solo algunas técnicas son apropiadas.

Técnica del modelamiento:

Para el desarrollo de las actividades que den respuesta a nuestro objetivo de minería de datos en la fase de modelado se decidió por la técnica de datos descriptiva denominada: Método de segmentación teniendo en cuenta las instrucciones por el instructor del área y el software escogido (KNIME)

Representación grafica de la organización de los nodos para el modelo de segmentación:

[pic 1]

Una vez creado el proyecto en KNIME, se determino que para este análisis era suficiente segmentarlo en 10 nodos denominados SimpleKmeans, donde el primer clúster inicio con el 2, el siguiente fue el tres y así sucesivamente hasta el clúster 10 todas con características similares con el fin de agruparlos, teniendo en cuenta el principio de homogeneidad y heterogeneidad.

Existen dos métodos de segmentación:

Jerárquico: su principio es identificar y definir las distancias y similitudes.

Se trabaja con cluster: Hierarchical- Dendograma, Ward y promedio.

El no jerárquico: El principio del método no jerárquico parte una de matriz de datos que trabaja con el algoritmo de las K-media, que consiste en llevar la diferencia de la variancia al mínimo.

Ejecución de técnicas de modelado

Se determinó el número de grupos adecuados para nuestro conjunto de datos, con cada algoritmo de segmentación seleccionado, para ello se aplicaron técnicas para la validación interna de los grupos, éstas fueron, la suma de error al cuadrado y el coeficiente de la silueta que permitieron determinar el número de clústeres.

Generación de un diseño de comprobación

Para la selección del número de grupos se aplico la técnica de evaluación interna: suma de error al cuadrado con 10 nodos que nos permitiría determinar el número de clúster necesarios para llevar a cabo nuestro ejercicio.

Ejecución de diseño comprobación

Se creó una tabla de decisión para cada conjunto de datos resultante de la aplicación de los métodos anteriores.

Luego de aplicar los algoritmos de segmentación, se obtuvo los siguientes resultados:

DATOS

K

SSE

C1

16

C2

8

C3

6

C4

4

C5

3

C6

3

C7

3

C8

2

C9

3

C10

2

En la gráfica el eje K representa el número de clúster, y el eje SSE representa la suma del error al cuadrado para los 10 clústeres.

La solución del clúster apropiado se define como el momento en que ocurre una reducción dramática de la suma del error al cuadrado.

Esto produce un "codo" en la trama, y puede observarse este codo en el número de clúster 3, por lo tanto se realizará la segmentación en 3 grupos de clientes con el algoritmo k-means.

[pic 2]

Desarrollo del proceso de segmentación:

La base de datos original para el estudio consta de 311 registros de los cuales se hizo todo el proceso de depuración y solo quedaron 52 registros como se muestra a continuación y que al ser ingresados a la plataforma KNIME se identifica con el clúster  

Nodo denominado  Excel Reader  [pic 3] : Corresponde a la información final definida para analizar y que consta de 52 registros:

Código de entidad

Créditos de vivienda

Microcréditos garantía idónea

1

18,723,024,456

4,992,918,928

2

1,293,891,427

718,911

7

35,555,501,543

1,391,228,665

13

27,385,865,154

0

23

1,661,450,988

0

30

8,763,787,766

7,359,267,424

39

33,656,600,517

0

49

3,933,419,378

0

52

0

7,482,299,306

53

0

7,182,999,719

56

0

0

60

0

10,139,641,532

62

415,542,904

4,403,797,481

56

0

0

53

0

7,120,735,974

1

19,127,237,404

4,733,185,417

2

1,374,784,674

0

7

34,723,382,925

1,355,887,135

13

28,121,940,795

0

23

1,647,176,811

0

30

9,001,306,989

7,103,649,352

39

78,709,344,321

0

49

3,885,091,168

0

52

0

7,017,485,995

60

0

9,463,499,948

62

570,541,895

4,123,353,798

1

19,793,720,937

4,887,712,745

2

1,595,636,870

0

7

33,811,786,212

1,241,878,331

13

28,786,797,688

0

23

1,800,910,848

0

30

8,771,071,362

6,553,726,485

39

79,669,591,287

0

49

3,801,971,309

0

52

0

6,976,008,179

53

0

8,032,776,920

56

0

0

60

0

9,295,661,505

62

658,029,125

4,397,227,827

53

0

8,397,168,116

56

0

0

1

20,114,789,736

4,751,775,537

2

1,888,100,617

0

7

35,663,457,650

1,126,290,254

13

28,781,089,226

0

23

2,315,574,788

0

30

8,499,066,916

5,832,408,196

39

84,056,960,406

0

49

3,857,889,056

0

52

0

7,471,212,244

60

0

9,540,722,986

62

833,217,122

5,084,617,074

...

Descargar como (para miembros actualizados)  txt (11.8 Kb)   pdf (314.2 Kb)   docx (219.6 Kb)  
Leer 3 páginas más »
Disponible sólo en Clubensayos.com