Análisis de diferentes clasificadores

Mikel Gil FernándezApuntes6 de Octubre de 2018

495 Palabras (2 Páginas)156 Visitas

Página 1 de 2

Aprendizaje Formal y Sistemas de Ayuda a la Decisión

15 de Junio de 2015

Mikel Gil Fernández

Introducción:

Realizaremos, sobre un mismo conjunto de datos una clasificación con diferentes métodos para estudiar y sacar conclusiones sobre cuáles se adaptan mejor.

El experimento, debido a su aleatoriedad, lo realizaremos 25 veces cada uno para obtener una media “fiable” de los 25 experimentos para cada método. Estas medias serán los valores de precisión de cada método que pondremos en la tabla.

Los resultados de los 25 experimentos se pueden consultar al final del informe.

Presentación de los resultados:

Método	% Acierto Train	% Acierto Test	Diferencia
Regresión Logística	87,289	86,992	0,296
Regresión Logística + Regularización	85,453	85,240	0,212
Regresión Logística Polinomial	90,863	90,978	-0,114
Regresión Logística Polinomial + Regularización	91,132	90,087	1,045
Naïve Bayes	55,668	54,656	1,011
Redes Neuronales (2 Capas ocultas)	99,300	98,715	0,585
Redes Neuronales (5 Capas ocultas)	99,712	99,255	0,456
Redes Neuronales (10 Capas ocultas)	99,930	99,810	0,120
AdaBoost (3 Iteraciones)	92,382	91,781	0,601
AdaBoost (10 Iteraciones)	96,455	95,372	1,083
AdaBoost (20 Iteraciones)	99,060	97,970	1,089
AdaBoost (30 Iteraciones)	99,741	98,992	0,748

Discusión y análisis de los resultados:

En general no observamos grandes diferencias. Como es lógico, la “columna diferencia” (% Acierto train - % Acierto test) es, en su mayoría positivos. Es más fácil que acierte los ejemplos con los que ha entrenado.

El verdadero reto es enfrentarse a nuevos ejemplos y acertar habiendo entrenado con otros datos.

Regresión Logística:

Sin regularización vs Con regularización: En este caso no vemos mejorías, a priori utilizando regularización. Faltaría “jugar” con los valores lambda y alpha buscando la mejor relación %acierto Train / %acierto Test.
Añadiendo características polinomiales conseguimos una mejora en la frontera de decisión haciéndola más compleja y ajustada, pero no demasiado, ya que los aciertos en el test se mantienen parejos.
Polinomial Con Regularización: Vemos mejoría en aciertos en el train y un ligero descenso en los aciertos de test debido a la varianza adquirida por el pequeño sobre-aprendizaje dado por las nuevas características.

Redes Neuronales:

Añadiendo capas ocultas conseguimos una mayor complejidad en las matrices de peso que regulan la activación de la siguiente neurona. Por lo que la intuición en este caso acierta: A más capas, mayor precisión. Además conseguimos que no haya un bias y varianza alto, manteniendo los aciertos en train y test parejos.
Nótese que, a medida que aumentamos las capas ocultas, la diferencia entre los aciertos de train y test va disminuyendo y con ello el bias y varianza. Por lo que es un buen método para estos datos.

AdaBoost:

Conforme aumentamos iteraciones vamos acertando más ejemplos, tanto en train como en test.
En este caso hay un pequeño aumento en diferencia de aciertos respecto a, por ejemplo, el clasificador por Redes Neuronales, por lo que tiene un bias y varianza mayor.

Conclusión:

Para intentar mejorar nuestros resultados, podríamos “jugar” con las variables en nuestros métodos. Si se nos presentara un problema de sobre-aprendizaje (el modelo se ajusta en exceso a los datos de entrenamiento), podríamos quitar características. Si tuviéramos una varianza alta, podríamos añadir más ejemplos “importantes” o variar (aumentar) el valor de lambda propio de la regularización

[pic 1]

...

Descargar como (para miembros actualizados) txt (4 Kb) pdf (327 Kb) docx (49 Kb)

Leer 1 página más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com