Clasificacion De Numeros Manuescritos

yoinerensayo29 de Octubre de 2014

4.812 Palabras (20 Páginas)334 Visitas

Página 1 de 20

CLASIFICACIÓN DE NÚMEROS MANUSCRITOS EN BASE A

PROTOTIPOS

yoiner A. Pérez 1

RESUMEN

Se presenta un método de reconocimiento de números manuscritos en base a prototipos creados por un algoritmo de entrenamiento de Distancia Euclidiana. La clasificación de un número manuscrito se realiza considerando su distancia a los prototipos más cercanos. Para formar el conjunto de prototipos se utiliza una base de entrenamiento de 2361 patrones y la evaluación del método se realiza con una base de prueba independiente de 1320 patrones. Los resultados obtenidos se comparan respecto a otros dos métodos conocidos: Red Perceptrón Multicapa y Mapa Autoorganizativo SOM (Self Organizing Map) más algoritmo de Cuantización Vectorial LVQ1 (variante de LVQ - Linear Vector Quantization). El método propuesto alcanza una tasa de reconocimiento de 93.5% en los patrones de prueba cuando se utiliza el prototipo más cercano como salida del sistema de clasificación. Con una clasificación basada en una votación de los prototipos más cercanos, el porcentaje de clasificación correcto aumenta a 94.8%. Los resultados obtenidos con Distancia Euclidiana son significativamente superiores a los conseguidos por una red tipo perceptrón multicapa (91.8%), y SOM+LVQ1 (91.5%) sobre las mismas bases de datos.

1. INTRODUCCIÓN.

El reconocimiento de dígitos manuscritos es una tarea importante en el análisis automático de documentos. Se han desarrollado aplicaciones para automatizar la lectura de direcciones postales, cheques bancarios, formularios de impuestos, formularios de censo y lectores de texto para discapacitados visuales, entre otros. A pesar del notable progreso logrado en los últimos años en el área de reconocimiento automático de números manuscritos, todavía se está lejos de poder igualar la capacidad humana de reconocimiento [13].

Las redes neuronales artificiales han mostrado un gran potencial en tareas de reconocimiento de patrones [3]. Se ha desarrollado un número importante de aplicaciones en el reconocimiento automático de caracteres manuscritos. Entre los resultados publicados para reconocimiento de

números manuscritos, los porcentajes de clasificación correcta están en el rango entre 68% [10] y 97.97% [2]. Sin embargo, no es posible realizar una comparación entre diferentes sistemas de reconocimiento basándose sólo en los resultados de su desempeño, debido a que en general los sistemas han sido probados con bases de datos diferentes y su rendimiento depende fuertemente de la tasa de rechazo empleada [2]. Por lo tanto, es importante identificar las características del sistema que hacen superior su desempeño en la clasificación bajo las mismas condiciones de datos y tasas de rechazo.

En la actualidad el diseño de redes neuronales artificiales, para tareas específicas, se basa principalmente en experiencias previas sobre aplicaciones similares. Usualmente se aplican propuestas heurísticas para la selección del número de unidades ocultas [3,5]. Se desconoce la forma de encontrar teóricamente la topología óptima de una red

para un problema en particular [8,9,14]. Por otra parte la capacidad de generalización de la red neuronal es influida por el tamaño y eficacia de la base de entrenamiento, la arquitectura de la red y la complejidad del problema [6].

En trabajos previos sobre reconocimiento de dígitos manuscritos se han obtenido mejoras en la tasa de éxito mediante una selección genética del número de unidades ocultas, y entrenando con una base de datos aumentada por el desplazamiento y magnificación de los patrones originales de entrenamiento [12]. También se obtuvieron mejoras mediante una cooperación de redes neuronales modulares [11]. En otros estudios recientes se han utilizado Mapas Auto Organizativos SOM (Self Organizing Maps) [1,4,7], y Cuantización Vectorial Lineal LVQ (Linear Vectorial Quantization) [7,13].

En este trabajo se presenta un sistema de reconocimiento de números manuscritos basado en prototipos obtenidos utilizando distancia Euclidiana. La clasificación de un número manuscrito se realiza considerando la distancia entre el número y los prototipos más cercanos. Los resultados obtenidos se comparan con aquellos obtenidos por modelos de red tipo perceptrón multicapa y un método SOM (Mapa Autoorganizativo) más un LVQ1 (variante de LVQ).

2. MÉTODO.

El sistema propuesto se compone de tres etapas: normalización, creación de prototipos y clasificación. En la primera etapa, a partir de una base de números manuscritos con pixeles binarios se normaliza el tamaño de los números, generando una base en tonos de grises.

La segunda etapa es la creación de prototipos. Se crea un nuevo prototipo cuando la distancia de un patrón de la base de datos de entrenamiento al prototipo existente más cercano supera un umbral u, o cuando el patrón es de distinta clase que el prototipo más cercano. La creación de prototipos se hace considerando dos modos, que se comparan entre sí: patrones centrados y patrones desplazados en la entrada. Esto último permite incorporar cierta invarianza al desplazamiento del caracter de entrada.

La tercera etapa es la clasificación de los dígitos manuscritos en base a la distancia entre el caracter a clasificar y los prototipos. La evaluación del sistema se realiza con una base de prueba distinta a la utilizada en la creación de los prototipos más cercanos. La clasificación se realiza de dos formas, que se comparan entre sí: la primera utiliza el prototipo más cercano como salida del sistema, la segunda utiliza un sistema de votación entre los prototipos más cercanos.

La figura 1 muestra un diagrama en bloques del esquema de funcionamiento del proceso descrito anteriormente. La base de dígitos manuscritos para entrenar el sistema consiste en 2361 patrones y la de prueba en 1320 patrones.

2.1. Normalización.

Primeramente se normaliza (trata de igualar) el tamaño de los números manuscritos. En la base de datos, cada dígito manuscrito es una imagen binaria (blanco/negro) de 15x23 pixeles que se encuentra aproximadamente centrado en la imagen. Antes de normalizar se elimina el ruido en la imagen binaria, eliminando los pixeles aislados presentes en la imagen. Luego se normaliza el tamaño de la imagen, conservando la razón de aspecto del dígito para no deformarlo. En esta aplicación se mantiene la razón de

Figura 1: Esquema de funcionamiento del sistema de clasificación de números manuscritos en base a prototipos. Se muestran las tres etapas: normalización, creación de prototipos y clasificación. En las dos últimas etapas se considera más de una alternativa de procesamiento.

(a) (b) (c) (d)

Figura 2: Secuencia de detección y procesamiento del número manuscrito: (a) Imagen original Im1, y detección de rectángulo mínimo, conservando razón de aspecto (b)-(c) Im2 expansión (escalamiento) y (d) Im3: suavizado de bordes.

(a) (b)

Figura 3: (a) Normalización para razón de aspecto rdig > N2/N1. (b) Normalización para razón de aspecto rdig < N2/N1.

aspecto de la imagen original, r=N2/N1 tal que N1 = número de columnas de la imagen en pixeles = 15 y N2 = número de filas de la imagen en pixeles = 23.

Para realizar la expansión se encuentra primero el rectángulo mínimo que contiene la imagen del número manuscrito, como se muestra con línea punteada en la figura 2a. Luego se determina el rectángulo mínimo que conserva la razón de aspecto del dígito manuscrito al expandirlo a la dimensión máxima de 15x23 (figura 2a). Esto se debe a que en el caso general la razón de aspecto dada por el rectángulo mínimo para un dígito en particular, rdig=y/x, es distinta a la razón de aspecto de la imagen completa, r=N2/N1. Para mantener la razón de aspecto del dígito, se selecciona una zona mayor horizontal o vertical hasta igualar la razón de aspecto r. Luego se aplica la expansión que se muestra en el ejemplo entre las figuras 2b y 2c. Para la expansión, a cada pixel (i,j) de la imagen escalada se le buscan las coordenadas (x,y) correspondientes en la imagen binaria de acuerdo a las ecuaciones (1) y (2).

(1)

(2)

Figura 4: Determinación de pixeles en tonos de grises de la imagen escalada a partir de los pixeles de la imagen binaria.

Las ecuaciones (1) y (2) distinguen dos casos para el cálculo de la coordenada (x,y), de acuerdo a la razón de aspecto de la imagen de cada dígito original: rdig>N2/N1 y rdig<N2/N1.

Las figuras 3a y 3b muestran los parámetros utilizados para los dos casos, la zona del rectángulo mínimo (zona en gris) y la denominación de las medidas asociadas a las ecuaciones (1) y (2).

El rectángulo mínimo para el dígito original (binario) está dado por x y y. Las coordenadas (Xmín,Ymín) representan el vértice superior izquierdo del rectángulo

...

Descargar como (para miembros actualizados) txt (29 Kb)

Leer 19 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com