ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

OCR (Optical Character Recognition)


Enviado por   •  10 de Diciembre de 2013  •  846 Palabras (4 Páginas)  •  338 Visitas

Página 1 de 4

OCR

¿Qué es el OCR?

El OCR (Optical Character Recognition) es una tecnología que trata de emular la capacidad del ojo humano para reconocer objetos. Concretamente es un software que permite el reconocimiento óptico de los caracteres contenidos en una imagen (documento escaneado o fotografía), de forma que estos se vuelven comprensibles o reconocibles para un ordenador, obteniendo como resultado final un archivo en un formato de texto editable. El formato del archivo de salida (txt, pdf, etc.) dependerá de las posibilidades que ofrezca el software.

¿Cómo funciona el OCR?

Para reconocer los caracteres, el software inspecciona la imagen pixel a pixel, buscando formas que coincidan con los rasgos de los caracteres. En función del nivel de complejidad o grado de desarrollo del software, éste buscará coincidencias con los caracteres y fuentes disponibles en el programa, o tratará de identificar los caracteres a través del análisis de sus características, de forma que el reconocimiento de los mismos no se limite exclusivamente a un determinado número de fuentes.

El OCR puede analizar los elementos del documento (bloques de texto, imágenes, tablas...), examinando los espacios en blanco y descomponiendo el texto en líneas, palabras y caracteres, de forma que el programa puede formular distintas hipótesis y cotejarlas con los diccionarios contenidos por el mismo (actualmente los programas contienen diccionarios en distintos idiomas), para formar palabras y textos completos.

Aunque actualmente el OCR puede llegar a mantener la estructura de los documentos originales en el archivo de salida, e incluso reconocer caracteres contenidos en documentos manuscritos, diagramas, partituras, etc., no hay que olvidar que su nivel de efectividad sigue siendo limitado, lo que hace necesaria una posterior revisión y corrección manual del texto generado. Actualmente existe en el mercado una amplia oferta de software OCR, cuyo nivel de sofisticación y precio está directamente relacionado con su precisión y efectividad en el reconocimiento de caracteres.

Unidad menor o elemento más pequeño que forma parte de una imagen digital.

¿Para qué se utiliza el OCR?

El OCR es una tecnología transversal, aplicable en distintos ámbitos y sectores para la digitalización de formularios, documentos administrativos, informes, etc., ya que las ventajas que ofrece son comunes para todos ellos.

En el sector de la cultura, por ejemplo en el ámbito de la preservación del patrimonio, el OCR se aplica principalmente en los procesos de digitalización de documentos históricos, en soporte papel o microformas.

La tipología de documentos sobre los que se recomienda aplicar el OCR es diversa. Identificamos a continuación algunas posibilidades extraídas del documento

¿Qué ventajas puede tener la aplicación del OCR?

Búsqueda y recuperación de documentos

1. La aplicación del OCR permite realizar búsquedas de texto libre sobre la totalidad del documento.

2. En el proceso de creación de los metadatos, el OCR se puede utilizar para generar índices de palabras clave del texto reconocido de forma automática. Explotación de los

...

Descargar como (para miembros actualizados)  txt (5.9 Kb)  
Leer 3 páginas más »
Disponible sólo en Clubensayos.com