ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Benchmark OCR


Enviado por   •  2 de Junio de 2020  •  Trabajos  •  779 Palabras (4 Páginas)  •  103 Visitas

Página 1 de 4

Benchmarking

a. En base a los grupos constituidos, realizar un análisis de benchmark comparando al menos 2 servicios diferentes de OCR (Reconocimiento óptico de caracteres) en línea.

Resolución:

1 - ELEMENTO DE ESTUDIO

 El enfoque en este estudio va a ser la herramienta OCR en línea. El Reconocimiento Óptico de Caracteres u OCR en sus siglas en inglés (Optical Character Recognition) es una funcionalidad que permite convertir distintos tipos de documentos físicos en datos digitales editables.

 Los factores y variables claves a tener en cuenta en este estudio van a ser:

  • Cantidad de idiomas incluídos.
  • Cantidad de palabras reconocidas.
  • Formatos input. Qué tipo de archivos permite ingresar el OCR.
  • Formatos output. Qué tipo de archivos devuelve el OCR.
  • Límite de subidas.
  • Tiempo aproximado de subida de archivo.
  • Tiempo aproximado de conversión.
  • Tiempo total aproximado de realización de proceso.
  • Tamaño máximo de archivo.

 Las opciones de mercado que se estudiarán a continuación serán las siguientes:

  • Online OCR: https://www.onlineocr.net/es/ 
  • OCR Space: https://ocr.space/ 
  • New OCR: https://www.newocr.com/ 

 Elegidas de manera aleatoria en base a resultados de búsqueda en Google.

2 - ENTORNO DE PRUEBA

 Para la realización de pruebas en cada uno de los OCRs seleccionados, utilizaremos tres imágenes las cuales poseen diversas características en cuanto a peso de archivo, formato, fuente, tamaño de fuente, colores, imágenes, formatos, etc. para analizar la efectividad de las herramientas a la hora de tener que convertir una imagen en datos digitales editables.

Imágenes de prueba

[pic 1]

Descripción de las imágenes

Imagen

Resolución

Peso

Formato

Cantidad de palabras

Imagen A

1278x1652

 906 kb

JPG

683

Imagen B

1317 x 1600

490 kb

JPG

447

Imagen C

826 x 621

 204 kb

PNG

120

  • La imagen A tiene la dificultad de tener una fuente poco legible, además de ser la que más palabras tiene, es la de mayor peso.
  • La imagen B fue seleccionada debido a su dificultad de reconocimiento, es posible que se obtengan un bajo resultado al momento de su procesamiento, ya que es un escaneo de una hoja de un libro físico donde las palabras cercanas al lomo se encuentran un poco menos legibles que las demás y el lineamiento de las oraciones presentan una leve inclinación la cual hacen un texto no horizontal en su totalidad.
  • La imagen C se podría decir que es la más fácil de las tres, la que menos pesa y la que tiene menos palabras, pero el tener texto negro en un fondo azul con un formato de escritura en columnas podría presentar dificultades a los motores de reconocimiento de los OCR.

3 - REALIZACIÓN DEL BENCHMARK

 Se procede a realizar las pruebas para cada OCR, y a mostrar los resultados de las variables analizadas para cada imagen.

 Las pruebas van a ser ejecutadas en 2 PCs distintas con un promedio de 30mb de bajada y 5mb de subida de servicio de internet, y utilizando el navegador Chrome en uno y Firefox en otro.

New OCR

OCR Space

ONLINE OCR

Formatos Input

JPEG, JFIF, PNG, GIF, BMP, PBM, PGM, PPM, PCX, TIFF, PDF, DjVu, DOCX, ODT

PNG, JPG, WEBP, PDF

PDF, JPG, BMP, TIFF, GIF

Formatos Output

TXT, DOC, PDF

TXT,PDF

DOCX, XLSX, TXT

Cantidad de idiomas incluídos

122

24

46

Tamaño máximo de archivo

Ilimitado

5mb

15mb

Límite de subidas

Ilimitado

Ilimitado

15 archivos por hora

 Por los servicios y características que ofrece y tiene cada OCR, New OCR se destaca en todas las mencionadas. En cuanto a los dos que restan, Online OCR posee algunas cualidades mejores que OCR Space, pero ambos cumplen, aunque restringidas, con su funcionalidad final.

...

Descargar como (para miembros actualizados)  txt (5.9 Kb)   pdf (108.3 Kb)   docx (180.8 Kb)  
Leer 3 páginas más »
Disponible sólo en Clubensayos.com