ESTUDIO COMPARATIVO DE PROGRAMAS OCR - 2000

La Fundación de Ciegos Manuel Caragol, con el objetivo de encontrar la herramienta más eficiente que permita a una persona ciega o con baja visión leer documentación impresa en papel, ha iniciado un análisis de los programas reconocedores ópticos de caracteres (OCR) más populares del mercado, habiéndose publicado ya en nuestra página Web algunos resultados preliminares que se han ido obteniendo; ahora, en septiembre del año 2000, ya hemos completado este estudio comparativo, gracias a los servicios y la gran dedicación del voluntario José María Alonso al que debemos todo nuestro agradecimiento.
   La prueba ha comparado ocho versiones de cinco productos. Se han usado veinte documentos de características muy distintas con un nivel de dificultad alto. Se han valorado dos factores: la calidad en el reconocimiento propiamente dicho y la capacidad de estructurar correctamente la página escaneada para extraer y ordenar los textos que contiene.
   Todos los resultados están contenidos en una gran hoja de cálculo, convertida a formato HTML para facilitar su lectura, y que recoge los valores numéricos de las clasificaciones conseguidas por cada versión de un producto en cada uno de los documentos y factores (reconocimiento y estructura) analizados. Los resultados se han ponderado según un peso de dificultad asignado a cada documento; la suma de estos valores ha otorgado una calificación a cada versión. Tenemos confianza en que el sistema no ha dado resultados arbitrarios ya que se corresponden bien con lo que se ha ido observando a lo largo del estudio.

ÍNDICE DEL PRESENTE DOCUMENTO

1.- OBSERVACIONES PRELIMINARES

   El análisis de los valores detallados demuestra que los resultados no son siempre homogéneos. Con esto queremos decir que los mejores productos OCR no son siempre los mejores con cualquier documento. Hay bastantes sorpresas porque ocurre que un determinado documento resulta mejor convertido con un producto que suele fallar con los otros documentos y, en cambio, da muchos errores con otro OCR que destaca en los demás casos. Estas variaciones son especialmente significativas para el factor "estructuración del documento". Esto hace que no se deba descartar tener más de uno de estos productos para poder probar varias alternativas cuando cae en nuestras manos un papel especialmente difícil de leer. También pueden haber influido en estas aparentes anomalías factores externos difícilmente valorables, aspecto que se amplía más en el siguiente párrafo.
   Es interesante decir que en la prueba se quería valorar también el factor "tiempo de conversión del documento", pero que se ha tenido que prescindir del mismo por no tener resultados consistentes. Una razón de este problema es que dada la cantidad de pruebas realizadas se han empleado varios ordenadores de distinta potencia con diferentes escáneres, pero es que incluso se han observado diferencias importantes cuando se han realizado varias pruebas de la misma combinación de equipo, producto OCR y documento. Parece demostrado que la forma, más o menos hábil, como se coloca el documento en la superficie del escáner influye de forma importante en algunos resultados, siendo el factor "tiempo de conversión" el más afectado por este hecho. Como ya se indicó al inicio de este informe, tenemos bastante confianza en que los dos factores empleados (reconocimiento y estructura) han dado resultados consistentes en su conjunto, aunque algún documento haya introducido sesgo, pero se ha considerado que no se podía hacer uso de la información que se tenía sobre tiempos de conversión.

2.- DOCUMENTOS UTILIZADOS

   Figura seguidamente la lista detallada con los documentos que se han empleado para realizar las pruebas de OCR; algunos datos consignados se explican con más precisión en los apartados siguientes, aquí sólo se ofrece la información de referencia:

DOCUMENTO UNO:
Descripción: Receta médica
Dificultad según características: 7
Factor de ponderación a partir de la dificultad: 1,4
Características más relevantes:

   1) Tamaño de papel pequeño
   2) Color del texto naranja
   3) Tamaño de texto pequeño
   4) Dos columnas, una con los títulos y la otra con el texto correspondiente
   5) Fondo blanco
   6) Logotipo con texto en vertical y horizontal
   7) 404 palabras

DOCUMENTO DOS:
Descripción: Tiquet de compra
Dificultad según características: 1
Factor de ponderación a partir de la dificultad: 0,2
Características más relevantes:

   1) Papel tamaño tiquet (muy pequeño)
   2) Tamaño de texto medio
   3) Color del texto gris oscuro
   4) Fondo del papel blanco con texto en verde claro
   5) 25 palabras

DOCUMENTO TRES:
Descripción: Portada de un libro
Dificultad según características: 5
Factor de ponderación a partir de la dificultad: 1,0
Características más relevantes:

   1) Tamaño de texto medio
   2) Título grande
   3) Fondo negro
   4) Texto en blanco
   5) Tres columnas
   6) Tamaño de papel DIN A4
   7) 321 palabras

DOCUMENTO CUATRO:
Descripción: Texto científico
Dificultad según características: 4
Factor de ponderación a partir de la dificultad: 0,8
Características más relevantes:

   1) Texto con caracteres científicos
   2) Una sola columna
   3) Incluye a media página un texto recuadrado
   4) Tamaño de texto medio, color negro
   5) Fondo blanco
   6) 207 palabras

DOCUMENTO CINCO:
Descripción: Cómic
Dificultad según características: 7
Factor de ponderación a partir de la dificultad: 1,4
Características más relevantes:

   1) Letra grande
   2) Estructura muy compleja
   3) Papel DIN A4
   4) Fondo blanco
   5) Texto y dibujos en negro
   6) Texto recuadrado
   7) 125 palabras

DOCUMENTO SEIS:
Descripción: Artículo de revista
Dificultad según características: 3
Factor de ponderación a partir de la dificultad: 0,6
Características más relevantes:

   1) El título combina letra roja y negra
   2) Texto en negro, de tamaño medio
   3) Papel DIN A4
   4) Fondo de color papel de diario
   5) Incluye dibujo con leyenda en dos columnas y texto pequeño
   6) Dos columnas
   7) 919 palabras

DOCUMENTO SIETE:
Descripción: Editorial de diario
Dificultad según características: 3
Factor de ponderación a partir de la dificultad: 0,6
Características más relevantes:

   1) Papel de diario
   2) Dos columnas
   3) Tamaño de fuente según parte de texto grande, medio y pequeño
   4) Tamaño aproximado de página DIN A4
   5) Letra de color negro
   6) 749 palabras

DOCUMENTO OCHO:
Descripción: Tabla de una revista informática
Dificultad según características: 6
Factor de ponderación a partir de la dificultad: 1,2
Características más relevantes:

   1) Tabla de tres columnas y cinco filas
   2) Color de fondo según filas
   3) Varios tamaños de fuente
   4) Tres columnas independientes de la tabla en la parte inferior y sobre fondo blanco
   5) Color de texto mayoritariamente negro
   6) Tamaño de papel DIN A4
   7) 535 palabras

DOCUMENTO NUEVE:
Descripción: Artículos breves de una revista
Dificultad según características: 5
Factor de ponderación a partir de la dificultad: 1,0
Características más relevantes:

   1) Tamaño de papel DIN A4
   2) Cuatro columnas
   3) Estructura de columnas compleja
   4) Fondo blanco y gris seguún columnas
   5) Títulos en rojo
   6) Texto en negro, tamaño de letra medio
   7) 698 palabras

DOCUMENTO DIEZ:
Descripción: Anuncio de marca comercial
Dificultad según características: 6
Factor de ponderación a partir de la dificultad: 1,2
Características más relevantes:

   1) Tamaño de papel DIN A4
   2) Varias columnas con dibujos intercalados
   3) Tamaño de letra pequeño
   4) Letra en negro
   5) Fondo blanco
   6) 693 palabras

DOCUMENTO ONCE:
Descripción: Libro de lectura
Dificultad según características: 2
Factor de ponderación a partir de la dificultad: 0,4
Características más relevantes:

   1) Tamaño de papel DIN A4
   2) Tamaño de texto medio y fondo blanco
   3) Página no orientada correctamente
   4) Página doble sin dibujos
   5) Encabezamiento en las dos páginas
   6) Incluye algunas palabras en inglés
   7) 747 palabras

DOCUMENTO DOCE:
Descripción: Mailing
Dificultad según características: 3
Factor de ponderación a partir de la dificultad: 0,6
Características más relevantes:

   1) Fondo blanco
   2) Letra negra de tamaño grande
   3) Tamaño de papel DIN A4
   4) Texto mal estructurado
   5) Párrafos en mayúsculas y minúsculas
   6) 159 palabras

DOCUMENTO TRECE:
Descripción: Impreso oficial
Dificultad según características: 10
Factor de ponderación a partir de la dificultad: 2,0
Características más relevantes:

   1) Fondo verde claro
   2) Títulos en color blanco
   3) Títulos de campo en gris y fuente pequeña
   4) Espacio para escritura en blanco
   5) Dividido en secciones
   6) 167 palabras

DOCUMENTO CATORCE:
Descripción: Índice de un libro
Dificultad según características: 3
Factor de ponderación a partir de la dificultad: 0,6
Características más relevantes:

   1) Fondo blanco
   2) Tamaño del texto grande
   3) Títulos en blanco sobre fondos en distintos colores
   4) Dibujos junto a los títulos
   5) Página doble no orientada correctamente
   6) 305 palabras

DOCUMENTO QUINCE:
Descripción: Folleto informativo
Dificultad según características: 5
Factor de ponderación a partir de la dificultad: 1,0
Características más relevantes:

   1) Tamaño de papel pequeño
   2) Texto en distintos tamaños
   3) Letra negra y títulos en rojo
   4) Contiene un logotipo con texto
   5) Dos columnas
   6) La parte superior de la segunda columna contiene a su vez dos columnas
   7) 543 palabras

DOCUMENTO DIECISÉIS:
Descripción: Tabla índice de una agenda de direcciones
Dificultad según características: 9
Factor de ponderación a partir de la dificultad: 1,8
Características más relevantes:

   1) Tamaño de letra pequeño
   2) Color de letra gris
   3) Texto estructurado en forma de tabla
   4) Fondo blanco
   5) 533 palabras
   6) Cinco columnas
   7) Tamaño de papel pequeño

DOCUMENTO DIECISIETE:
Descripción: Tabla estadística
Dificultad según características: 7
Factor de ponderación a partir de la dificultad: 1,4
Características más relevantes:

   1) Contiene dos tablas recuadradas con tres columnas
   2) Tamaño del texto medio
   3) Fondo blanco
   4) Tamaño de papel DIN A4
   5) 103 palabras

DOCUMENTO DIECIOCHO:
Descripción: Folleto informativo de una oferta de viajes
Dificultad según características: 8
Factor de ponderación a partir de la dificultad: 1,6
Características más relevantes:

   1) Página en vertical
   2) Tres columnas
   3) Texto en varios tamaños y colores
   4) Fondo amarillento
   5) Dos dibujos
   6) Tamaño de papel DIN A4
   7) 1082 palabras

DOCUMENTO DIECINUEVE:
Descripción: Texto de Microsoft Word
Dificultad según características: 2
Factor de ponderación a partir de la dificultad: 0,4
Características más relevantes:

   1) Una única columna
   2) Tamaño de letra medio
   3) Contiene algunas palabras en inglés
   4) No hay dibujos
   5) Fondo blanco
   6) Tamaño de papel DIN A4
   7) 460 palabras

DOCUMENTO VEINTE:
Descripción: Página de revista informativa sobre productos tecnológicos
Dificultad según características: 4
Factor de ponderación a partir de la dificultad: 0,8
Características más relevantes:

   1) Tres columnas
   2) Tamaño de letra medio
   3) Dibujo al principio de la página
   4) Fondo blanco
   5) Tamaño de papel DIN A4
   6) 542 palabras

TOTALES Y SUMATORIOS:
Número de documentos: 20
Suma de las dificultades según características: 100
Suma de los factores de ponderación a partir de la dificultad: 20,0

3.- RESULTADOS DEL ESTUDIO

3.1.- METODOLOGÍA Y PROGRAMAS OCR

   Estos son los puntos de la metodología que se ha seguido para realizar el presente estudio:
   1) Para cada documento se indicarán ocho resultados distintos que corresponden a las pruebas realizadas con cada uno de los OCR's.
   2) Cada resultado consta, a su vez, de cuatro valores, que equivalen a los siguientes conceptos:
   2.1) Reconocimiento: capacidad de reconocimiento de palabras sin cometer errores de interpretación ni faltas ortográficas; se reparten de uno (mínimo) a ocho (máximo) puntos.
   2.2) Estructura: capacidad de reconocimiento de la estructura del texto y descolumnización correcta; se reparten igualmente de uno (mínimo) a ocho (máximo) puntos.
   2.3) Reconocimiento ponderado: puntuación del reconocimiento ponderada por la dificultad que entraña cada documento, valorada en el apartado de la descripció de éstos (anterior al actual).
   2.4) Estructura ponderada: puntuación de la estructura ponderada por la dificultad que entraña cada documento, referida como se ha dicho en el apartado anterior.
   3) Finalmente, se indica la suma de cada concepto para los ocho OCR's, que proporciona una valoración de los mismos en reconocimiento y estructura.
   La clave de identificación de los OCR's utilizados es la siguiente:

FR40 = Logotipo de FR40 Fine Reader 4.0
OB35 = Logotipo de OB35 Open Book 3.5
OP90 = Logotipo de OP90 OmniPage PRO 9.0
OP10 = Logotipo de OP10 OmniPage PRO 10.0
REC3 = Logotipo de REC3 Recognita 3.0
RUBY = Logotipo de RUBY Open Book 4.0 (edición Ruby)
TB98 = Logotipo de TB98 TextBridge PRO 98
TB90 = Logotipo de TB90 TextBridge PRO 9.0

3.2.- TABLAS CON LOS RESULTADOS

   He aquí, según el modelo descrito en el subapartado precedente, las tablas que contienen los resultados propiamente dichos del estudio OCR; como la representación de dichas tablas ha quedado bien reflejada en los datos que anteceden, no se adjunta descripción a las mismas para no dificultar su lectura con información redundante, aunque citamos seguidamente los nombres completos de sus columnas, los cuales se muestran abreviados si se utiliza un navegador visual, en previsión de que algunos lectores de pantalla no puedan acceder a su título interno: "Programa OCR" (título no abreviado), "Factor de reconocimiento" (abreviado como "FAC. REC."), "Factor de estructuración" (abreviado como "FAC. EST."), "Reconocimiento ponderado" (abreviado como "REC. PON.") y "Estructura ponderada" (abreviado como "EST. PON.").

DOCUMENTO UNO:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 1,5 11,2 2,1
OB35 1,0 1,5 1,4 2,1
OP90 3,5 4,5 4,9 6,3
OP10 3,5 4,5 4,9 6,3
REC3 2,0 7,0 2,8 9,8
RUBY 6,0 3,0 8,4 4,2
TB98 7,0 6,0 9,8 8,4
TB90 5,0 8,0 7,0 11,2
DOCUMENTO DOS:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 4,5 1,6 0,9
OB35 5,5 6,5 1,1 1,3
OP90 5,5 1,5 1,1 0,3
OP10 2,0 1,5 0,4 0,3
REC3 1,0 3,0 0,2 0,6
RUBY 7,0 8,0 1,4 1,6
TB98 3,5 4,5 0,7 0,9
TB90 3,5 6,5 0,7 1,3
DOCUMENTO TRES:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 7,5 7,5 7,5 7,5
OB35 5,0 5,5 5,0 5,5
OP90 1,5 1,5 1,5 1,5
OP10 1,5 1,5 1,5 1,5
REC3 6,0 5,5 6,0 5,5
RUBY 7,5 7,5 7,5 7,5
TB98 3,0 3,0 3,0 3,0
TB90 4,0 4,0 4,0 4,0
DOCUMENTO CUATRO:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 6,5 4,5 5,2 3,6
OB35 1,0 6,5 0,8 5,2
OP90 2,0 6,5 1,6 5,2
OP10 5,0 6,5 4,0 5,2
REC3 6,5 4,5 5,2 3,6
RUBY 3,0 6,5 2,4 5,2
TB98 4,0 1,5 3,2 1,2
TB90 8,0 1,5 6,4 1,2
DOCUMENTO CINCO:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 1,5 1,5 2,1 2,1
OB35 5,0 6,0 7,0 8,4
OP90 6,0 7,0 8,4 9,8
OP10 7,0 8,0 9,8 11,2
REC3 4,0 5,0 5,6 7,0
RUBY 1,5 1,5 2,1 2,1
TB98 3,0 3,0 4,2 4,2
TB90 8,0 4,0 11,2 5,6
DOCUMENTO SEIS:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 6,0 4,8 3,6
OB35 2,0 3,0 1,2 1,8
OP90 4,0 6,0 2,4 3,6
OP10 7,0 6,0 4,2 3,6
REC3 1,0 1,5 0,6 0,9
RUBY 3,0 6,0 1,8 3,6
TB98 5,5 6,0 3,3 3,6
TB90 5,5 1,5 3,3 0,9
DOCUMENTO SIETE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 4,0 4,8 2,4
OB35 2,0 5,0 1,2 3,0
OP90 3,0 6,5 1,8 3,9
OP10 6,0 6,5 3,6 3,9
REC3 1,0 1,0 0,6 0,6
RUBY 6,0 8,0 3,6 4,8
TB98 4,0 2,5 2,4 1,5
TB90 6,0 2,5 3,6 1,5
DOCUMENTO OCHO:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 4,0 7,0 4,8 8,4
OB35 1,0 4,0 1,2 4,8
OP90 8,0 8,0 9,6 9,6
OP10 3,5 5,0 4,2 6,0
REC3 3,5 1,0 4,2 1,2
RUBY 6,5 6,0 7,8 7,2
TB98 6,5 3,0 7,8 3,6
TB90 2,0 2,0 2,4 2,4
DOCUMENTO NUEVE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 5,5 2,5 5,5 2,5
OB35 1,0 5,5 1,0 5,5
OP90 5,5 5,5 5,5 5,5
OP10 8,0 2,5 8,0 2,5
REC3 3,0 8,0 3,0 8,0
RUBY 5,5 5,5 5,5 5,5
TB98 5,5 5,5 5,5 5,5
TB90 2,0 1,0 2,0 1,0
DOCUMENTO DIEZ:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 7,0 6,0 8,4 7,2
OB35 1,0 3,0 1,2 3,6
OP90 6,0 3,0 7,2 3,6
OP10 8,0 3,0 9,6 3,6
REC3 4,0 6,0 4,8 7,2
RUBY 5,0 6,0 6,0 7,2
TB98 2,0 1,0 2,4 1,2
TB90 3,0 8,0 3,6 9,6
DOCUMENTO ONCE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 5,0 3,2 2,0
OB35 2,0 5,0 0,8 2,0
OP90 5,0 5,0 2,0 2,0
OP10 7,0 5,0 2,8 2,0
REC3 1,0 1,5 0,4 0,6
RUBY 3,0 5,0 1,2 2,0
TB98 4,0 8,0 1,6 3,2
TB90 6,0 1,5 2,4 0,6
DOCUMENTO DOCE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 6,5 7,0 3,9 4,2
OB35 2,0 3,5 1,2 2,1
OP90 3,0 1,0 1,8 0,6
OP10 6,5 5,5 3,9 3,3
REC3 1,0 3,5 0,6 2,1
RUBY 4,5 5,5 2,7 3,3
TB98 4,5 8,0 2,7 4,8
TB90 8,0 2,0 4,8 1,2
DOCUMENTO TRECE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 3,0 2,0 6,0 4,0
OB35 2,0 7,5 4,0 15,0
OP90 5,5 5,0 11,0 10,0
OP10 5,5 3,5 11,0 7,0
REC3 1,0 1,0 2,0 2,0
RUBY 4,0 6,0 8,0 12,0
TB98 7,5 7,5 15,0 15,0
TB90 7,5 3,5 15,0 7,0
DOCUMENTO CATORCE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 7,5 6,0 4,5 3,6
OB35 1,0 4,0 0,6 2,4
OP90 2,0 3,0 1,2 1,8
OP10 3,0 2,0 1,8 1,2
REC3 4,0 8,0 2,4 4,8
RUBY 5,5 1,0 3,3 0,6
TB98 5,5 7,0 3,3 4,2
TB90 7,5 5,0 4,5 3,0
DOCUMENTO QUINCE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 2,5 3,0 2,5 3,0
OB35 1,0 4,5 1,0 4,5
OP90 5,0 7,5 5,0 7,5
OP10 5,0 6,0 5,0 6,0
REC3 5,0 7,8 5,0 7,8
RUBY 2,5 2,0 2,5 2,0
TB98 6,5 4,5 6,5 4,5
TB90 6,5 1,0 6,5 1,0
DOCUMENTO DIECISÉIS:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 7,0 7,0 12,6 12,6
OB35 3,0 5,0 5,4 9,0
OP90 1,5 1,5 2,7 2,7
OP10 1,5 1,5 2,7 2,7
REC3 5,0 8,0 9,0 14,4
RUBY 4,0 4,0 7,2 7,2
TB98 6,0 6,0 10,8 10,8
TB90 8,0 3,0 14,4 5,4
DOCUMENTO DIECISIETE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 7,5 8,0 10,5 11,2
OB35 4,0 4,0 5,6 5,6
OP90 5,5 4,0 7,7 5,6
OP10 7,5 4,0 10,5 5,6
REC3 1,0 1,0 1,4 1,4
RUBY 5,5 7,0 7,7 9,8
TB98 2,5 4,0 3,5 5,6
TB90 2,5 4,0 3,5 5,6
DOCUMENTO DIECIOCHO:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 3,0 12,8 4,8
OB35 1,0 3,0 1,6 4,8
OP90 4,0 6,5 6,4 10,4
OP10 5,0 1,0 8,0 1,6
REC3 2,5 3,0 4,0 4,8
RUBY 6,0 6,5 9,6 10,4
TB98 2,5 6,5 4,0 10,4
TB90 7,0 6,5 11,2 10,4
DOCUMENTO DIECINUEVE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 2,0 3,0 0,8 1,2
OB35 1,0 7,0 0,4 2,8
OP90 6,0 3,0 2,4 1,2
OP10 6,0 3,0 2,4 1,2
REC3 6,0 3,0 2,4 1,2
RUBY 3,0 3,0 1,2 1,2
TB98 6,0 7,0 2,4 2,8
TB90 6,0 7,0 2,4 2,8
DOCUMENTO VEINTE:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 8,0 4,0 6,4 3,2
OB35 2,0 1,0 1,6 0,8
OP90 3,0 4,0 2,4 3,2
OP10 4,0 4,0 3,2 3,2
REC3 1,0 4,0 0,8 3,2
RUBY 7,0 7,0 5,6 5,6
TB98 5,5 4,0 4,4 3,2
TB90 5,5 8,0 4,4 6,4
TOTALES O SUMATORIOS:
PROGRAMA OCR FAC. REC. FAC. EST. REC. PON. EST. PON.
FR40 124,0 93,0 119,1 90,1
OB35 43,5 91,0 43,3 90,2
OP90 85,5 90,5 86,6 94,3
OP10 102,5 80,5 101,5 77,9
REC3 59,5 83,3 61,0 86,7
RUBY 96,0 105,0 95,5 103,0
TB98 94,5 98,5 96,5 97,6
TB90 111,5 80,5 113,3 82,1

4.- CLASIFICACIÓN Y COMENTARIOS

   Un primer resumen provisional de estos resultados es el siguiente:
   1) El ganador destacado es el Fine Reader Professional, versión 4.0, de la empresa rusa ABBYY. Ha sido el mejor en reconocimiento de caracteres y ha ocupado una buena posición en la estructuración del documento; como soporta gran cantidad de idiomas, incluido el catalán y el euskera, es muy aconsejable para el escaneo de libros y documentos de estructura simple; su precio es muy aceptable (100 dólares USA). Su mayor inconveniente es que no está adaptado para ciegos o baja visión ni se ha probado con las adaptaciones más habituales, como JAWS; tendremos que trabajar más con él para poder sacarle todas sus muchas posibilidades.
   2) A continuación vienen tres productos que han sacado puntuaciones muy semejantes, por lo que su eficacia relativa depende mucho del documento que se quiere leer; por ello se agrupan en un sólo apartado aunque se dan en el orden alcanzado:
   2.1) La versión 4 del Open Book de la empresa americana Freedom Scientific (que ha comprado a la antigua Arkenstone), denominado Ruby, ha quedado segunda en la puntuación; tiene la gran ventaja de estar perfectamente adaptado para personas ciegas y también para baja visión, por lo que no necesita ser usado con ninguna otra adaptación; ha sacado la máxima puntuación en su capacidad de estructurar automáticamente el documento, por lo que está especialmente indicado para usarlo con cualquier tipo de papel (cartas, periódicos y revistas, libros, etc.); su facilidad de uso con teclas rápidas es también muy destacable. Su mayor inconveniente es su elevado precio, que incluso en la versión castellana distribuida por la Organización Nacional de Ciegos de España (ONCE) supera las 120.000 pesetas españolas (unos 720 euros); su precio en USA es todavía muy superior, unos 1.000 dólares. Una observación interesante es que la anterior versión de Open Book, la versión 3.5, ha sacado una puntuación muy inferior y no está adaptada para baja visión; la siguiente versión, la 5.0, está ya anunciada y parece que incluye soporte del catalán; por todo ello es aconsejable la actualización para los que tienen versiones antiguas.
   2.2) El TextBridge de la empresa americana Xerox ha quedado en la posición central; está muy bien integrado con los procesadores de textos más habituales y existen scripts para usarlo con JAWS con buenos resultados; su precio es más que aceptable cuando puede adquirirse como una actualización de cualquier otro producto de OCR; incluso sale más económico en este caso comprar el TextBridge y el JAWS que comprar el Ruby. Se han probado dos versiones de TextBridge, las denominadas 98 y 9.0, sin encontrar diferencias importantes, aunque la versión 9.0 ha salido la segunda en la clasificación global por reconocimiento de caracteres; la actualización no parece en este caso muy necesaria.
   2.3) El popular OmniPage de la empresa Caere es el siguiente clasificado a poca distancia de los dos anteriores; su fama de ser el mejor OCR del mercado no ha sido confirmada; la ventaja de su gran difusión es que existen scripts para usarlo con JAWS y tiene un precio asequible. Se han probado dos versiones, 9.0 y 10.0; según la propaganda la segunda ya incorporaba la tecnología OCR de las empresas Calera y Recognita que han sido adquiridas recientemente por Caere; se han visto mejoras en el factor "reconocimiento de caracteres", pero parece que incluso se ha perdido capacidad de estructurar el documento, por lo que su actualización es aconsejable sólo si el trabajo que se realiza es principalmente con documentos sencillos, como por ejemplo libros.
   3) El Recognita 3.0 de la empresa húngara del mismo nombre ha quedado en la cola de la clasificación; como ya se ha dicho Recognita ha sido comprada por Caere por lo que posiblemente no anuncie nuevas versiones; debe considerarse un producto obsoleto, aunque tiene la ventaja de estar especialmente adaptado para personas ciegas, no requiriendo usar ninguna otra adaptación, a un precio algo inferior al de sus competidores en este campo Kurzweil y Open Book (unas 70.000 pesetas españolas, que equivalen a 420 euros).

5.- CONCLUSIONES FINALES

   Algunas conclusiones que se deducen de este estudio son las siguientes:
   - Se ha descubierto un producto OCR poco conocido que es potente y económico: el Fine Reader de ABBYY. Es conveniente estudiar como usarlo con las adaptaciones más habituales.
   - Las personas que ya usan con eficacia una adaptación que les permite acceder a un producto OCR de uso general tienen una gran ventaja económica sobre las que necesitan usar un producto OCR específico para discapacitados. Aunque los productos específicos proporcionan un uso más sencillo y cómodo no consiguen resultados claramente mejores que los productos generales, a pesar de su precio mucho más elevado.
   - Puede estar justificado tener más de un producto OCR, ya que documentos no accesibles con uno de ellos pueden ser legibles por el otro y viceversa.




[ SUBIR UN NIVEL ] [ VOLVER A LA PÁGINA PRINCIPAL ]