ESTUDIO COMPARATIVO DE PROGRAMAS OCR - 2000
La Fundación de Ciegos Manuel Caragol, con el objetivo de encontrar la herramienta más eficiente que permita a una persona ciega o con baja visión leer documentación impresa en papel, ha iniciado un análisis de los programas reconocedores ópticos de caracteres (OCR) más populares del mercado, habiéndose publicado ya en nuestra página Web algunos resultados preliminares que se han ido obteniendo; ahora, en septiembre del año 2000, ya hemos completado este estudio comparativo, gracias a los servicios y la gran dedicación del voluntario José María Alonso al que debemos todo nuestro agradecimiento.
La prueba ha comparado ocho versiones de cinco productos. Se han usado veinte documentos de características muy distintas con un nivel de dificultad alto. Se han valorado dos factores: la calidad en el reconocimiento propiamente dicho y la capacidad de estructurar correctamente la página escaneada para extraer y ordenar los textos que contiene.
Todos los resultados están contenidos en una gran hoja de cálculo, convertida a formato HTML para facilitar su lectura, y que recoge los valores numéricos de las clasificaciones conseguidas por cada versión de un producto en cada uno de los documentos y factores (reconocimiento y estructura) analizados. Los resultados se han ponderado según un peso de dificultad asignado a cada documento; la suma de estos valores ha otorgado una calificación a cada versión. Tenemos confianza en que el sistema no ha dado resultados arbitrarios ya que se corresponden bien con lo que se ha ido observando a lo largo del estudio.
ÍNDICE DEL PRESENTE DOCUMENTO
El análisis de los valores detallados demuestra que los resultados no son siempre homogéneos. Con esto queremos decir que los mejores productos OCR no son siempre los mejores con cualquier documento. Hay bastantes sorpresas porque ocurre que un determinado documento resulta mejor convertido con un producto que suele fallar con los otros documentos y, en cambio, da muchos errores con otro OCR que destaca en los demás casos. Estas variaciones son especialmente significativas para el factor "estructuración del documento". Esto hace que no se deba descartar tener más de uno de estos productos para poder probar varias alternativas cuando cae en nuestras manos un papel especialmente difícil de leer. También pueden haber influido en estas aparentes anomalías factores externos difícilmente valorables, aspecto que se amplía más en el siguiente párrafo.
Es interesante decir que en la prueba se quería valorar también el factor "tiempo de conversión del documento", pero que se ha tenido que prescindir del mismo por no tener resultados consistentes. Una razón de este problema es que dada la cantidad de pruebas realizadas se han empleado varios ordenadores de distinta potencia con diferentes escáneres, pero es que incluso se han observado diferencias importantes cuando se han realizado varias pruebas de la misma combinación de equipo, producto OCR y documento. Parece demostrado que la forma, más o menos hábil, como se coloca el documento en la superficie del escáner influye de forma importante en algunos resultados, siendo el factor "tiempo de conversión" el más afectado por este hecho. Como ya se indicó al inicio de este informe, tenemos bastante confianza en que los dos factores empleados (reconocimiento y estructura) han dado resultados consistentes en su conjunto, aunque algún documento haya introducido sesgo, pero se ha considerado que no se podía hacer uso de la información que se tenía sobre tiempos de conversión.
Figura seguidamente la lista detallada con los documentos que se han empleado para realizar las pruebas de OCR; algunos datos consignados se explican con más precisión en los apartados siguientes, aquí sólo se ofrece la información de referencia:
| DOCUMENTO UNO: |
| Descripción: |
Receta médica |
| Dificultad según características: |
7 |
| Factor de ponderación a partir de la dificultad: |
1,4 |
| Características más relevantes:
1) Tamaño de papel pequeño
2) Color del texto naranja
3) Tamaño de texto pequeño
4) Dos columnas, una con los títulos y la otra con el texto correspondiente
5) Fondo blanco
6) Logotipo con texto en vertical y horizontal
7) 404 palabras
|
| DOCUMENTO DOS: |
| Descripción: |
Tiquet de compra |
| Dificultad según características: |
1 |
| Factor de ponderación a partir de la dificultad: |
0,2 |
| Características más relevantes:
1) Papel tamaño tiquet (muy pequeño)
2) Tamaño de texto medio
3) Color del texto gris oscuro
4) Fondo del papel blanco con texto en verde claro
5) 25 palabras
|
| DOCUMENTO TRES: |
| Descripción: |
Portada de un libro |
| Dificultad según características: |
5 |
| Factor de ponderación a partir de la dificultad: |
1,0 |
| Características más relevantes:
1) Tamaño de texto medio
2) Título grande
3) Fondo negro
4) Texto en blanco
5) Tres columnas
6) Tamaño de papel DIN A4
7) 321 palabras
|
| DOCUMENTO CUATRO: |
| Descripción: |
Texto científico |
| Dificultad según características: |
4 |
| Factor de ponderación a partir de la dificultad: |
0,8 |
| Características más relevantes:
1) Texto con caracteres científicos
2) Una sola columna
3) Incluye a media página un texto recuadrado
4) Tamaño de texto medio, color negro
5) Fondo blanco
6) 207 palabras
|
| DOCUMENTO CINCO: |
| Descripción: |
Cómic |
| Dificultad según características: |
7 |
| Factor de ponderación a partir de la dificultad: |
1,4 |
| Características más relevantes:
1) Letra grande
2) Estructura muy compleja
3) Papel DIN A4
4) Fondo blanco
5) Texto y dibujos en negro
6) Texto recuadrado
7) 125 palabras
|
| DOCUMENTO SEIS: |
| Descripción: |
Artículo de revista |
| Dificultad según características: |
3 |
| Factor de ponderación a partir de la dificultad: |
0,6 |
| Características más relevantes:
1) El título combina letra roja y negra
2) Texto en negro, de tamaño medio
3) Papel DIN A4
4) Fondo de color papel de diario
5) Incluye dibujo con leyenda en dos columnas y texto pequeño
6) Dos columnas
7) 919 palabras
|
| DOCUMENTO SIETE: |
| Descripción: |
Editorial de diario |
| Dificultad según características: |
3 |
| Factor de ponderación a partir de la dificultad: |
0,6 |
| Características más relevantes:
1) Papel de diario
2) Dos columnas
3) Tamaño de fuente según parte de texto grande, medio y pequeño
4) Tamaño aproximado de página DIN A4
5) Letra de color negro
6) 749 palabras
|
| DOCUMENTO OCHO: |
| Descripción: |
Tabla de una revista informática |
| Dificultad según características: |
6 |
| Factor de ponderación a partir de la dificultad: |
1,2 |
| Características más relevantes:
1) Tabla de tres columnas y cinco filas
2) Color de fondo según filas
3) Varios tamaños de fuente
4) Tres columnas independientes de la tabla en la parte inferior y sobre fondo blanco
5) Color de texto mayoritariamente negro
6) Tamaño de papel DIN A4
7) 535 palabras
|
| DOCUMENTO NUEVE: |
| Descripción: |
Artículos breves de una revista |
| Dificultad según características: |
5 |
| Factor de ponderación a partir de la dificultad: |
1,0 |
| Características más relevantes:
1) Tamaño de papel DIN A4
2) Cuatro columnas
3) Estructura de columnas compleja
4) Fondo blanco y gris seguún columnas
5) Títulos en rojo
6) Texto en negro, tamaño de letra medio
7) 698 palabras
|
| DOCUMENTO DIEZ: |
| Descripción: |
Anuncio de marca comercial |
| Dificultad según características: |
6 |
| Factor de ponderación a partir de la dificultad: |
1,2 |
| Características más relevantes:
1) Tamaño de papel DIN A4
2) Varias columnas con dibujos intercalados
3) Tamaño de letra pequeño
4) Letra en negro
5) Fondo blanco
6) 693 palabras
|
| DOCUMENTO ONCE: |
| Descripción: |
Libro de lectura |
| Dificultad según características: |
2 |
| Factor de ponderación a partir de la dificultad: |
0,4 |
| Características más relevantes:
1) Tamaño de papel DIN A4
2) Tamaño de texto medio y fondo blanco
3) Página no orientada correctamente
4) Página doble sin dibujos
5) Encabezamiento en las dos páginas
6) Incluye algunas palabras en inglés
7) 747 palabras
|
| DOCUMENTO DOCE: |
| Descripción: |
Mailing |
| Dificultad según características: |
3 |
| Factor de ponderación a partir de la dificultad: |
0,6 |
| Características más relevantes:
1) Fondo blanco
2) Letra negra de tamaño grande
3) Tamaño de papel DIN A4
4) Texto mal estructurado
5) Párrafos en mayúsculas y minúsculas
6) 159 palabras
|
| DOCUMENTO TRECE: |
| Descripción: |
Impreso oficial |
| Dificultad según características: |
10 |
| Factor de ponderación a partir de la dificultad: |
2,0 |
| Características más relevantes:
1) Fondo verde claro
2) Títulos en color blanco
3) Títulos de campo en gris y fuente pequeña
4) Espacio para escritura en blanco
5) Dividido en secciones
6) 167 palabras
|
| DOCUMENTO CATORCE: |
| Descripción: |
Índice de un libro |
| Dificultad según características: |
3 |
| Factor de ponderación a partir de la dificultad: |
0,6 |
| Características más relevantes:
1) Fondo blanco
2) Tamaño del texto grande
3) Títulos en blanco sobre fondos en distintos colores
4) Dibujos junto a los títulos
5) Página doble no orientada correctamente
6) 305 palabras
|
| DOCUMENTO QUINCE: |
| Descripción: |
Folleto informativo |
| Dificultad según características: |
5 |
| Factor de ponderación a partir de la dificultad: |
1,0 |
| Características más relevantes:
1) Tamaño de papel pequeño
2) Texto en distintos tamaños
3) Letra negra y títulos en rojo
4) Contiene un logotipo con texto
5) Dos columnas
6) La parte superior de la segunda columna contiene a su vez dos columnas
7) 543 palabras
|
| DOCUMENTO DIECISÉIS: |
| Descripción: |
Tabla índice de una agenda de direcciones |
| Dificultad según características: |
9 |
| Factor de ponderación a partir de la dificultad: |
1,8 |
| Características más relevantes:
1) Tamaño de letra pequeño
2) Color de letra gris
3) Texto estructurado en forma de tabla
4) Fondo blanco
5) 533 palabras
6) Cinco columnas
7) Tamaño de papel pequeño
|
| DOCUMENTO DIECISIETE: |
| Descripción: |
Tabla estadística |
| Dificultad según características: |
7 |
| Factor de ponderación a partir de la dificultad: |
1,4 |
| Características más relevantes:
1) Contiene dos tablas recuadradas con tres columnas
2) Tamaño del texto medio
3) Fondo blanco
4) Tamaño de papel DIN A4
5) 103 palabras
|
| DOCUMENTO DIECIOCHO: |
| Descripción: |
Folleto informativo de una oferta de viajes |
| Dificultad según características: |
8 |
| Factor de ponderación a partir de la dificultad: |
1,6 |
| Características más relevantes:
1) Página en vertical
2) Tres columnas
3) Texto en varios tamaños y colores
4) Fondo amarillento
5) Dos dibujos
6) Tamaño de papel DIN A4
7) 1082 palabras
|
| DOCUMENTO DIECINUEVE: |
| Descripción: |
Texto de Microsoft Word |
| Dificultad según características: |
2 |
| Factor de ponderación a partir de la dificultad: |
0,4 |
| Características más relevantes:
1) Una única columna
2) Tamaño de letra medio
3) Contiene algunas palabras en inglés
4) No hay dibujos
5) Fondo blanco
6) Tamaño de papel DIN A4
7) 460 palabras
|
| DOCUMENTO VEINTE: |
| Descripción: |
Página de revista informativa sobre productos tecnológicos |
| Dificultad según características: |
4 |
| Factor de ponderación a partir de la dificultad: |
0,8 |
| Características más relevantes:
1) Tres columnas
2) Tamaño de letra medio
3) Dibujo al principio de la página
4) Fondo blanco
5) Tamaño de papel DIN A4
6) 542 palabras
|
| TOTALES Y SUMATORIOS: |
| Número de documentos: |
20 |
| Suma de las dificultades según características: |
100 |
| Suma de los factores de ponderación a partir de la dificultad: |
20,0 |
He aquí, según el modelo descrito en el subapartado precedente, las tablas que contienen los resultados propiamente dichos del estudio OCR; como la representación de dichas tablas ha quedado bien reflejada en los datos que anteceden, no se adjunta descripción a las mismas para no dificultar su lectura con información redundante, aunque citamos seguidamente los nombres completos de sus columnas, los cuales se muestran abreviados si se utiliza un navegador visual, en previsión de que algunos lectores de pantalla no puedan acceder a su título interno: "Programa OCR" (título no abreviado), "Factor de reconocimiento" (abreviado como "FAC. REC."), "Factor de estructuración" (abreviado como "FAC. EST."), "Reconocimiento ponderado" (abreviado como "REC. PON.") y "Estructura ponderada" (abreviado como "EST. PON.").
| DOCUMENTO UNO: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
1,5 |
11,2 |
2,1 |
OB35 |
1,0 |
1,5 |
1,4 |
2,1 |
OP90 |
3,5 |
4,5 |
4,9 |
6,3 |
OP10 |
3,5 |
4,5 |
4,9 |
6,3 |
REC3 |
2,0 |
7,0 |
2,8 |
9,8 |
RUBY |
6,0 |
3,0 |
8,4 |
4,2 |
TB98 |
7,0 |
6,0 |
9,8 |
8,4 |
TB90 |
5,0 |
8,0 |
7,0 |
11,2 |
| DOCUMENTO DOS: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
4,5 |
1,6 |
0,9 |
OB35 |
5,5 |
6,5 |
1,1 |
1,3 |
OP90 |
5,5 |
1,5 |
1,1 |
0,3 |
OP10 |
2,0 |
1,5 |
0,4 |
0,3 |
REC3 |
1,0 |
3,0 |
0,2 |
0,6 |
RUBY |
7,0 |
8,0 |
1,4 |
1,6 |
TB98 |
3,5 |
4,5 |
0,7 |
0,9 |
TB90 |
3,5 |
6,5 |
0,7 |
1,3 |
| DOCUMENTO TRES: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
7,5 |
7,5 |
7,5 |
7,5 |
OB35 |
5,0 |
5,5 |
5,0 |
5,5 |
OP90 |
1,5 |
1,5 |
1,5 |
1,5 |
OP10 |
1,5 |
1,5 |
1,5 |
1,5 |
REC3 |
6,0 |
5,5 |
6,0 |
5,5 |
RUBY |
7,5 |
7,5 |
7,5 |
7,5 |
TB98 |
3,0 |
3,0 |
3,0 |
3,0 |
TB90 |
4,0 |
4,0 |
4,0 |
4,0 |
| DOCUMENTO CUATRO: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
6,5 |
4,5 |
5,2 |
3,6 |
OB35 |
1,0 |
6,5 |
0,8 |
5,2 |
OP90 |
2,0 |
6,5 |
1,6 |
5,2 |
OP10 |
5,0 |
6,5 |
4,0 |
5,2 |
REC3 |
6,5 |
4,5 |
5,2 |
3,6 |
RUBY |
3,0 |
6,5 |
2,4 |
5,2 |
TB98 |
4,0 |
1,5 |
3,2 |
1,2 |
TB90 |
8,0 |
1,5 |
6,4 |
1,2 |
| DOCUMENTO CINCO: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
1,5 |
1,5 |
2,1 |
2,1 |
OB35 |
5,0 |
6,0 |
7,0 |
8,4 |
OP90 |
6,0 |
7,0 |
8,4 |
9,8 |
OP10 |
7,0 |
8,0 |
9,8 |
11,2 |
REC3 |
4,0 |
5,0 |
5,6 |
7,0 |
RUBY |
1,5 |
1,5 |
2,1 |
2,1 |
TB98 |
3,0 |
3,0 |
4,2 |
4,2 |
TB90 |
8,0 |
4,0 |
11,2 |
5,6 |
| DOCUMENTO SEIS: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
6,0 |
4,8 |
3,6 |
OB35 |
2,0 |
3,0 |
1,2 |
1,8 |
OP90 |
4,0 |
6,0 |
2,4 |
3,6 |
OP10 |
7,0 |
6,0 |
4,2 |
3,6 |
REC3 |
1,0 |
1,5 |
0,6 |
0,9 |
RUBY |
3,0 |
6,0 |
1,8 |
3,6 |
TB98 |
5,5 |
6,0 |
3,3 |
3,6 |
TB90 |
5,5 |
1,5 |
3,3 |
0,9 |
| DOCUMENTO SIETE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
4,0 |
4,8 |
2,4 |
OB35 |
2,0 |
5,0 |
1,2 |
3,0 |
OP90 |
3,0 |
6,5 |
1,8 |
3,9 |
OP10 |
6,0 |
6,5 |
3,6 |
3,9 |
REC3 |
1,0 |
1,0 |
0,6 |
0,6 |
RUBY |
6,0 |
8,0 |
3,6 |
4,8 |
TB98 |
4,0 |
2,5 |
2,4 |
1,5 |
TB90 |
6,0 |
2,5 |
3,6 |
1,5 |
| DOCUMENTO OCHO: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
4,0 |
7,0 |
4,8 |
8,4 |
OB35 |
1,0 |
4,0 |
1,2 |
4,8 |
OP90 |
8,0 |
8,0 |
9,6 |
9,6 |
OP10 |
3,5 |
5,0 |
4,2 |
6,0 |
REC3 |
3,5 |
1,0 |
4,2 |
1,2 |
RUBY |
6,5 |
6,0 |
7,8 |
7,2 |
TB98 |
6,5 |
3,0 |
7,8 |
3,6 |
TB90 |
2,0 |
2,0 |
2,4 |
2,4 |
| DOCUMENTO NUEVE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
5,5 |
2,5 |
5,5 |
2,5 |
OB35 |
1,0 |
5,5 |
1,0 |
5,5 |
OP90 |
5,5 |
5,5 |
5,5 |
5,5 |
OP10 |
8,0 |
2,5 |
8,0 |
2,5 |
REC3 |
3,0 |
8,0 |
3,0 |
8,0 |
RUBY |
5,5 |
5,5 |
5,5 |
5,5 |
TB98 |
5,5 |
5,5 |
5,5 |
5,5 |
TB90 |
2,0 |
1,0 |
2,0 |
1,0 |
| DOCUMENTO DIEZ: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
7,0 |
6,0 |
8,4 |
7,2 |
OB35 |
1,0 |
3,0 |
1,2 |
3,6 |
OP90 |
6,0 |
3,0 |
7,2 |
3,6 |
OP10 |
8,0 |
3,0 |
9,6 |
3,6 |
REC3 |
4,0 |
6,0 |
4,8 |
7,2 |
RUBY |
5,0 |
6,0 |
6,0 |
7,2 |
TB98 |
2,0 |
1,0 |
2,4 |
1,2 |
TB90 |
3,0 |
8,0 |
3,6 |
9,6 |
| DOCUMENTO ONCE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
5,0 |
3,2 |
2,0 |
OB35 |
2,0 |
5,0 |
0,8 |
2,0 |
OP90 |
5,0 |
5,0 |
2,0 |
2,0 |
OP10 |
7,0 |
5,0 |
2,8 |
2,0 |
REC3 |
1,0 |
1,5 |
0,4 |
0,6 |
RUBY |
3,0 |
5,0 |
1,2 |
2,0 |
TB98 |
4,0 |
8,0 |
1,6 |
3,2 |
TB90 |
6,0 |
1,5 |
2,4 |
0,6 |
| DOCUMENTO DOCE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
6,5 |
7,0 |
3,9 |
4,2 |
OB35 |
2,0 |
3,5 |
1,2 |
2,1 |
OP90 |
3,0 |
1,0 |
1,8 |
0,6 |
OP10 |
6,5 |
5,5 |
3,9 |
3,3 |
REC3 |
1,0 |
3,5 |
0,6 |
2,1 |
RUBY |
4,5 |
5,5 |
2,7 |
3,3 |
TB98 |
4,5 |
8,0 |
2,7 |
4,8 |
TB90 |
8,0 |
2,0 |
4,8 |
1,2 |
| DOCUMENTO TRECE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
3,0 |
2,0 |
6,0 |
4,0 |
OB35 |
2,0 |
7,5 |
4,0 |
15,0 |
OP90 |
5,5 |
5,0 |
11,0 |
10,0 |
OP10 |
5,5 |
3,5 |
11,0 |
7,0 |
REC3 |
1,0 |
1,0 |
2,0 |
2,0 |
RUBY |
4,0 |
6,0 |
8,0 |
12,0 |
TB98 |
7,5 |
7,5 |
15,0 |
15,0 |
TB90 |
7,5 |
3,5 |
15,0 |
7,0 |
| DOCUMENTO CATORCE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
7,5 |
6,0 |
4,5 |
3,6 |
OB35 |
1,0 |
4,0 |
0,6 |
2,4 |
OP90 |
2,0 |
3,0 |
1,2 |
1,8 |
OP10 |
3,0 |
2,0 |
1,8 |
1,2 |
REC3 |
4,0 |
8,0 |
2,4 |
4,8 |
RUBY |
5,5 |
1,0 |
3,3 |
0,6 |
TB98 |
5,5 |
7,0 |
3,3 |
4,2 |
TB90 |
7,5 |
5,0 |
4,5 |
3,0 |
| DOCUMENTO QUINCE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
2,5 |
3,0 |
2,5 |
3,0 |
OB35 |
1,0 |
4,5 |
1,0 |
4,5 |
OP90 |
5,0 |
7,5 |
5,0 |
7,5 |
OP10 |
5,0 |
6,0 |
5,0 |
6,0 |
REC3 |
5,0 |
7,8 |
5,0 |
7,8 |
RUBY |
2,5 |
2,0 |
2,5 |
2,0 |
TB98 |
6,5 |
4,5 |
6,5 |
4,5 |
TB90 |
6,5 |
1,0 |
6,5 |
1,0 |
| DOCUMENTO DIECISÉIS: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
7,0 |
7,0 |
12,6 |
12,6 |
OB35 |
3,0 |
5,0 |
5,4 |
9,0 |
OP90 |
1,5 |
1,5 |
2,7 |
2,7 |
OP10 |
1,5 |
1,5 |
2,7 |
2,7 |
REC3 |
5,0 |
8,0 |
9,0 |
14,4 |
RUBY |
4,0 |
4,0 |
7,2 |
7,2 |
TB98 |
6,0 |
6,0 |
10,8 |
10,8 |
TB90 |
8,0 |
3,0 |
14,4 |
5,4 |
| DOCUMENTO DIECISIETE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
7,5 |
8,0 |
10,5 |
11,2 |
OB35 |
4,0 |
4,0 |
5,6 |
5,6 |
OP90 |
5,5 |
4,0 |
7,7 |
5,6 |
OP10 |
7,5 |
4,0 |
10,5 |
5,6 |
REC3 |
1,0 |
1,0 |
1,4 |
1,4 |
RUBY |
5,5 |
7,0 |
7,7 |
9,8 |
TB98 |
2,5 |
4,0 |
3,5 |
5,6 |
TB90 |
2,5 |
4,0 |
3,5 |
5,6 |
| DOCUMENTO DIECIOCHO: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
3,0 |
12,8 |
4,8 |
OB35 |
1,0 |
3,0 |
1,6 |
4,8 |
OP90 |
4,0 |
6,5 |
6,4 |
10,4 |
OP10 |
5,0 |
1,0 |
8,0 |
1,6 |
REC3 |
2,5 |
3,0 |
4,0 |
4,8 |
RUBY |
6,0 |
6,5 |
9,6 |
10,4 |
TB98 |
2,5 |
6,5 |
4,0 |
10,4 |
TB90 |
7,0 |
6,5 |
11,2 |
10,4 |
| DOCUMENTO DIECINUEVE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
2,0 |
3,0 |
0,8 |
1,2 |
OB35 |
1,0 |
7,0 |
0,4 |
2,8 |
OP90 |
6,0 |
3,0 |
2,4 |
1,2 |
OP10 |
6,0 |
3,0 |
2,4 |
1,2 |
REC3 |
6,0 |
3,0 |
2,4 |
1,2 |
RUBY |
3,0 |
3,0 |
1,2 |
1,2 |
TB98 |
6,0 |
7,0 |
2,4 |
2,8 |
TB90 |
6,0 |
7,0 |
2,4 |
2,8 |
| DOCUMENTO VEINTE: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
8,0 |
4,0 |
6,4 |
3,2 |
OB35 |
2,0 |
1,0 |
1,6 |
0,8 |
OP90 |
3,0 |
4,0 |
2,4 |
3,2 |
OP10 |
4,0 |
4,0 |
3,2 |
3,2 |
REC3 |
1,0 |
4,0 |
0,8 |
3,2 |
RUBY |
7,0 |
7,0 |
5,6 |
5,6 |
TB98 |
5,5 |
4,0 |
4,4 |
3,2 |
TB90 |
5,5 |
8,0 |
4,4 |
6,4 |
| TOTALES O SUMATORIOS: |
| PROGRAMA OCR |
FAC. REC. |
FAC. EST. |
REC. PON. |
EST. PON. |
FR40 |
124,0 |
93,0 |
119,1 |
90,1 |
OB35 |
43,5 |
91,0 |
43,3 |
90,2 |
OP90 |
85,5 |
90,5 |
86,6 |
94,3 |
OP10 |
102,5 |
80,5 |
101,5 |
77,9 |
REC3 |
59,5 |
83,3 |
61,0 |
86,7 |
RUBY |
96,0 |
105,0 |
95,5 |
103,0 |
TB98 |
94,5 |
98,5 |
96,5 |
97,6 |
TB90 |
111,5 |
80,5 |
113,3 |
82,1 |
Un primer resumen provisional de estos resultados es el siguiente:
1) El ganador destacado es el Fine Reader Professional, versión 4.0, de la empresa rusa ABBYY. Ha sido el mejor en reconocimiento de caracteres y ha ocupado una buena posición en la estructuración del documento; como soporta gran cantidad de idiomas, incluido el catalán y el euskera, es muy aconsejable para el escaneo de libros y documentos de estructura simple; su precio es muy aceptable (100 dólares USA). Su mayor inconveniente es que no está adaptado para ciegos o baja visión ni se ha probado con las adaptaciones más habituales, como JAWS; tendremos que trabajar más con él para poder sacarle todas sus muchas posibilidades.
2) A continuación vienen tres productos que han sacado puntuaciones muy semejantes, por lo que su eficacia relativa depende mucho del documento que se quiere leer; por ello se agrupan en un sólo apartado aunque se dan en el orden alcanzado:
2.1) La versión 4 del Open Book de la empresa americana Freedom Scientific (que ha comprado a la antigua Arkenstone), denominado Ruby, ha quedado segunda en la puntuación; tiene la gran ventaja de estar perfectamente adaptado para personas ciegas y también para baja visión, por lo que no necesita ser usado con ninguna otra adaptación; ha sacado la máxima puntuación en su capacidad de estructurar automáticamente el documento, por lo que está especialmente indicado para usarlo con cualquier tipo de papel (cartas, periódicos y revistas, libros, etc.); su facilidad de uso con teclas rápidas es también muy destacable. Su mayor inconveniente es su elevado precio, que incluso en la versión castellana distribuida por la Organización Nacional de Ciegos de España (ONCE) supera las 120.000 pesetas españolas (unos 720 euros); su precio en USA es todavía muy superior, unos 1.000 dólares. Una observación interesante es que la anterior versión de Open Book, la versión 3.5, ha sacado una puntuación muy inferior y no está adaptada para baja visión; la siguiente versión, la 5.0, está ya anunciada y parece que incluye soporte del catalán; por todo ello es aconsejable la actualización para los que tienen versiones antiguas.
2.2) El TextBridge de la empresa americana Xerox ha quedado en la posición central; está muy bien integrado con los procesadores de textos más habituales y existen scripts para usarlo con JAWS con buenos resultados; su precio es más que aceptable cuando puede adquirirse como una actualización de cualquier otro producto de OCR; incluso sale más económico en este caso comprar el TextBridge y el JAWS que comprar el Ruby. Se han probado dos versiones de TextBridge, las denominadas 98 y 9.0, sin encontrar diferencias importantes, aunque la versión 9.0 ha salido la segunda en la clasificación global por reconocimiento de caracteres; la actualización no parece en este caso muy necesaria.
2.3) El popular OmniPage de la empresa Caere es el siguiente clasificado a poca distancia de los dos anteriores; su fama de ser el mejor OCR del mercado no ha sido confirmada; la ventaja de su gran difusión es que existen scripts para usarlo con JAWS y tiene un precio asequible. Se han probado dos versiones, 9.0 y 10.0; según la propaganda la segunda ya incorporaba la tecnología OCR de las empresas Calera y Recognita que han sido adquiridas recientemente por Caere; se han visto mejoras en el factor "reconocimiento de caracteres", pero parece que incluso se ha perdido capacidad de estructurar el documento, por lo que su actualización es aconsejable sólo si el trabajo que se realiza es principalmente con documentos sencillos, como por ejemplo libros.
3) El Recognita 3.0 de la empresa húngara del mismo nombre ha quedado en la cola de la clasificación; como ya se ha dicho Recognita ha sido comprada por Caere por lo que posiblemente no anuncie nuevas versiones; debe considerarse un producto obsoleto, aunque tiene la ventaja de estar especialmente adaptado para personas ciegas, no requiriendo usar ninguna otra adaptación, a un precio algo inferior al de sus competidores en este campo Kurzweil y Open Book (unas 70.000 pesetas españolas, que equivalen a 420 euros).
Algunas conclusiones que se deducen de este estudio son las siguientes:
- Se ha descubierto un producto OCR poco conocido que es potente y económico: el Fine Reader de ABBYY. Es conveniente estudiar como usarlo con las adaptaciones más habituales.
- Las personas que ya usan con eficacia una adaptación que les permite acceder a un producto OCR de uso general tienen una gran ventaja económica sobre las que necesitan usar un producto OCR específico para discapacitados. Aunque los productos específicos proporcionan un uso más sencillo y cómodo no consiguen resultados claramente mejores que los productos generales, a pesar de su precio mucho más elevado.
- Puede estar justificado tener más de un producto OCR, ya que documentos no accesibles con uno de ellos pueden ser legibles por el otro y viceversa.
[ SUBIR UN NIVEL ] [ VOLVER A LA PÁGINA PRINCIPAL ]