ESTUDIO COMPARATIVO DE PROGRAMAS OCR - 2002
Hace dos años, en el mes de septiembre del 2000, la Fundación de Ciegos Manuel Caragol publicó un estudio comparativo de productos reconocedores ópticos de caracteres, o sea de los denominados programas OCR, que creemos fue de gran utilidad para ayudar a las personas con discapacidad visual a elegir el programa que más les convenía para leer documentos impresos en tinta con la ayuda de un escáner.
El resultado más interesante de aquel primer estudio fue descubrir la existencia del programa Fine Reader 4.0 de la empresa rusa ABBYY, que ganó claramente la comparación quedando por delante de los productos americanos más conocidos, como el Open Book, el TextBridge y el OmniPage. Este resultado se vio confirmado en la práctica, especialmente cuando se pudo comprobar su accesibilidad con los revisores de pantalla y se confeccionaron scripts y guías de empleo para ayudar a usar el Fine Reader con JAWS.
Dos años después de la publicación de aquel primer estudio, el panorama de los programas OCR ha cambiado lo suficiente como para justificar hacer una revisión de los resultados alcanzados. El cambio más importante que se ha producido es la adquisición de la tecnología OCR de la empresa Xerox, fabricante de los programas TextBridge, por su rival Caere, fabricante de OmniPage y llamada ahora ScanSoft, que anteriormente ya había adquirido a Calera y Recognita, reduciendo de forma considerable el número de productos entre los cuales elegir. El esfuerzo de Caere para colocarse mejor en el mercado le ha permitido anunciar una nueva versión de su programa OCR, el OmniPage 11.0, del que existe versión en castellano que es accesible con las adaptaciones usuales.
También la empresa rusa ABBYY ha mejorado sus productos ya que ha anunciado dos nuevas versiones del Fine Reader, que son la 5.0 y la 6.0. El problema es que la versión 6.0 no ha sido todavía traducida al castellano, debido probablemente a que su anuncio ha sido adelantado para tratar de compensar la buena aceptación del anuncio del OmniPage 11. Es satisfactorio comprobar que a pesar de la reducción ocurrida en el número de empresas fabricantes de OCR, la competencia continúa y los que quedan deben seguir esforzándose para mejorar su oferta y cubrir cada vez mejor nuestras necesidades. Recordemos que estos productos se dirigen al mercado OCR en general, no siendo ninguno de ellos específico para personas con discapacidad visual, requiriendo el uso de alguna adaptación para poder usarlos.
En el mercado de los programas OCR específicos para personas con discapacidad visual, los principales fabricantes (Freedom Scientific, cuyo producto Open Book es bien conocido entre nosotros, y Kurzweil, líder del mercado en Estados Unidos) han anunciado nuevas versiones de sus programas con importantes mejoras, pero ninguno de ellos ha sido traducido al castellano, por lo que el Open Book 4, ya incluido en el primer estudio comparativo, sigue siendo el producto que se comercializa en los países de habla hispana. La novedad en este sector ha sido el anuncio del TifloScan 1.0, realizado por la Organización Nacional de Ciegos de España. El principal atractivo del TifloScan es su precio, bastante más asequible que el de su alternativa el ya mencionado Open Book, que no se ha dejado de comercializar por la propia ONCE con lo que ahora tiene los dos productos en su catálogo. No obstante debe destacarse que a pesar de la reducción de precio, el TifloScan sigue siendo bastante más caro que los programas OCR de uso general, como el OmniPage y el Fine Reader.
Para actualizar el estudio comparativo hemos podido contar con otro eficiente voluntario, pues es gracias a ellos que podemos realizar estos trabajos. En este caso, nuestro agradecimiento es para el Ingeniero Industrial Jordi Amatller, que a pesar de no residir en Barcelona ha llevado su entusiasmo hasta el extremo de no importarle viajar varias veces hasta nuestra ciudad para poder hacer este informe. Gracias a sus conocimientos y su experiencia en informática gráfica, no sólo se ha podido actualizar el estudio comparativo, sino que también contamos con sus consejos para ayudarnos a sacar el mejor provecho posible de los programas OCR.
ÍNDICE DEL PRESENTE DOCUMENTO
Contando con la experiencia del primer estudio, esta segunda comparación ha modificado algo el procedimiento seguido para realizarlo. Se han mantenido los dos factores principales a valorar: la calidad en el reconocimiento de caracteres y la capacidad para estructurar correctamente las zonas de texto localizadas dentro de la imagen escaneada. También se ha trabajado sobre un conjunto cerrado de documentos, 17 en total, cuyo nivel de dificultad se ha elevado algo sobre el conjunto que se empleó en el primer estudio, para abrir más claramente el abanico de resultados posibles. El cambio más importante es que ahora los documentos se han escaneado previamente y se han guardado las imágenes resultantes en distintos formatos para poder conocer la influencia de dichos formatos en los resultados alcanzados. Por lo tanto, para reconocer el texto de un documento, los programas OCR comparados lo cargaban desde el archivo almacenado, en lugar de escanearlo directamente. De esta forma se eliminan posibles influencias en la colocación del documento en el escáner que pueden afectar a la calidad del reconocimiento. Este cambio garantiza resultados más consistentes, aspecto que afectaba al primer estudio, aunque se considerase que no había distorsionado el orden de clasificación de los programas comparados.
Para la actualización del primer estudio se han comparado cuatro programas OCR, tres nuevos y un cuarto ya incluido en el estudio anterior y cuya misión es servir de puente entre las dos comparaciones ya que está referido en las dos clasificaciones finales. Los productos comparados son:
- TifloScan 1.0 (ONCE): programa específico para personas con discapacidad visual (página Web de CIDAT - ONCE España, fabricante de TifloScan).
- Fine Reader 5.0 (ABBYY): programa de uso general (página Web de ABBYY Rusia, fabricante de Fine Reader).
- OmniPage 10.0 (Caere): de uso general y ya incluido en el primer estudio (página Web de ScanSoft USA, fabricante de OmniPage).
- OmniPage 11.0 (ScanSoft): de uso general (página Web de ScanSoft USA, fabricante de OmniPage).
Los resultados se detallan en el informe, pero se pueden resumir como siguen:
1) Esta vez no hay un ganador destacado pues OmniPage 11 y Fine Reader 5 quedan muy igualados, con ligera ventaja del primero, demostrando así que el gran esfuerzo realizado por Caere para recuperar su posición en el mercado ha conseguido los frutos que deseaba. Se explica por ello la rapidez con la que ABBYY ha lanzado ya la versión 6, vendiendo sus anteriores programas 5 a precio muy reducido con el fin de recuperar su fama de mejor reconocedor del mercado. Esperemos que salga pronto su traducción al castellano, pero tenemos la satisfacción de ver que contamos con dos productos de muy buena calidad para acceder a documentos en tinta.
2) El OmniPage 10 ha quedado tercero con bastante diferencia. Esta posición es coherente con la alcanzada en el estudio anterior, donde quedó por debajo de Open Book y TextBridge, demostrando que Caere estaba perdiendo claramente su posición dominante, que ahora parece haber recuperado aunque no sea de forma destacada, por lo menos en el mercado de habla hispana.
3) TifloScan ha quedado claramente como un producto con prestaciones inferiores incluso a las alcanzadas por casi todos los programas estudiados hace dos años. Es una pena que un producto tan reciente no haya salido al mercado con un motor OCR de mayor calidad, pues su facilidad de uso está bastante bien conseguida cuando el usuario se acostumbra a su forma de trabajar, pero necesita claramente mejorar su calidad en la extracción de texto para llegar a ser un programa competitivo con los otros programas específicos para personas con discapacidad visual, como Open Book y Kurzweil 1000. A pesar de su precio más reducido y de estar en castellano, muchos usuarios se verán forzados a tener que elegir soluciones más caras y menos fáciles de manejar.
Para terminar esta presentación, se aconseja que para sacar el mejor provecho al informe que sigue a continuación, se relea antes el primer estudio comparativo de productos OCR, ya que éste es una actualización del mismo, aunque también esperamos que sea provechoso leerlo directamente.
El OCR (Optical Character Recognition o reconocimiento óptico de caracteres) permite reconocer texto a partir de imágenes digitales. Estas imágenes se pueden generar escaneando un trozo de papel, o como se está investigando actualmente a partir de cámaras fotográficas y videocámaras digitales.
Estos sistemas que generan imágenes digitales junto con programas OCR, permiten reconocer el texto que aparece en las imágenes. Para la comprensión del texto extraído es necesario que el OCR cometa pocos errores; de esta manera, es interesante conocer las prestaciones de los diferentes programas de OCR que existen en el mercado.
En este trabajo se han comparado diferentes programas de OCR, probados sobre documentos de características muy diferentes. Se han utilizado diferentes tipos de documentos (una carta, una hoja de periódico, documentos con tablas, etc.) y en diferentes idiomas (catalán, castellano, inglés y alemán). Los resultados se muestran en el apartado 3 y en las conclusiones del apartado 4 se mencionan los programas OCR que han producido mejores resultados.
En primer lugar se han realizado diferentes pruebas con distintos formatos y resoluciones de escaneado para determinar el formato y resolución óptimos.
Existen muchos formatos del fichero de salida del escáner (.JPG, .TIF, .GIF, .BMP, .EPS...). En este estudio se han analizado dos de los formatos más comunes y utilizados en escáneres y sistemas OCR: JPEG y TIFF.
Las pruebas se han efectuado en todos los documentos analizados con dos niveles de resolución del escáner: a 150 y 300 puntos por pulgada ("ppp" o "dpi" en inglés).
De esta manera, para cada documento se generaron con el escáner cuatro juegos de pruebas:
- Resolución: 150 ppp / Formato: .JPG
- Resolución: 300 ppp / Formato: .JPG
- Resolución: 150 ppp / Formato: .TIF
- Resolución: 300 ppp / Formato: .TIF
Los resultados de estas pruebas demostraron que la resolución adecuada es de 300 ppp, puesto que escanear a resoluciones más bajas provoca demasiados errores en el texto de salida de los programas OCR.
Prácticamente no existe diferencia apreciable entre utilizar imágenes .TIF y .JPG para el reconocimiento. Y como el formato .JPG es mucho más comprimido que el .TIF y por tanto ocupa mucho menos espacio de disco, el formato óptimo es .JPG.
Como conclusión, el formato óptimo es .JPG y la resolución óptima es de 300 ppp. Los resultados mostrados en el apartado 3 son sobre imágenes escaneadas con formato .JPG y resolución 300 ppp.
Se han aplicado los programas a todos los documentos descritos en la sección anterior. A continuación se muestran los errores que se han producido en el reconocimiento de los textos.
Se consideran dos tipos de errores:
- Los errores ortográficos como por ejemplo la sustitución de un carácter por otro o los signos de puntuación. El porcentaje se calcula dividiendo el número de palabras incorrectamente reconocidas, por el número total de palabras del documento.
- Los errores de formato como por ejemplo la no distinción de columnas y párrafos en el texto. Se ha realizado una estimación del porcentaje de errores de formato comparando el resultado OCR con el original.
Los documentos que aparecen con más del 50% de errores ortográficos y de formato ("+50%") son irreconocibles. Los documentos que aparecen con la palabra "ERROR" han producido un fallo del programa OCR y éste se ha bloqueado completamente.
Estos son los resultados de los programas aplicados a las mismas imágenes escaneadas a 300 ppp y formato .JPG:
| DOCUMENTO 1: Carta |
| Idioma: |
Catalán |
| Número de palabras: |
279 |
| Descripción: |
Carta con texto en negro y fondo blanco |
| Dificultad: |
BAJA |
FR50: |
| Errores ortográficos: |
 |
2,15% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
5,38% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
1,08% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
22,22% |
| Errores de formato: |
 |
5,00% |
|
| DOCUMENTO 2: Página de periódico |
| Idioma: |
Castellano |
| Número de palabras: |
932 |
| Descripción: |
Hoja de un periódico dividida en dos columnas y con caracteres pequeños; el texto es negro y el fondo gris |
| Dificultad: |
ALTA |
FR50: |
| Errores ortográficos: |
 |
6,44% |
| Errores de formato: |
 |
1,00% |
|
OP10: |
| Errores ortográficos: |
 |
1,18% |
| Errores de formato: |
 |
2,00% |
|
OP11: |
| Errores ortográficos: |
 |
0,86% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
| DOCUMENTO 3: Revista («Duke Ellington") |
| Idioma: |
Castellano |
| Número de palabras: |
749 |
| Descripción: |
Hoja de revista con el texto en negro y el fondo anaranjado; en la parte izquierda del texto aparece una fotografía. El fondo tiene una textura en forma de pequeños cuadrados, que ha provocado que ningún programa OCR sea capaz de reconocer el texto. Se han aplicado filtros de colores a esta imagen pero no se han mejorado los resultados; en este caso haría falta un filtro de texturas. |
| Dificultad: |
MUY ALTA |
FR50: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP10: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP11: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
| DOCUMENTO 4: Folleto de propaganda «Eschenbach» |
| Idiomas: |
 Alemán e Inglés |
| Número de palabras: |
471 |
| Descripción: |
Folleto de propaganda con dos columnas, una en inglés y otra en alemán; en el centro aparecen tablas con fotografías intercaladas; el texto es en negro y el fondo es blanco |
| Dificultad: |
ALTA |
FR50: |
| Errores ortográficos: |
 |
8,92% |
| Errores de formato: |
 |
15,00% |
|
OP10: |
| Errores ortográficos: |
 |
2,55% |
| Errores de formato: |
 |
15,00% |
|
OP11: |
| Errores ortográficos: |
 |
5,10% |
| Errores de formato: |
 |
10,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
| DOCUMENTO 5: Factura |
| Idioma: |
Castellano |
| Número de palabras: |
NO VINCULANTE |
| Descripción: |
Factura de un pedido, con el texto muy poco contrastado con el fondo; ningún programa OCR es capaz de separar el texto del fondo |
| Dificultad: |
MUY ALTA |
FR50: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP10: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP11: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
| DOCUMENTO 6: "Full" (hoja) parroquial |
| Idioma: |
Catalán |
| Número de palabras: |
484 |
| Descripción: |
Documento con texto en negro sobre fondo blanco; el texto está rodeado por un cuadrado |
| Dificultad: |
BAJA |
FR50: |
| Errores ortográficos: |
 |
0,62% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
12,81% |
| Errores de formato: |
 |
2,00% |
|
OP11: |
| Errores ortográficos: |
 |
2,27% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
32,44% |
| Errores de formato: |
 |
4,00% |
|
| DOCUMENTO 7: Página de libro en catalán |
| Idioma: |
Catalán |
| Número de palabras: |
393 |
| Descripción: |
Página de un libro con texto negro y fondo blanco; en la parte derecha, que corresponde al lomo del libro, se produce una pequeña deformación del texto; este texto no es completamente horizontal, pues forma un pequeño ángulo con la horizontal debido a un mal escaneado |
| Dificultad: |
NORMAL |
FR50: |
| Errores ortográficos: |
 |
0,00% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
7,38% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
1,02% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
31,55% |
| Errores de formato: |
 |
2,00% |
|
| DOCUMENTO 8: Página de libro en castellano |
| Idioma: |
Castellano |
| Número de palabras: |
358 |
| Descripción: |
Página de un libro con texto negro y fondo blanco; en la parte izquierda, que corresponde al lomo del libro, se produce una pequeña deformación del texto |
| Dificultad: |
NORMAL |
FR50: |
| Errores ortográficos: |
 |
0,56% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
6,42% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
0,00% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
22,91% |
| Errores de formato: |
 |
7,00% |
|
| DOCUMENTO 9: Página de libro en inglés |
| Idioma: |
Inglés |
| Número de palabras: |
568 |
| Descripción: |
Página de un libro con texto negro y fondo blanco; el texto no es completamente horizontal, pues forma un pequeño ángulo con la horizontal debido a un mal escaneado |
| Dificultad: |
NORMAL |
FR50: |
| Errores ortográficos: |
 |
0,18% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
0,35% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
0,00% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
1,06% |
| Errores de formato: |
 |
0,00% |
|
| DOCUMENTO 10: Prospecto de medicina |
| Idioma: |
Castellano |
| Número de palabras: |
315 |
| Descripción: |
Folleto de indicaciones de un producto farmacéutico; el texto es de color naranja y el fondo es gris claro |
| Dificultad: |
ALTA |
FR50: |
| Errores ortográficos: |
 |
0,63% |
| Errores de formato: |
 |
5,00% |
|
OP10: |
| Errores ortográficos: |
 |
5,71% |
| Errores de formato: |
 |
2,00% |
|
OP11: |
| Errores ortográficos: |
 |
3,17% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
ERROR |
| Errores de formato: |
 |
ERROR |
|
| DOCUMENTO 11: Revista («Novática») I |
| Idioma: |
Castellano |
| Número de palabras: |
303 |
| Descripción: |
Texto en columnas, con letra negra sobre fondo blanco; el texto forma un pequeño ángulo con la horizontal debido a un mal escaneado |
| Dificultad: |
NORMAL |
FR50: |
| Errores ortográficos: |
 |
1,65% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
1,98% |
| Errores de formato: |
 |
2,00% |
|
OP11: |
| Errores ortográficos: |
 |
1,65% |
| Errores de formato: |
 |
2,00% |
|
TSCN: |
| Errores ortográficos: |
 |
36,63% |
| Errores de formato: |
 |
10,00% |
|
| DOCUMENTO 12: Revista («Novática») II |
| Idioma: |
Castellano |
| Número de palabras: |
853 |
| Descripción: |
Contraportada de una revista donde el texto es negro y el fondo blanco; contiene dos columnas, y en la de la derecha el texto aparece con una fuente muy pequeña, cosa que ha dificultado mucho el reconocimiento para los programas OCR |
| Dificultad: |
ALTA |
FR50: |
| Errores ortográficos: |
 |
5,86% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
42,09% |
| Errores de formato: |
 |
5,00% |
|
OP11: |
| Errores ortográficos: |
 |
39,39% |
| Errores de formato: |
 |
5,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
| DOCUMENTO 13: Revista («Ray Charles») |
| Idioma: |
Castellano |
| Número de palabras: |
764 |
| Descripción: |
Texto blanco con fondo negro; para obtener mejores resultados se han invertido los colores de la imagen, pasando a ser el texto negro y el fondo blanco; en la parte izquierda del texto aparece una fotografía |
| Dificultad: |
ALTA |
FR50: |
| Errores ortográficos: |
 |
0,39% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
1,57% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
0,39% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
3,53% |
| Errores de formato: |
 |
8,00% |
|
| DOCUMENTO 14: Tarjeta de presentación |
| Idioma: |
Castellano |
| Número de palabras: |
26 |
| Descripción: |
Tarjeta de presentación común, con el texto negro sobre fondo blanco y muy pocas palabras |
| Dificultad: |
BAJA |
FR50: |
| Errores ortográficos: |
 |
15,38% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
7,69% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
7,69% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
26,92% |
| Errores de formato: |
 |
2,00% |
|
| DOCUMENTO 15: Tabla y texto con colores de fondo |
| Idioma: |
Castellano |
| Número de palabras: |
NO VINCULANTE |
| Descripción: |
Texto encolumnado y en colores con imágenes intercaladas; en la columna derecha hay una tabla que tiene colores de fondo en sus casillas |
| Dificultad: |
MUY ALTA |
FR50: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP10: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP11: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
| DOCUMENTO 16: Tabla |
| Idioma: |
Castellano |
| Número de palabras: |
70 |
| Descripción: |
Tabla simple de cinco filas por dos columnas, con las casillas separadas claramente por líneas; el texto es en negro con fondo blanco |
| Dificultad: |
NORMAL |
FR50: |
| Errores ortográficos: |
 |
1,43% |
| Errores de formato: |
 |
10,00% |
|
OP10: |
| Errores ortográficos: |
 |
1,43% |
| Errores de formato: |
 |
0,00% |
|
OP11: |
| Errores ortográficos: |
 |
0,00% |
| Errores de formato: |
 |
0,00% |
|
TSCN: |
| Errores ortográficos: |
 |
0,00% |
| Errores de formato: |
 |
5,00% |
|
| DOCUMENTO 17: Ticket de compra en supermercado |
| Idioma: |
Catalán |
| Número de palabras: |
72 |
| Descripción: |
Comprobante de compra de un supermercado, con el texto en negro sobre fondo grisáceo, y en el que aparecen muchos códigos y números; los caracteres impresos por la caja registradora no se asemejan a ninguna fuente de caracteres informáticos comunes |
| Dificultad: |
MUY ALTA |
FR50: |
| Errores ortográficos: |
 |
30,56% |
| Errores de formato: |
 |
0,00% |
|
OP10: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
OP11: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
TSCN: |
| Errores ortográficos: |
 |
+50,00% |
| Errores de formato: |
 |
+50,00% |
|
Para cada documento se citan a continuación los dos programas de OCR que han producido mejores resultados, considerando solamente los errores ortográficos:
| PRUEBA |
OCR 1 |
FALLOS |
OCR 2 |
FALLOS |
| Documento 1 |
OP11 |
1,08% |
FR50 |
2,15% |
| Documento 2 |
OP11 |
0,86% |
OP10 |
1,18% |
| Documento 3 |
Todos los programas dieron el mismo resultado |
+50,00% |
| Documento 4 |
OP10 |
2,55% |
OP11 |
5,10% |
| Documento 5 |
Todos los programas dieron el mismo resultado |
+50,00% |
| Documento 6 |
FR50 |
0,62% |
OP11 |
2,27% |
| Documento 7 |
FR50 |
0,00% |
OP11 |
1,02% |
| Documento 8 |
OP11 |
0,00% |
FR50 |
0,56% |
| Documento 9 |
OP11 |
0,00% |
FR50 |
0,18% |
| Documento 10 |
FR50 |
0,63% |
OP11 |
3,17% |
| Documento 11 |
FR50 y OP11 |
1,65% |
| Documento 12 |
FR50 |
5,86% |
OP11 |
39,39% |
| Documento 13 |
FR50 y OP11 |
0,39% |
| Documento 14 |
OP10 y OP11 |
7,69% |
| Documento 15 |
Todos los programas dieron el mismo resultado |
+50,00% |
| Documento 16 |
OP11 y TSCN |
0,00% |
| Documento 17 |
FR50 |
30,56% |
Los demás programas |
+50,00% |
En vista de estos datos, se puede observar que los dos programas que han producido mejores resultados en el reconocimiento de caracteres propiamente dicho son OmniPage 11 (OP11) y Fine Reader 5.0 (FR50). El primero (OP11) ha sido el mejor en ocho documentos y ha quedado en segundo lugar en cinco ocasiones; Fine Reader (FR50) ha sido el mejor en siete documentos y el segundo mejor en tres ocasiones. En tercer lugar ha quedado OmniPage 10, siendo dos veces el mejor y una vez el segundo mejor. Y en último lugar, con diferencia, ha quedado el programa TifloScan que solamente en un documento ha conseguido los mejores resultados junto con OP11.
Para evaluar los resultados globales en la estructuración, a cada documento de los catorce válidos (tres han resultado inaprovechables) se le ha asignado un punto, el cual se distribuye en partes proporcionales entre los programas OCR que han obtenido mejores resultados; como muchos de estos valores parciales son fraccionarios, para obtener el sumatorio total se han reducido al común denominador de todos ellos que es 12, por lo que dichos totales se indican como fracciones de este número:
| PRUEBA |
FR50 |
OP10 |
OP11 |
TSCN |
| Documento 1 |
0% |
1/3 |
0% |
1/3 |
0% |
1/3 |
5% |
0 |
| Documento 2 |
1% |
0 |
2% |
0 |
0% |
1 |
+50% |
0 |
| Documento 3 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
| Documento 4 |
15% |
0 |
15% |
0 |
10% |
1 |
+50% |
0 |
| Documento 5 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
| Documento 6 |
0% |
1/2 |
2% |
0 |
0% |
1/2 |
4% |
0 |
| Documento 7 |
0% |
1/3 |
0% |
1/3 |
0% |
1/3 |
2% |
0 |
| Documento 8 |
0% |
1/3 |
0% |
1/3 |
0% |
1/3 |
7% |
0 |
| Documento 9 |
0% |
1/4 |
0% |
1/4 |
0% |
1/4 |
0% |
1/4 |
| Documento 10 |
5% |
0 |
2% |
0 |
0% |
1 |
Error |
0 |
| Documento 11 |
0% |
1 |
2% |
0 |
2% |
0 |
10% |
0 |
| Documento 12 |
0% |
1 |
5% |
0 |
5% |
0 |
+50% |
0 |
| Documento 13 |
0% |
1/3 |
0% |
1/3 |
0% |
1/3 |
8% |
0 |
| Documento 14 |
0% |
1/3 |
0% |
1/3 |
0% |
1/3 |
2% |
0 |
| Documento 15 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
| Documento 16 |
10% |
0 |
0% |
1/2 |
0% |
1/2 |
5% |
0 |
| Documento 17 |
0% |
1 |
+50% |
0 |
+50% |
0 |
+50% |
0 |
| Sumatorios |
65/12 |
29/12 |
71/12 |
3/12 |
El análisis de las dos tablas de valores que anteceden demuestra que los dos mejores productos OCR para los documentos estudiados han sido, por este orden y tanto en el reconocimiento de texto como en la estructuración, OmniPage 11 (OP11) y Fine Reader 5.0 (FR50). Ambos han conseguido resultados similares, aunque para ciertos documentos es mejor uno y para otros es mejor el otro. Lo ideal sería disponer de los dos y poder aplicarlos según el tipo de documento.
El propio proceso de escaneado influye en el reconocimiento de los caracteres por los programas OCR. Factores que pueden influir en el reconocimiento son la correcta orientación del papel, disponer de un buen escáner, evitar arrugas en el papel, etc. La comparativa se ha realizado sobre las mismas imágenes escaneadas, por lo tanto los errores del proceso de escaneado han afectado por igual a todos los programas.
Para favorecer el reconocimiento de algunas imágenes escaneadas se pueden aplicar inversiones y filtros de colores con algún programa editor de imágenes. En Internet se pueden conseguir editores de imágenes gratuitos y bastante completos, como por ejemplo IrfanView (ir al sitio Web de IrfanView). En el presente estudio se ha utilizado este editor para invertir y cambiar colores de las imágenes en que se ha juzgado necesaria esta adecuación.
Una vez terminada la redacción y edición en formato HTML del presente documento, y después de haber modificado la apariencia de su predecesor (el primer estudio comparativo de productos OCR) para adaptarla a las nuevas pautas de presentación de nuestro sitio Web y con ello mejorar su accesibilidad y consiguiente lectura, han llegado a nuestras manos un par de informaciones que deseamos plasmar aquí antes de publicar definitivamente este informe:
- En primer lugar, la versión 6.0 del reconocedor de caracteres Fine Reader de la empresa rusa ABBYY, de la que hablábamos en la presentación de este escrito, dispone ya de soporte en castellano para su interfaz de usuario, el cual está a la disposición del público tal y como se anuncia en el sitio Web de su fabricante. De esta nueva versión del OCR, que todavía no hemos tenido ocasión de probar, nos han llegado noticias de que una vez más vuelve a superarse a sí mismo y a todos sus competidores en el mercado que, como también comentábamos anteriormente, son cada vez menos; la nueva versión de Fine Reader, pues, mejora el reconocimiento de textos con respecto a la 5.0, aunque esta vez el cambio no es tan notorio como lo fue entre la 4.0 y la 5.0, e incorpora además el descifrado (al parecer muy fiable) de los populares libros digitales en formato PDF, todo ello manteniendo su razonable y de todo punto asequible precio (unos 120 euros, o sea, alrededor de las 20.000 pesetas españolas).
- Mucho más recientemente hemos tenido noticias de la aparición de una nueva versión, en este caso la 12.0, del programa OmniPage PRO de ScanSoft (empresa estadounidense que, como arriba se citó, aglutina a las antiguas Caere y Xerox y por consiguiente a todas las que por ellas fueron absorvidas como Calera y Recognita); en la Web de ScanSoft se asegura que este nuevo producto es el mejor OCR de todos los tiempos, destacando entre sus nuevas funciones el descifrado mejorado de los archivos PDF (característica que ya incluía la versión 11.0 con algunas carencias), la conversión de los documentos escaneados a lenguaje XML y una notable mejora en la velocidad de los procesos; curioso es observar que el precio de cada licencia de este programa es de 600 dólares americanos (importe ciertamente considerable), pero las actualizaciones del mismo, que pueden realizarse a partir de una de sus versiones precedentes o incluso de cualquier software de OCR suministrado con la compra de un escáner, cuestan ya 200 dólares, importe mucho más asequible aunque todavía por encima del coste de Fine Reader 6.0.
Estos productos de uso general, y los nuevos lanzamientos de las casas Freedom Scientific y Kurzweil (en este caso destinados expresamente al colectivo de los discapacitados visuales), deberán ser tenidos muy en cuenta y confiamos poder estudiarlos y en un futuro próximo ofrecer sobre ellos información práctica tal y como hemos hecho hasta ahora.
[ SUBIR UN NIVEL ] [ VOLVER A LA PÁGINA PRINCIPAL ]