LA LECTURA DE LOS ARCHIVOS «PORTABLE DOCUMENT FORMAT»

Hace unos años, mucha de la documentación que se servía en soporte digital, generalmente almacenada en diskettes o CD-ROM's, venía en formato de texto plano y más adelante en archivos de Microsoft Word que, sin duda muchos usuarios han pasado por ello, no era siempre posible abrir si no se disponía de la versión más reciente de este popular procesador de textos. De un tiempo a esta parte, los dos formatos citados y algunos otros también bastante extendidos han ido cediendo terreno a dos tipos de documentos que poseen grandes ventajas sobre ellos: los HTML, lenguaje en el que se elaboran la mayoría de páginas Web accesibles desde Internet, y los PDF, estándar para libros electrónicos con grandes capacidades de presentación. Ambos formatos, especialmente el segundo, poseen la enorme ventaja frente a muchos otros que han de poder visualizarse con iguales o muy similares resultados independientemente del programa o versión del mismo que se utilice para interpretarlos, amén de permitir crear documentos muy atractivos a la vista y nada complejos de manipular o gestionar internamente por los equipos que los carguen.
   Los dos tipos de archivo citados han alcanzado cotas de popularidad tan altas que, hoy día, muchos componentes sólidos de informática (hardware) ya no van acompañados por voluminosos manuales de usuario en papel y generalmente en idioma inglés, sino por un liviano CD-ROM que almacena tales documentos y casi siempre otros suplementarios, muchas veces traducidos todos a varias lenguas; esto supone además un considerable abaratamiento en el coste del producto pues, lo que antes se vendía en grandes cajas de cartón con diversos embalajes internos, ahora se entrega en un sencillo plástico protector que ya incluye lo necesario para que funcione. Mas no todo son ventajas: los archivos HTML y PDF son muy versátiles para quienes tienen buena vista, pero demasiadas veces resultan inaccesibles para los que carecemos total o parcialmente de ella; de los documentos HTML hay mucho y muy variado que hablar, cosa que haremos en un artículo que ya estamos preparando sobre este tema; del PDF quizás no haya tanto que decir, aunque bien es verdad que resulta más problemático que el HTML, pero en cualquier caso en este trabajo vamos a tratar de desentrañar algunos de sus misterios con el fin de dar a conocer qué métodos hay disponibles para que una persona discapacitada visual pueda acceder a él.

ÍNDICE DEL PRESENTE DOCUMENTO

1.- INTRODUCCIÓN Y FILOSOFÍA DE ESTE ESTUDIO

   El PDF, siglas de Portable Document Format (algo así como "Formato Portátil de Documentos"), es un código creado por la compañía estadounidense Adobe Systems Incorporated para publicar de forma electrónica libros, revistas, manuales y otros documentos divulgativos cuya presentación deba ser algo más que un simple texto con viñetas y estructuras especiales de alineación o sangrado; su finalidad principal es la de imprimir en papel todo aquel material que con él se elabora, y su rasgo más notorio es que forzosamente ha de ser interpretado de igual modo con independencia del dispositivo, plataforma (sistema operativo) o programa que se encargue de hacerlo, portabilidad casi exclusiva de este formato que garantiza un resultado óptimo en toda transacción que con él se realice. Era el PDF hace unos años lo que se conoce técnicamente como un sistema "propietario", lo cual significa que su codificación interna sólo es conocida por la empresa que lo diseñó, la cual lo explota por medio de las aplicaciones informáticas que ha desarrollado para trabajarlo, esas sí a la disposición de cualquier persona que desee adquirirlas; sin embargo, de un tiempo a esta parte otras compañías se han hecho con derechos de utilización sobre el código, que poco a poco ha pasado a ser de dominio público, y dado su uso tan extendido se ha ido convirtiendo en un estándar "de facto", o sea, no reconocido explícitamente como tal por las organizaciones competentes en ese terreno pero demasiado divulgado como para considerarse propietario de Adobe aunque legalmente así siga siendo, y a pesar también de que esta empresa sea todavía la que distribuye las aplicaciones más potentes y reconocidas para manipularlo, habiendo diversas soluciones y precios en función de las capacidades que se precisen. Poco más vamos a decir del formato PDF como tal pues tampoco es el objetivo de este escrito, pero podemos recomendar la lectura del artículo "Sistemas de Lectura Digital y Libros Electrónicos, elaborado hace un par de años por uno de nuestros colaboradores, legible por tanto en este mismo sitio Web, y que a pesar del tiempo transcurrido desde su publicación sigue siendo una muy fiable referencia acerca del tema aludido, del que ofrece una visión más profundizada comparando tipos de archivos de finalidad similar y aplicaciones disponibles para su lectura.
   En el presente trabajo, un poco a semejanza de lo que veníamos haciendo en los dos estudios comparativos de productos OCR que hemos publicado hasta la fecha, vamos a realizar una serie de pruebas de acceso a un juego de archivos PDF con diversas aplicaciones, ofreciendo en este caso resultados descriptivos y no estadísticos sobre los comportamientos observados en cada experimento. Para llevar a cabo el test se han tomado nueve documentos, todos con diferente formato de presentación y buscando siempre alguna particularidad que pueda causar conflictos o cuanto menos interpretaciones distintas a la hora de evaluarlos; he aquí la lista de tales documentos con una breve descripción de las peculiaridades de cada uno:

   Cuanto a las herramientas utilizadas, que no citamos ahora sino que irán apareciendo a lo largo del informe, permitiéndonos de este modo añadir otras nuevas una vez terminada la redacción de éste si así lo estimamos oportuno, las clasificaremos en dos grandes grupos, que constituirán los apartados 2 y 3 del presente trabajo. En el primero de ellos haremos referencia a aplicaciones estándar que realizan el fin propuesto, convinadas con los programas de accesibilidad (lectores y ampliadores de pantalla) más usados por los discapacitados visuales de habla hispana; en el segundo grupo incluiremos todas aquellas utilidades o código accesorio que, diseñados o no exprofeso para ciegos y débiles visuales, les pueden resultar válidos para descifrar los archivos PDF.

2.- APLICACIONES CONVENCIONALES PARA LEER ARCHIVOS «PDF»

2.1.- «ADOBE READER» CON AMPLIACIÓN DE IMÁGENES

   Acrobat Reader, nombre con que se lo conocía hasta su versión 5.1, o Adobe Reader, su denominación a partir de la 6.0, es, con sus ventajas e inconvenientes, el lector oficial para archivos de tipo PDF, diseñado por la empresa Adobe Systems Incorporated y que se distribuye de forma gratuita, traducido a un buen número de idiomas, a través de la página de descarga de Adobe Reader (en inglés). Se trata de una aplicación esencialmente visual, poco amigable por tanto para personas que tienen mermado o anulado este sentido, y que de hecho hasta su versión 5.0 era totalmente inaccesible, motivo por el que en las ediciones 3.0 y 4.0 se crearon unos parches que se colocaban encima para permitir, al menos, exportar el contenido de algunos documentos cargados a texto plano o HTML muy básico; afortunadamente, desde la versión 5.0 las herramientas de accesibilidad vienen ya con el producto siempre, eso sí, que se descargue su copia completa (full o with Search and Accessibility) y no la reducida (basic o sin indicaciones). En este apartado ofreceremos algunos datos sobre cómo usar el citado lector de archivos PDF, en sus versiones 5.1 y 6.0, sin soportes adicionales de voz aunque considerando el uso de ampliadores de imágenes de tipo profesional, como los de las empresas Dolphin Computer Access y Ai Squared; dado que en el momento de escribir esto la versión 6.0 de Adobe Reader todavía no ha sido traducida al castellano, trabajaremos con la edición en inglés aunque dando los nombres de todos los controles en nuestro idioma pues es de suponer que no tardará en estar disponible la traducción a él, hecho que sí haremos lo posible para que se refleje en su enlace de obtención.
   La versión 5.1 del lector de Adobe (descargar Acrobat Reader 5.1 completo en español), una vez instalada en el equipo, se presenta como una aplicación estándar de Windows cuya carga, si no se tiene un ordenador de los más modernos dotado de mucha memoria RAM, puede demorarse unos segundos. Los menús de la barra que ostenta la ventana principal, accesibles de forma ordinaria, tienen las siguientes atribuciones: "archivo" permite esencialmente abrir, cerrar, exportar e imprimir documentos; "edición" contiene funciones para manejo de bloques de texto (copiar, pegar, seleccionar...), de búsqueda de datos y los parámetros de configuración del lector; "documento" controla sobre todo la página del archivo que se desea visualizar; "herramientas" realiza tareas de nivel avanzado (manejo de comentarios, servicios en línea del fabricante...) que no se usarán prácticamente; "ver" y "ventana" permiten ajustar características visuales de las pantallas del programa; finalmente "ayuda" posee el manual de Acrobat Reader en formato PDF y otros datos legales o comerciales sobre el producto. Además de los menús, está disponible un juego bastante amplio de teclas de acceso directo para ejecutar casi todas las funciones contenidas en ellos y para desplazarse por los documentos, aunque es de notar que en este último caso hay operaciones que no están permitidas excepto si se usa un ratón, como el desplazamiento lateral (de izquierda a derecha o viceversa) de textos que no caben completos en pantalla y que, si bien es posible mover de arriba a abajo no lo es de lado a lado; estas teclas rápidas pueden hallarse junto a las opciones correspondientes de los menús o en un listado completo disponible al final del ya mencionado manual de la aplicación.
   Si abrimos un documento PDF y tratamos de leerlo directamente en pantalla con la vista, pocas veces lo podremos hacer sin encontrar obstáculos (que se manifiestan mediante la corrupción de los caracteres escritos), y menos aún si tenemos activo algún magnificador de imágenes; en efecto, la idea principal de los archivos de este tipo es poderse imprimir manteniendo las características presentacionales del original independientemente del equipo que los procese, y el accederlos desde el ordenador es algo que llegó más adelante y que todavía no está lo perfeccionado que sería de desear; bien, pues utilizando dos ampliadores de pantalla, ZoomText y Supernova, que en realidad poco o nada han podido aportar ya que el 90% de la imagen obtenida depende de Acrobat Reader, hemos visualizado los nueve documentos que preparamos para la prueba y he aquí el resultado obtenido, que confirma de todas todas la teoría recién expuesta acerca de esta combinación de tecnologías:

   Patente ha quedado que ésta no es una solución válida...; el lector de Adobe tiene, entre sus opciones de configuración que se acceden desde el comando "preferencias..." del menú "edición", un diálogo llamado "accesibilidad" (que se selecciona en el cuadro de lista situado a la izquierda del panel en cuestión) donde es posible modificar el color de primer plano y del fondo, o utilizar la configuración activa en Windows (estándar, blanco y negro, etc.), para las fuentes usadas en los documentos a cargar; sin la esperanza de mejorar la calidad de los caracteres que hasta ahora se veían mal, pues la opción de que hablamos sólo autoriza cambiar colores pero no tamaños ni tipos de fuente, hemos establecido una configuración de alto contraste, concretamente fondo negro con letras amarillas, y la hemos probado con los nueve documentos que tenemos. Los resultados más óptimos se obtienen seleccionando el valor "siempre, anulando los colores del documento" en el cuadro de lista "ajustar visualización de colores", y "usar combinación personalizada" en "combinación de color", lo que permitirá elegirlos manualmente (todo esto se halla siempre en el diálogo de accesibilidad antes mencionado); hechos tales cambios, la visibilidad de algunos documentos es verdad que mejora y no poco, pero la calidad de la letra sigue siendo la misma, por lo que se obtienen ventajas reales sólo en DOC3 y DOC5 (el segundo se lee ahora perfectamente pues sólo le faltaba tener buen contraste); el único inconveniente que afecta a esta facilidad es que algunos títulos, lo hemos observado en varios de los documentos analizados, tienen un color de fondo que no es el especificado, lo que se debe seguramente a componentes gráficos o de maquetación diferentes de los ordinarios que no permiten aplicar la modificación de colores y, por consiguiente, luego se visualizan mal; otro factor a tener en cuenta es que las imágenes, contengan o no texto, no se ven afectadas por este reajuste, luego nuestro DOC9 aparece con su aspecto original salvo unas líneas de contorno que posee, que antes eran blancas (no se apreciaban) y ahora son negras.
   Es posible también aumentar o disminuir el tamaño de los datos mostrados en pantalla mediante las opciones "ampliar" y "reducir" que contiene el menú "ver", que ciertamente mejoran mucho la calidad de los textos escritos pero que, al no poderse desplazar ágilmente la imagen obtenida con teclas, resultan de muy poca utilidad excepto que se tenga visión suficiente para operar con el ratón, en cuyo caso muchas veces no se amplía la letra hasta el nivel en que aquí se convierte en legible; sólo se puede actuar con el teclado para subir y bajar la imagen, con las flechas de arriba y abajo, y para desplazarla suavemente hacia los lados, con las flechas derecha e izquierda más las teclas Mayús y Ctrl, pero no ir a los extremos de una sola vez ni efectuar saltos amplios controlados, acciones que sí son factibles con el ratón manejado en las barras que circundan la zona de visualización del documento. Si realmente se desea acceder a los documentos de forma visual, bien porque no hay otro modo de hacerlo (por ejemplo en el estudio de dibujos o información gráfica), o simplemente porque se prefiere así, bueno es saber también que la pantalla que muestra los contenidos del archivo puede funcionar como un lienzo enrollado a semejanza de la de cualquier explorador de Internet; esto se logra marcando en el menú "ver" la opción "continua" en lugar de "una sola página", que suele venir por defecto y que ocasiona saltos inesperados de la imagen cuando se pasa de una página a otra, lo que tiende a despistar a muchos usuarios con poco resto visual y que se evita con la primera opción. En el mismo menú "ver", amén de otras facilidades de visualización, existen tres comandos que permiten modificar el tamaño (esencialmente la anchura) de la imagen mostrada, y que son: "ajustar a ventana" (con la tecla de atajo Ctrl+"0" alfanumérico), "tamaño real" (accesible con Ctrl+"1" alfanumérico) y "ajustar ancho" (con Ctrl+"2" alfanumérico); cada archivo vendrá por defecto con la configuración más apropiada, pero ésta se puede modificar siempre que se estime oportuno.
   La versión 6.0 del lector de archivos PDF de que venimos hablando en este apartado (descargar Adobe Reader 6.0 completo en español) aporta muy pocas novedades, por no decir ninguna, en los aspectos tratados hasta ahora, destacando que la carga del programa es todavía más lenta, siéndolo mucho incluso en ordenadores de cierta potencia, y que sus menús han variado negativamente puesto que opciones bastante usadas, como pueden ser las de cambio de página activa, han pasado a ocupar submenús dentro del menú "ver", que quizás tampoco es su lugar más adecuado, cosa que se da en tantos casos que no es exagerado decir que muchos de los títulos de menús son todo menos identificativos de lo que se va a encontrar una vez se abren. Tanto esta versión del lector como la anterior poseen, en el menú "archivo", una opción llamada "exportar documento a texto..." o "guardar como texto..." que, si el autor del archivo PDF ha dado su consentimiento para ello a la hora de construirlo, efectúan un volcado del contenido literal de tal archivo, o mejor dicho del que el programa es capaz de interpretar (más tarde hablaremos de esto), a un fichero de texto plano, una característica que, como antes comentamos, poseían ya los parches de accesibilidad para las versiones antiguas de Acrobat Reader, y que inicia en este informe el tema central del mismo que es la lectura hablada de documentos PDF.
   La novedad a la que se ha dado más resonancia de Adobe Reader 6.0, y que en seguida veremos que no es tan trascendental para nuestro colectivo como se nos quiso dar a entender, es que es capaz de leer por voz sintética de forma directa, esto es sin la intermediación de ningún lector de pantalla u otra aplicación conversora de texto a voz, los documentos que carga siempre que tengan activadas las características de accesibilidad pertinentes; se trata en primer lugar de configurar la voz que se usará, en la página "lectura" del diálogo de preferencias que sigue colgando del menú de edición, eligiendo un locutor, el volumen, el tono y la velocidad de emisión; sólo resta llamar a la función propiamente dicha mediante uno de los cuatro comandos disponibles para ello en el submenú "leer en voz alta" del menú "ver". Los inconvenientes de esta implementación son tantos que la hacen casi inusable para personas con deficiencia visual, por lo que este párrafo se ha escrito más a título documental que práctico; para comenzar, el programa sólo acepta los sintetizadores de voz que tiene registrados de fábrica, todos compatibles con la interfaz SAPI, con lo cual muchos que puede interesarnos usar no estarán disponibles; tenemos después que la lectura sólo cuenta con cuatro instrucciones de control: leer la página actual, leer hasta el final del documento, pausa y detener, no existiendo opciones de rebobinado o avance rápido tan necesarias para tener un control total sobre lo que se desea escuchar; finalmente, cuando se solicita asistencia por voz ésta tarda varios segundos en surgir, tiempo que se requiere para transferir el texto al motor de habla y que en máquinas modernas ya es notorio.
   Otra mejora de la que se podía esperar cierta ayuda y que parece ser también de muy poco valor es la llamada "comprobación rápida de accesibilidad", que se encuentra en el menú "documento" y que debería proporcionar información sobre el mejor método para acceder a un archivo cuando se experimentan dificultades leyéndolo de forma ordinaria; en los ocho documentos de prueba que se pueden abrir, a saber todos menos DOC4, el programa ha dado en seis el mensaje "el documento no está estructurado, por lo tanto, el orden de lectura puede no ser el correcto; pruebe otros modos de ordenar la lectura mediante el panel de preferencias de lectura", y en DOC3 ha antepuesto a esta sentencia otra más inapelable: "la configuración de seguridad del documento no permite el acceso mediante lectores de pantalla"; en DOC9, era de suponer, el programa nos ha dicho "este documento parece no contener texto; puede ser una imagen digitalizada". Un aviso como el segundo, y evidentemente como el tercero, da al traste con la idea de descifrar un archivo PDF, ya que no sólo los revisores de pantalla si no el propio Adobe Reader son capaces de sacar de él otra cosa que imágenes, no pudiéndose ni exportar su contenido literal ni enviarlo a un motor de voz desde dentro del mismo lector; los mensajes del primer tipo, como según lo visto surgen en un porcentaje muy elevado de ocasiones, sirven para poco, mas remiten a una opción también nueva en Adobe Reader 6.0 de la que se puede sacar provecho con un poco de dedicación y otro poco de paciencia, pues lo que permite es alterar el orden en que el lector entrega el contenido literal de los archivos que abre, lo cual afecta a su emisión directa por voz, a su interceptación por un lector de pantalla y, lo que nos parece más interesante, a su exportación a texto plano. Se trata de acceder a la ya conocida página "lectura" del diálogo de preferencias, y manipular con las opciones del cuadro de lista "orden de lectura", que son: "deducir el orden de lectura del documento" (recomendada aunque no nos parece la más fiable), "orden de lectura de izquierda a derecha y de arriba a abajo" (funciona bastante bien) y "usar orden de lectura en flujo de impresión sin formato" (tampoco da mal resultado); tras un proceso de pruebas más corto o más largo, que algunos usuarios juzgarán puede ser suplantado perfectamente con la exportación de un documento seguida de una navegación exhaustiva por él, criterio que es acertado en algunos casos pero no en otros, se suele lograr una secuencia lógica en la aparición del texto que hace al archivo PDF legible como casi cualquier otro; valga decir que esta modificación no es necesaria en un número muy reducido de documentos que ya llevan un orden de lectura preestablecido internamente, lo que se sabrá cuando el test breve de accesibilidad dé el mensaje "no se han detectado problemas de accesibilidad en la comprobación rápida" (sólo hemos podido gozar de tal beredicto cuando hemos abierto el archivo de ayuda del propio lector de Adobe, manifiestamente preparado para cualquier público y que no hemos querido incluir en nuestro juego de pruebas por tal motivo).

2.2.- «ACROBAT READER» CON EL PARCHE «ACROBAT ACCESS»

   Ningún programa de lectura verbal o en Braille del entorno Windows es capaz, por mucha potencia que tenga y por moderno que sea, de interpretar el contenido del visor de documentos que presenta Acrobat Reader, lo que se explica fácilmente: tal visor sólo presenta imágenes en formato gráfico, como podrían ser las que muestra una aplicación para diseño de fotografía o de dibujos, contenidos que un lector de pantalla no está preparado para asimilar pues de hecho no le corresponde hacerlo, ya que casi nunca incluye un módulo de reconocimiento óptico de caracteres (OCR). Asumido esto, queda claro que la única forma en que una persona que trabaja con salida no visual puede leer archivos de tipo PDF es que el mismo programa que sea capaz de descifrar tales archivos habilite un canal para transferir fuera de él los datos literales que incluyan; las dos versiones del lector de Adobe de que hemos estado hablando hasta ahora, o sea la 5.1 y la 6.0, tienen efectivamente tal medio de enviar datos a un lector de pantalla, implementado en la ventana ordinaria de visión de documentos, además de las otras ayudas (esencialmente voz propia y exportación) descritas en el punto precedente; mas aquí precisamos viajar hacia atrás en el tiempo para hablar de ediciones aún anteriores del programa en discusión, que para el caso presente nos van a resultar muy útiles.
   La versión 4.05 del lector oficial de PDF's (descargar Acrobat Reader 4.05 en español), que por sí sola es del todo inaccesible, ofrece importantes ventajas si se instala sobre ella el parche específico que citamos con anterioridad (descargar Acrobat Access 4.05 en inglés), nunca traducido a nuestro idioma pero que funciona correctamente cuando se trabaja con archivos en lenguas latinas, derivándose sólo el inconveniente que coloca controles en inglés en la interfaz del lector de Adobe; lo más destacado de él es la vista alternativa que genera de los documentos cargados, especialmente pensada para usuarios ciegos o con baja visión, y que opera mostrando el contenido textual reconocido de tales documentos, ordenado con la máxima precisión posible (no siempre es fácil sobre todo si existen tablas u otros factores que alteren la presentación), en una ventana independiente monocolumna de tipo cuadro de edición, en la que también son válidos los controles de acceso que ostenta la vista estándar como enlaces, notas y objetos multimedia. Muy a groso modo el parche permite, amén de esta vista alternativa, exportar los datos alojados en ella a texto plano y a HTML muy sencillo (con los comandos "export document to HTML..." y "export document to text..." del menú "archivo"), copiar al portapapeles la página que muestra el visor accesible (con la opción "copy access page to clipboard" del menú "edición"), y elegir los elementos de texto o navegación que se desea tener en pantalla (localizados en el menú "ver" o en las preferencias que cuelgan del menú "archivo"); en varias ocasiones hasta ahora, hablando de la obtención del texto de un archivo, hemos dado a entender que no todo él es recuperable, lo que tiene una explicación bien simple: algunos documentos PDF, nuestro DOC9 es un claro exponente, no se han originado en editores de datos literales (como por ejemplo Microsoft Word) para luego ser convertidos, si no que son en su totalidad o en parte imágenes digitalizadas directamente desde un escáner que no han sufrido ningún paso intermedio de reconocimiento óptico de caracteres y que, por tanto, se tratan como gráficos a todos los niveles, no siendo capaz ningún programa estándar intérprete del formato PDF de extraer de ellos nada aprovechable para un lector de pantalla (más adelante veremos otras soluciones disponibles).
   La mecánica para leer un archivo PDF en las condiciones descritas es como sigue: en primer lugar se abre tal archivo de forma ordinaria, o sea con el comando "abrir..." del menú "archivo" o pulsando su tecla de atajo que es Ctrl+"O"; ya en pantalla el documento en su vista estándar, se accederá al submenú "Acrobat Access choices" que cuelga del menú "ver", para activar la vista accesible normal ("access view only", que también puede llamarse con las teclas Ctrl+"4" alfanumérico), la vista accesible implementada ("access and addition view", con tecla rápida Ctrl+"5" alfanumérico) o retornar a la vista estándar ("standard view only", atajo con Ctrl+"E"). El primero de estos dos modos de presentación, que es el más recomendable, sólo construye un cuadro con el volcado del documento en memoria, mientras que el segundo añade otros cuadros con información sobre elementos especiales que pueda contener ese documento y que generalmente son de escaso interés; en ambas vistas, si el archivo dispone de un índice, se crea un panel suplementario que lo contiene y que puede ocultarse con la opción "page only" del menú "ver" (accesible con Ctrl+"6" alfanumérico), para volverse a mostrar en cualquier momento con "bookmarks and page" del mismo menú (con tecla de atajo Ctrl+"7" alfanumérico). Navegar entre los paneles existentes para leer los diferentes datos que visualizan se realizará de este modo: para ir al texto del documento se pulsará Alt+"C", para consultar la página en uso Alt+"N" seguida de F10 (esto último a causa de que la primera pulsación entra en conflicto con la asociada a la apertura del menú "ventana"), para acceder al índice Alt+"B" y para ver los datos de controles adicionales Alt+"A"; cuando se lee el texto de un archivo, Ctrl+PáginaArriba y Ctrl+PáginaAbajo cambian a su página anterior y siguiente, y si se les añade la tecla Mayús van a la primera y a la última respectivamente; si el documento contiene elementos especiales, Tab y Mayús+Tab avanzan y retroceden entre ellos, utilizándose Intro para activarlos; en el panel de índices, "P" va al elemento de nivel superior, "F" va al primer elemento de nivel inferior o al indicador que lo anuncia, "N" va al siguiente elemento del nivel actual, "B" va al elemento anterior del nivel actual e Intro activa el elemento en uso; el resto de teclas no universales del entorno Windows pueden consultarse en inglés con el comando "show access keys" del citado submenú "Acrobat Access choices", o pulsando Ctrl+"9" alfanumérico.
   Todo lo expuesto hasta ahora demuestra que trabajar con la versión 4 de Acrobat Reader es para una persona ciega mucho más sencillo que hacerlo con ediciones posteriores, pero la enorme ventaja que se obtenía con el uso de Acrobat Access, incomprensiblemente suprimida cuando este parche dejó de distribuirse, era que los documentos protegidos contra copia o extracción de contenidos literales podían igualmente ser accedidos en la vista especial de sólo texto; en efecto, nuestro DOC3 que si se recuerda tenía desactivadas las características de accesibilidad, es íntegramente legible con esta solución aunque, con toda lógica, no puede enviarse ninguna parte de su contenido al portapapeles ni exportarse a texto o a HTML; como todo tiene su parte negativa, esta ayuda sólo estará operativa en los documentos que no requieran versiones superiores del lector de Adobe para ser interpretados, si bien es de notar que en un mismo Windows pueden convivir Acrobat Reader 4.0 y, por ejemplo, la versión 5.1 que ya no deja ver archivos protegidos si no es directamente en pantalla. Volviendo a Acrobat Access, otra de sus funciones (hoy día bastante mejorada como se vio en el apartado 2.1) era la posibilidad de elegir entre dos métodos de ordenación para el texto hallado en un archivo: orden inferido del documento ("standard order", que se activa con Mayús+Ctrl+"H") y orden deducido en un proceso semejante al OCR ("enhanced order", accesible con Mayús+Ctrl+"Z"), ambas opciones disponibles también en el conocido submenú "Acrobat Access choices"; la documentación de Adobe recomienda quedarse con el orden estándar, recurriendo al mejorado en documentos complejos (con columnas u otros diseños especiales de presentación), mas las pruebas que hemos realizado demuestran que la segunda modalidad tenía todavía que perfeccionarse mucho, si bien los resultados logrados con la primera son más que interesantes; he los aquí:

   En esta prueba y en las siguientes que realicemos debe tenerse en cuenta que, a la hora de extraer contenido literal de un archivo PDF, el éxito no depende sólo de la calidad del programa responsable de hacerlo, si no también de cómo el autor de tal archivo lo ha estructurado y especialmente de las capacidades con que contaba el conversor que ha generado su versión final, ya que algunas de estas aplicaciones son antiguas o muy elementales, por no poder asumir sus usuarios el coste de soluciones más profesionales, y realizan un trabajo poco esmerado. Decir que todas las características presentacionales y visuales de Acrobat Access pueden ser configuradas como predeterminadas a la hora de cargar los documentos, ajustando los parámetros contenidos en el cuadro que aparece al ejecutar la opción "Access..." del submenú "preferencias" situado dentro del menú "archivo"; como las posibilidades de este parche accesorio son muchas y nos alargaría más de la cuenta el describirlas a fondo aquí, recomendamos leer detenidamente su documentación (en inglés) que puede conseguirse abriendo el menú "ayuda" del programa Acrobat Reader, y localizando el comando "Acrobat Access" situado en su submenú "ayuda de plug-in".

2.3.- «ADOBE READER» CON UN LECTOR DE PANTALLA

   Todos los lectores de pantalla para ciegos y sordociegos más comercializados hoy día, e incluso algunos no tan vendidos o con capacidades menos profesionales, cuentan con soporte para acceder a los archivos PDF siempre, eso sí, basándose en los datos que reciben de los programas intérpretes fabricados por Adobe; por este motivo, y también para no extendernos demasiado en explicaciones al fin y al cabo secundarias si se sabe emplear con un mínimo de soltura un producto de accesibilidad de tales características, en este apartado sólo haremos referencia a los lectores de pantalla de las empresas Freedom Scientific (JAWS for Windows) y Dolphin Computer Access (Supernova y Hal), únicos traducidos al español hasta la fecha y con mayor número de usuarios en todo el mundo.
   El mejor aliado, con diferencia, para leer archivos PDF usando un revisor de pantalla hablado o en Braille es Acrobat Reader 4.05 con su parche de accesibilidad, que además de todas las ventajas descritas en el apartado anterior no presenta problemas durante su carga, lo que no ocurre en versiones posteriores donde ésta es lenta (mucho en la 6.0) y causa frecuentemente bloqueos y caídas injustificadas del sistema, a veces con corrupción de sectores del disco duro que es bastante engorroso subsanar. A partir de las pautas de uso dadas en el apartado 2.2, sólo hay que aplicarlas junto con los comandos de teclado o visualizador Braille pertinentes a cada lector; en JAWS 3.71 y 4.02, además de las teclas convencionales de desplazamiento, Alt+CursorArriba, Alt+Cinco numérico y Alt+CursorAbajo leen por voz la frase anterior, actual y siguiente respectivamente, Ctrl+CursorArriba, Ctrl+Cinco numérico y Ctrl+CursorAbajo hacen lo propio con los párrafos, e Insert+CursorAbajo verbaliza desde la posición actual del cursor hasta el final del documento, no habiendo que preocuparse por pasar de página pues Acrobat Reader lo hace automáticamente cuando es menester, fenómeno que se advierte por medio de un pequeño aviso sonoro emitido por el altavoz interno del PC. En Supernova/Hal 4.5, lo más práctico es servirse del modo de lectura de documentos, al que se entra con Más numérico y se sale con Esc, que para quienes disponen de un resto de visión ofrece un seguimiento muy fiable en color invertido de las palabras que va verbalizando; en Supernova/Hal 5.2 se puede obtener una función equivalente, incluso algo mejorada, usando la lectura de documentos con el foco virtual, que se activa y desactiva con Más numérico; como estos productos no cuentan con teclas para navegar por frases y párrafos, deben usarse las teclas normales de habla y desplazamiento para ir leyendo el contenido de los cuadros de texto.
   Para trabajar con un lector de pantalla en las ediciones 5 y 6 del visor de documentos PDF diseñado por Adobe es vital, como ya dábamos a entender en el apartado 2.1, descargar la versión completa del mismo puesto que de utilizarse la reducida, que es la que se tiende a suministrar con preferencia por su menor volumen (en Adobe Reader 6.0 pesa la mitad que la otra), no estarán disponibles las características de accesibilidad como la exportación de contenidos literales a texto plano y la compatibilidad con Microsoft Active Accessibility, además de existir problemas en la entrega de datos al lector de pantalla que, por ejemplo, ocasionan que JAWS verbalice los textos sin acentos ni cualquier otro carácter especial como la "ñ". Con esto en mente, para acceder a un archivo PDF en la forma indicada bastará con abrirlo, con el comando "abrir..." del menú "archivo" (accesible con Ctrl+"O"), y terminada su carga empezar a valerse directamente de las distintas órdenes de verbalización repasadas en el párrafo que antecede y de las funciones para Braille; citar, en el siempre temido capítulo de problemas de accesibilidad, que por una razón desconocida e incomprensible los menús de Adobe Reader 6.0 no son estándares y, cuando contienen comandos deshabilitados, son erróneamente interpretados por los lectores para ciegos, que sufren pérdidas totales del enfoque y sólo pueden ser redirigidos mediante métodos de lectura directa de la información en pantalla, como el cursor de JAWS para este producto y el foco virtual en Supernova y Hal. Independientemente del programa de accesibilidad que se use, es útil saber que también aquí es válido un juego de teclas para moverse entre las páginas del documento cargado: Ctrl+PáginaAbajo va a la siguiente, Ctrl+PáginaArriba a la anterior, Mayús+Ctrl+PáginaAbajo a la última y Mayús+Ctrl+PáginaArriba a la primera; por otra parte, si se observa una especial lentitud en la carga de los documentos, se puede hacer que el visor los recupere página a página y no íntegros, lo que se ajustará en la pestaña "accesibilidad" del diálogo de preferencias, marcando la casilla de verificación "entregar datos en páginas si el documento sobrepasa las NN páginas", indicando un valor en el cuadro de edición que surge a continuación y validando los cambios con Intro (o "aceptar" si es visible); tras las pruebas realizadas en este terreno, no podemos menos que recomendar encarecidamente utilizar la función recién descrita, ajustando el número de páginas a contemplar al valor 1 (mínimo), pues ello evita numerosos bloqueos de la computadora sobre todo cuando se trabaja con lectores para ciegos.
   JAWS, desde su versión 3.71 (por tanto no en la 3.70), es capaz de descifrar los archivos PDF visualizados con Acrobat Reader 5 o superior, con ciertas mejoras en cada nueva actualización del producto; el acceso a los documentos, por lo que al usuario respecta, se verifica con la ayuda del denominado "cursor virtual", que es la herramienta con que JAWS transmite las páginas Web en lugar del modo ordinario de trabajo ("cursor del PC"), casi siempre activada por defecto y que se puede habilitar o deshabilitar con las teclas Insert+"Z"; a partir de aquí, cada vez que se cargue un documento o una nueva página (justo antes de lo cual se suele emitir por voz el mensaje "cargando página, espere por favor"), se verbalizará todo su contenido, a través del que se puede navegar tanto en Braille como con el habla usando las teclas de cursor y similares; las combinaciones Tab y Mayús+Tab avanzan y retroceden por este orden entre los elementos interactivos (enlaces, botones, campos...) que se hallen, Intro activa el control focalizado o, si es un campo de formulario, pasa al modo especial de JAWS que permite introducir datos en él, Más numérico vuelve al cursor virtual tras la operación anterior, Insert+F7 genera una lista con los enlaces del documento, y en definitiva el "modus operandi" viene a ser el aplicable a cualquier página HTML. Por lo que concierne a Supernova y Hal, poseen soporte para Acrobat Reader 5 y 6 a partir de sus versiones 5.0, una innovadora característica muy elaborada y de fácil uso pero que puede todavía operar de forma inesperada, especialmente si se trabaja con un Windows o el propio software de Dolphin traducidos a un idioma diferente del inglés, fenómeno en constante adecuación; la versión del lector/magnificador de pantalla recomendada, desde luego, es la más reciente, que en el momento de redactar esto es la 5.21, con los últimos parches de actualización descargables desde Internet aplicados, y debiendo además configurarse el programa de Adobe de modo que, en primer lugar, aparezca maximizado en pantalla, y después que las opciones "una sola página" y "ajustar a ventana" de su menú "ver" estén marcadas; ahora sólo resta leer lo que permitan las condiciones de acceso, utilizando por una parte las teclas intrínsecas del software de Adobe y por otra el modo de foco virtual que proporciona la adaptación de Dolphin, el cual se suele activar automáticamente al situarse en el panel de vista del documento, y hace un seguimiento visual de lo que va verbalizando aunque por líneas y no por palabras como es habitual en él; para los archivos que poseen diversas columnas, como nuestro DOC1, puede ser de gran ayuda conmutar entre los modos de lectura por fila o por columna (con las teclas CtrlIzq+"9" alfanumérico) y ver qué ocurre, siendo también útiles todas las funciones de control del foco virtual: Menos numérico para activarlo y desactivarlo (por ejemplo al ejecutar un comando del programa, que debe llamarse desde el foco real), Asterisco numérico para activarlo en el comienzo de la página cargada, y las numerosas pulsaciones que lo desplazan a lo largo y ancho de la pantalla o que le permiten interactuar con las aplicaciones y con el ratón.
   Cuando presentábamos la versión 6.0 de Adobe Reader en el apartado 2.1 de esta guía, hablábamos de una interesante implementación que había experimentado, relativa a la posibilidad de elegir entre tres opciones para ordenar el contenido literal de los documentos cargados, tanto a la hora de exportarlos a texto como de entregarlos a un lector de pantalla; explicábamos, concretamente en el último párrafo del citado apartado 2.1, la forma de acceder a esta característica, que resulta muy útil en archivos con estructuras complejas (tablas, múltiples columnas...) de difícil lectura secuencial, y sólo nos quedaba ponerla en práctica con el juego de documentos que tenemos, viendo los resultados obtenidos en cada caso que pasamos a continuación a detallar; para abreviar las explicaciones que siguen, al orden de lectura que se dilucida del documento lo denominaremos simplemente orden "deducido", al que se recoge de izquierda a derecha y de arriba a abajo, "lógico", y por último al que se basa en la secuencia de impresión sin formato, "crudo":

   Muchos usuarios ciegos encuentran molesto que, cuando se disponen a descargar un archivo PDF desde una página Web, el sistema no les pregunte qué debe hacer con él sino que pase directamente a abrirlo, incluso dentro de la misma ventana del explorador, lo que en algunos casos bloquea cuanto menos de forma temporal el funcionamiento del equipo; esto, por suerte, tiene una solución, tras aplicar la cual el navegador mostrará la clásica pregunta de si se desea abrir el archivo en cuestión o guardarlo en disco. En Acrobat Reader 4 este cambio es tan simple como activar el menú "archivo", entrar en "preferencias" y luego elegir el comando "generalidades..." (todo ello tiene la tecla de acceso rápido Ctrl+"K"); se trata de desmarcar, en el diálogo que aparece, la casilla de verificación "integración de explorador de Web", validando después la acción con el botón "aceptar"; la modificación ya tendrá efecto desde ese momento. En Acrobat Reader 5 y 6 hay también que acceder al diálogo de preferencias, bien desde el menú "edición" o con las teclas Ctrl+"K", donde se escogerá con los cursores de arriba y abajo la página "opciones" (llamada "Internet" en la versión 6) en el selector que consta focalizado por defecto al entrar al cuadro; una vez aquí, deben retirarse las marcas de las casillas tituladas "mostrar PDF en explorador" y "comprobar la configuración del explorador al iniciar Acrobat Reader", dando por bueno el cambio con la tecla Intro pues este diálogo no muestra el botón de aceptación cuando se trabaja con resoluciones bajas de pantalla.

2.4.- LOS RECONOCEDORES DE CARACTERES «FINEREADER» Y «OMNIPAGE»

   La mayoría de programas OCR actuales de cierta potencia y renombre, méritos que ostentan con creces los dos de que pensamos hablar en este apartado, poseen además de un sin fin de funciones para analizar y descifrar documentos capturados mediante escáneres, una herramienta para tratar de extraer el contenido textual de los archivos PDF, encaminada sobre todo a cubrir la interpretación de aquellos cuyos datos son exclusivamente gráficos, de los que los lectores estándar para estos documentos no son capaces de sacar otra cosa que información visual; los programas de reconocimiento asistido de texto pensados para personas ciegas o con dificultades de aprendizaje, como el más que popular Open Book de Freedom Scientific o la no tan conocida pero sí muy potente gama de la empresa Kurzweil Educational Systems, contemplan también esta mejora en sus versiones más recientes dado que, de hecho, se suelen basar en OCR's convencionales. Como tratar de todos estos productos alargaría mucho la explicación y en realidad lo que pretendemos es dar una idea de sus capacidades y de cómo deben usarse, constituyendo una ayuda más para la lectura de documentos en el formato propietario de Adobe, aquí trataremos sólo del OmniPage, producto muy popular aunque de precio bastante elevado, y del FineReader, no tan conocido aunque de un tiempo a esta parte muy valorado por su alta calidad y coste asequible; el primero lo fabrica la compañía estadounidense ScanSoft (ir al sitio Web de ScanSoft), se puede hallar en casi cualquier tienda importante de informática y actualmente contamos con la versión 12.0, mientras que el segundo proviene de la empresa rusa ABBYY (ir al sitio Web de ABBYY), no ha mucho ha visto la luz su versión 7.0 (que aquí usaremos), y desde hace muy poco puede adquirirse en España y Latinoamérica a través del distribuidor Danysoft Internacional (ir al sitio Web de Danysoft).
   En OmniPage Pro 12 son muchas las funciones que permiten manipular PDF's, no sólo para volcar su contenido en una ventana de texto sino también para crear nuevos archivos de este tipo a partir de imágenes escaneadas, mas aquí vamos a centrarnos de forma breve en su método más simple para leerlos; una vez cargado el OCR sin documentos abiertos, lo primero que debe hacerse es acceder a su menú "proceso" (por ejemplo con las teclas Alt+"P"), abrir el submenú "obtener página" (atajo con "O") y aquí ejecutar el comando ""cargar archivo de imagen" (letra "A"); se muestra ahora el clásico diálogo para la apertura de ficheros, donde primero se seleccionará el elemento "archivos PDF (*.PDF)" en el cuadro de lista "archivos de tipo", luego se buscará o tecleará directamente el nombre del que se desea procesar y finalmente se validará la petición con "aceptar". Tras un intervalo de espera, que según la velocidad de la máquina y el peso del fichero puede prolongarse por unos minutos (su término se advertirá cuando la opción "cerrar" del menú "archivo" deje de estar deshabilitada), ya aparecerá en pantalla la imagen correspondiente a la primera página del documento solicitado; el reconocimiento de caracteres propiamente dicho se lanzará ejecutando el comando "iniciar procesamiento automático" (tecla de atajo "I") del ya conocido menú "proceso", que mostrará un diálogo donde se interroga al usuario sobre si desea agregar más páginas al lote a descifrar, leer de nuevo las que tiene en memoria o continuar con la operación, eligiéndose la tercera alternativa mediante el botón "finalizar procesamiento de páginas actuales" (teclas Alt+"F"). El sistema inicia pues una nueva tarea algo más corta que la última efectuada y cuya terminación quedará señalizada por la aparición de un diálogo llamado "verificador de OCR", que avisa de faltas ortográficas detectadas y que cerraremos con Esc para agilizar el trabajo; si no existieran errores en el reconocimiento, caso como quien dice imposible, esta última acción no sería necesaria, y se llegaría, tras un instante de espera variable en función de las páginas a revisar, al siguiente paso que consiste en almacenar los resultados obtenidos; esto solamente asocia manipular el clásico diálogo "guardar como" de Windows, dando un nombre al archivo, seleccionando su formato entre los numerosos que proporciona OmniPage y validando la operación con "aceptar", tras lo que ya se puede cerrar el documento en uso o toda la aplicación desde su menú "archivo", no grabando en el segundo caso ninguna información generada como se propone en un cuadro de diálogo que surge a tal efecto.
   Utilizar de buenas a primeras un programa OCR para acceder al contenido de archivos PDF es lo que popularmente se daría en llamar "matar moscas a cañonazos" pues, como ya hemos visto y como seguiremos estudiando, existen numerosas herramientas más eficaces, baratas y sobre todo rápidas para obtener iguales o mejores resultados; sólo, y siguiendo con las frases hechas, "el fin justificaría los medios" si las demás soluciones fallaran, que aquí en la mayoría de casos es cuando los documentos están protegidos o no contienen texto sino que son en sí imágenes escaneadas. Con OmniPage hemos podido abrir satisfactoriamente los documentos de nuestro juego de pruebas que vamos a llamar normales, o sea todos menos DOC3, DOC4 y DOC9, que se leen bastante bien en general aunque no como con Adobe Reader 6, pero sin fallos extraordinarios; los que poseen muchas páginas han tardado lo suyo en procesarse, pero ello puede tener solución si se sabe a cuáles de ellas se desea acceder, porque en el diálogo de apertura de archivos es posible elegir un rango de páginas a considerar; por otra parte, los documentos que estaban escritos en catalán no se reconocían bien al no venir este idioma marcado por defecto para tomarse en consideración, cosa que se puede variar desde la página "OCR" del diálogo que contiene la configuración del programa, accesible directamente a través del submenú "opciones" dentro de su menú "herramientas". Con los documentos restantes ha ocurrido lo siguiente: DOC3 por primera vez ha podido ser volcado, el reconocedor ha tratado de penetrar en DOC4 pero al cabo de varios intentos ha concluido que "no puede leer este formato de archivo de imagen", y DOC9 también se ha dejado escarbar por el motor de análisis de imágenes; el antes protegido DOC3 se lee ahora aceptablemente (tiene pequeños errores ortográficos y le falta alguna palabra), no habiendo confusión en su contenido porque era como quien dice un texto sin formato..., en otro caso seguro que estaríamos hablando de problemas pero más adelante seguiremos viendo soluciones a esta situación; cuanto a DOC9, se trataba de una fotocopia ya de por sí con mala letra y además deficientemente digitalizada, por lo que a pesar del no poco tiempo (ello se asocia al esfuerzo) que OmniPage ha invertido en descifrarlo, es prácticamente ilegible si bien, que era el objetivo real aquí, lo acepta para procesarlo y si tuviera mejor calidad (insistimos que está muy corrupto) sin duda se aprovecharía plenamente.
   Si hablamos de FineReader Professional 7.0, éste cuenta de igual modo con diversas utilidades para manipular archivos PDF, así como con una herramienta bastante fácil de usar para leerlos, de la que ofrecemos una rápida síntesis; hay en este caso que cargar el OCR y, ya en pantalla con un documento en blanco (aquí los llaman "lotes" y se crean con Ctrl+"N" o "nuevo lote" del menú "archivo"), ejecutar la opción "abrir y leer" de su menú "procesar" (indicada como "open&read" por un fallo en la traducción, y accesible con las teclas Mayús+Ctrl+"D"), que mostrará el ya consabido diálogo en el que se buscará o tecleará el nombre del fichero deseado, valiéndose si es menester del selector de tipos para filtrar sólo los PDF, y dando por buena la entrada con el botón "aceptar". Tras un muy prolongado tiempo de proceso, que desaconseja esta solución si es mucho el volumen de datos a manipular o poco potente la máquina donde se piensa hacer, aparecerán visualizadas diversas imágenes correspondientes a páginas del documento y texto hallado en ellas, lo que se advertirá porque, en la configuración predeterminada del OCR, el foco cae en una subventana llamada "texto", y si no porque dejan de mostrarse los mensajes de progreso que anteceden a tal situación o por el cese de actividad del disco duro de la máquina; sólo resta la única fase breve de toda la operación, almacenar los resultados obtenidos, que se efectuará con el comando "guardar texto como..." del menú "archivo" (teclas Ctrl+F2), donde una vez más en el diálogo estándar para estos casos se elegirá un nombre de fichero, un formato, se escogerá la opción "todas las páginas" en el grupo de botones "guardar páginas" (esto es muy importante porque de no hacerse sólo se grabaría una que acostumbra a ser la última), y se aceptará la entrada que será procesada en seguida (suele surgir un indicador de progreso), tras lo que se puede abandonar el trabajo con "cerrar lote" del menú "archivo" e incluso salir del reconocedor de caracteres.
   Hasta aquí lo negativo de FineReader, sintetizado en su extrema lentitud de proceso, pues en lo que queda hemos observado considerables diferencias con respecto a los logros de OmniPage, es verdad que no siempre para bien, y algunas ventajas frente a soluciones descritas en otros apartados; así, una vez instalados los paquetes de reconocimiento para idiomas distintos del inglés, que al revés que en OmniPage sólo pueden activarse de forma individual (nunca varios a la vez), concretamente tras crear un nuevo lote y en la página "reconocimiento" de las opciones del programa que se muestran con Mayús+Ctrl+"O" (o desde su menú "herramientas"), hemos podido analizar nuestro juego de archivos para pruebas. En los documentos que llamaríamos polémicos, FineReader ha extraído un texto de mucha mayor calidad que el de OmniPage en DOC9 (que sigue siendo de muy árdua lectura pero su contexto ya se llega a entender), tampoco ha podido acceder a DOC4 tras mucho intentarlo, y en DOC3, que se ha dejado explorar sin problemas, ha devuelto textos legibles pero bastante llenos de errores, cosa que no deja de ser curiosa; pero lo sorprendente de veras ha sido cómo ha quedado DOC1: perfectamente descolumnizado y ordenado, muy bien reconocido el texto (hay algún pequeño error) y, lo mejor de todo, sin la corrupción que otras pruebas han generado en sus pies de página, que aún no son exactos pero casi; todos los demás documentos, destacando el complicado DOC2, se han reconocido y descolumnizado con éxito, lo que no nos resulta difícil de creer dada la notable potencia de este OCR, que es por ahora el mejor del mercado. En resumen, la solución de adquirir un OCR sólo para descifrar archivos PDF no es aconsejable por el coste que ello supone y porque no siempre da el mejor resultado, el cual de todos modos requiere su tiempo y su buena velocidad de procesador; sin embargo, si se usa un OCR de forma habitual para leer textos escaneados, es positivo probar sus capacidades con los documentos PDF dado que pueden aparecer interesantes sorpresas en su interpretación que quizás no sea posible obtener por otras vías.

2.5.- «ADVANCED PDF PASSWORD RECOVERY PRO»

   Esta pequeña herramienta, que no podemos clasificar en ningún grupo de los dos anunciados en la introducción al presente estudio pues se trata de algo realmente fuera de los límites propuestos, lo que permite es tratar de recuperar las contraseñas de archivos PDF que no es posible recordar o simplemente que nunca se han poseído, para poder leerlos en algunos casos y para exportar su contenido a un formato diferente y más accesible en otros; el propósito único de esta ayuda es el descrito, ofrecer a los usuarios la posibilidad de encontrar palabras clave perdidas así como hacer legibles a colectivos especiales aquellos documentos que lo son para el público en general pero no para ellos (éste es nuestro caso), quedando expresamente prohibida cualquier otra utilización encaminada a desencriptar información confidencial o sujeta a transacciones comerciales con fines ilícitos. APDFPRP, así se conoce al programa de forma abreviada, puede hallar al instante claves principales (las que secuestran el texto de un documento) y buscar claves de usuario (las que cierran todo acceso al mismo) en un diccionario interno, calcularlas a partir de ciertos criterios que se le indiquen, averiguarlas por medio de complejas operaciones matemáticas y, la solución infalible pero a veces humanamente no realizable, utilizar el método llamado "por la fuerza bruta", que consiste en ir probando una por una todas las combinaciones de caracteres posibles hasta dar con la correcta; decimos que este último método es humana, que no técnicamente inviable, porque la obtención de contraseñas largas, que supone ir combinando letras, números y símbolos en grupos cada vez mayores y no dejando una sola alternativa sin revisar, puede tardar meses e incluso años, tiempo que un ordenador debe permanecer encendido las 24 horas del día, por lo que sobra toda explicación acerca de su factibilidad...; en resumen, esta es una solución cuando se recuerda en parte una contraseña o al menos su tamaño, pero no cuando se desconoce más aún si puede tener por encima de seis o siete caracteres de longitud.
   APDFPRP es una aplicación shareware, es decir, de libre distribución y que opera con ciertas limitaciones de tiempo o funcionalidad hasta el instante de comprar una licencia de uso, que en el momento de redactar este informe tiene un coste de 60 dólares USA para fines no comerciales; el producto, con la interfaz pero no los manuales traducidos al castellano, ha sido diseñado por la empresa rusa afincada en Estados Unidos ElcomSoft, que se ha especializado en temas de desencriptación de archivos y en cuya página Web (www.elcomsoft.com) es posible descargar copias de evaluación de sus utilidades y adquirirlas si, una vez probadas, se cree pueden dar resultados satisfactorios. La interfaz del programa para liberar documentos PDF es muy poco accesible para usuarios con problemáticas visuales, especialmente si trabajan con un lector de pantalla, pues no posee menús y los controles que la forman, a la manera de un cuadro de diálogo, no pueden alcanzarse mediante ninguna combinación de teclas a pesar de funcionar de forma estándar una vez depositado el foco sobre ellos con el ratón; es, como decimos, una ventana que ostenta botones (todos gráficos), casillas de verificación, cuadros de lista y elementos ordinarios de un diálogo que son muy sencillos de manejar, además de un renglón superior de botones con título un poco a semejanza de una barra de menús.
   Para desencriptar un archivo PDF, a grandes rasgos, lo que hay que hacer primero es abrirlo, mediante el botón existente al efecto o indicando su ruta de acceso y nombre en el cuadro que hay a la izquierda de tal botón; lo siguiente, si sólo se desea dejar sin efecto una clave principal, será pulsar el botón de desencriptación que figura a la derecha del de apertura recién activado, el sistema preguntará la contraseña de usuario del documento si cuenta con una, y en todos los casos mostrará un diálogo donde se deberá escribir el nombre del nuevo archivo PDF ya sin protecciones para que el programa proceda a hacer una copia modificada del original en tal ubicación. Si se va a buscar una clave de usuario, la tarea consiste en seleccionar el método de averiguación que se empleará (fuerza bruta, diccionario, cálculo...) y ajustar sus opciones asociadas, como la longitud de la contraseña, los caracteres a considerar, el valor de clave inicial, etc.; tras esto sólo queda pulsar el botón de procesado, situado en la barra superior, y confiar que la búsqueda no tardará más allá de unas cuantas horas en el mejor de los casos; la operación se puede detener en cualquier momento mediante el botón correspondiente también hallado en la barra superior, guardando los parámetros establecidos y últimos resultados logrados en un fichero especial del programa para retomar el trabajo más tarde. Valga decir que APDFPRP, mientras está localizando claves de usuario, ofrece mucha información práctica acerca de la prueba que realiza, el tiempo transcurrido desde su comienzo, el tiempo estimado para terminar el proceso, medias aritméticas relacionadas, etc.; citar por último que la versión actual de esta herramienta (2.12) no puede descifrar archivos protegidos con algoritmos que no sean el estándar de Adobe, ni tampoco aquéllos que hayan sido generados con la versión 5.0 o superior de Adobe Acrobat.
   Ya tenemos toda la información teórica para enfrentarnos a esta aplicación, pero ¿qué resultados reales hemos podido sacar de ella?...; en nuestro juego de documentos para pruebas tenemos dos, DOC3 y DOC4, protegidos respectivamente con una contraseña principal y otra de usuario; hemos comenzado por lo fácil, probar suerte con DOC3 que podíamos abrir con el lector estándar de Adobe para sólo leerlo directamente en pantalla, y que tras la actuación de APDFPRP ya tenemos autorización para volcar en el portapapeles de Windows y exportar a texto plano, luego realmente nos ha sido útil. DOC4 es otro cantar porque no lo podemos siquiera abrir, mas nos hemos propuesto localizar su contraseña y he aquí el camino recorrido en pos de tal objetivo; la documentación del desencriptador asegura que el cálculo matemático de claves tiene un 100% de probabilidades de éxito, con la desventaja de que toma más tiempo cuanto mayor es el tamaño del archivo que se le va a someter; DOC4 mide cerca de 1,2 megabytes (no es pequeño), y la estimación del tiempo previsto para su desencriptación con un equipo Pentium III a 1,4 GHz. era mayor de doce días, por lo que tras dejar al sistema trabajar durante un par de horas sin cambios favorables tuvimos que deshechar esta vía. Sólo nos quedaba probar suerte con la búsqueda de claves por la fuerza bruta, que iniciamos considerando las letras mayúsculas, las minúsculas y los números del 0 al 9, que por defecto no venían marcados pero que pensamos podían surgir; el sistema tardó un minuto y medio en descartar las claves de hasta cuatro caracteres, algo más de una hora con las de cinco posiciones, y para las de seis tenía estimados unos dos días y quince horas, pero la suerte quiso que la clave apareciera a los dos días, ocho horas y unos cuarenta minutos, tiempo que no fue el real porque el equipo se tuvo que usar para otros fines, con lo que la averiguación se realizó en algo más de una semana. Por suerte la clave, que era "21SL84" (valor alto ya que los números se procesan en último lugar), tenía seis caracteres y su tiempo de averiguación era razonable, cosa que no hubiera ocurrido de ser mayor (el sistema preveía unos seis meses para contraseñas de longitud siete), en cuyo caso obviamente hubiéramos tenido que desistir de dar con ella; una vez con la clave en la mano hemos podido abrir el documento que, como también (era bastante lógico) estaba protegido para no extraerse su texto, no nos ha sido posible leerlo hasta después de vuelto a entregar a APDFPRP para que lo liberara; es ahora a cada usuario juzgar si este programa tiene una utilidad real y, en ese caso, si la paciencia que requiere compensa con los resultados obtenidos..., nosotros pensamos que sí.

2.6.- LOS LIBROS ELECTRÓNICOS NO TRANSFERIBLES

   Además de los sistemas simples ya vistos de protección de documentos PDF, basados en contraseñas (Acrobat Security) o sólo en evitar que su texto pueda ser extraído, existen otros mucho más complejos implementados recientemente, de hecho sólo puede descifrarlos la versión 6.0 y sucesoras del lector de Adobe, pensados para garantizar la imposibilidad de duplicar las obras así distribuidas, de modo que sólo quien las ha adquirido puede hacer uso de ellas y, si opta por cederlas a otra persona, pierde a partir de entonces todo derecho de acceso a su contenido. El más usado de estos métodos de encriptación es el Adobe DRM, siglas que corresponden en inglés a Digital Right Management (en español Administración de Derechos Digitales), desarrollado como se puede ver por la empresa creadora del formato PDF, y sofisticado hasta el punto que puede asignar a los archivos fechas de vencimiento y límites de impresión de páginas por día; el DRM, a nivel general, puede definirse como la suma de tecnologías, herramientas y procesos que resguardan la propiedad intelectual durante las operaciones comerciales de contenidos digitales, y se puede decir que es la piedra fundamental del mercado emergente del libro electrónico (eBook), pues los eBooks no se consideran tales, sino simples documentos en soporte informático, sin la presencia del DRM; las bases para el establecimiento de este estándar fueron lideradas a principios de los años 2000 por la Association of American Publishers (AAP), editoriales representativas del mercado americano y mundial, autores, agentes literarios, empresas de tecnología de vanguardia y la consultora Andersen Consulting.
   Poco o nada es lo que podemos hacer cuando un archivo PDF de este tipo, tan fuera de lo común que no lo hemos tenido en cuenta para el juego inicial de pruebas en que se basa este trabajo, cae en nuestras manos y no ha sido adquirido directamente por nosotros: el método de cifrado con que está provisto almacena datos del ordenador u otro dispositivo donde, desde Internet, fue descargado, de forma que por muchas copias que se hagan de él a otros soportes, nunca podrá ser visualizado en una máquina distinta excepto que se gestione tal autorización con el vendedor que lo proporcionó; si tratamos de abrirlo conscientes de esto recibiremos reiterativos mensajes donde se nos brinda ayuda en línea, la posibilidad de conectarse a un servidor para activar el documento o cambiar sus permisos de uso, denegaciones de acceso y en definitiva errores y alertas de las que no pasaremos; con versiones anteriores de Acrobat Reader el sistema no será capaz de reconocer la codificación del documento y así nos lo hará saber en seguida. Casi sobra decir que este tipo de documentos son completamente inaccesibles para lectores de pantalla y cualesquiera otras herramientas de extracción de contenidos literales: su texto puede verse directamente, incluso algunos tienen buena configuración de fuentes si han sido pensados para ser leídos en el ordenador, pero todos los permisos de obtención de éste están denegados por el autor; el problema, por eso, comienza mucho antes: pasando por alto las barreras de accesibilidad de que pueda adolecer la página Web donde se pretende adquirir el libro, que seguro no son pocas si pensamos en que la consideración que se ha tenido cuanto a que las personas ciegas puedan acceder a los archivos descargados de ella es nula, cuando finalmente hacemos el último clic para que éste baje o, en su caso, cuando lo abrimos desde Adobe Reader, se efectúa un prolongado intercambio de datos, que no lo es menos para quienes disponen de conexiones rápidas a la red, entre nuestra máquina y el servidor en el que se comprueban diversos aspectos de la configuración, se recoge toda la información posible sobre el usuario y se encripta el documento que ha recibido con el fin que antes describíamos.
   Antes de seguir, y mal que nos pese, hemos de desaconsejar de todas todas la compra de esta clase de material a los usuarios discapacitados visuales, pues es evidente que aunque pueda encontrarse alguna solución que permita acceder a él, ésta no es ideal y, siendo sensatos, debemos hacer patentes nuestros derechos ante la sociedad y ello puede pasar por castigar, dicho sea entre comillas, a las empresas que por el fin único del lucro levantan muros que son para nosotros infranqueables; capítulo reivindicativo aparte, sólo va a ser posible, con una buena dosis de suerte, leer los documentos encriptados que tengan permisos de impresión, o sea, cuyo contenido pueda ser íntegra, que no parcialmente, volcado en papel; de esto deberemos asegurarnos bien antes de hacer la compra, consultando las veces que haga falta al proveedor y, con ella ya en el ordenador, optar entre las dos alternativas siguientes. La más sencilla pero también engorrosa, laboriosa y cara pasa por imprimir en tinta todo el libro, sin más ni más, y después entretenerse a escanearlo para que un programa reconocedor de caracteres (OCR) lo interprete y convierta a texto, cosa que debería dar el resultado apetecido; la otra solución, más simple en todos los aspectos pero de la que no podemos dar tantas garantías de éxito, pues se combinan varios factores susceptibles de ser conflictivos, es enviar el documento a una impresora virtual que genere archivos en un formato distinto que después puedan ser igualmente pasados a un OCR, a ser posible de los más potentes, para que dictamine sobre su legibilidad; vamos a hablar de un programa concreto del tipo propuesto, pdfMachine, si bien nos consta que existen numerosos, no hay más que entrar en cualquier buscador de software gratuito o para evaluación, pero éste nos parece suficiente y bastante eficaz para el fin con que nos proponemos emplearlo.
   BroadGun Software (ir al sitio Web de BroadGun Software) es una empresa australiana especializada en soluciones de programación asequibles y de fácil manejo, sobre todo en el área de Internet para el uso doméstico o del pequeño negocio, cuyo producto estrella es pdfMachine, el cual cuenta con versiones en inglés, alemán, francés y español, y tiene un precio de 49 dólares USA, si bien puede ser usado de forma gratuita con pocas limitaciones; se trata de un controlador (driver) de impresión, muy sencillo de instalar y de utilizar, que genera casi al instante archivos PDF de alta calidad y tamaño reducido desde cualquier aplicación para Windows que sea capaz de conectarse con una impresora; fuera de otras facilidades que posee, como la inclusión de fuentes TrueType en los documentos que produce y la capacidad de integración con programas de correo electrónico para poderlos enviar por este medio, nos interesa saber que la versión gratuita (llamada pdfMachine White) no tiene ninguna restricción de uso y sólo se diferencia de la comercial en que coloca en cada página de los archivos resultantes un logotipo del producto, cosa que en principio no afecta a su posterior lectura. El proceso para tratar de rescatar un eBook ilegible con la ayuda de pdfMachine no puede ser más simple: una vez abierto aquél y por tanto con Adobe Reader en pantalla, solicitaremos su impresión (desde el menú "archivo" o con la tecla universal Ctrl+"P"), lo que mostrará un diálogo de parámetros con el foco sobre un cuadro de lista que permite seleccionar a qué dispositivo se desea enviar los datos, que usando los cursores de arriba y abajo deberemos situar en "BroadGun pdfMachine", validando la petición con el botón "aceptar" o pulsando Intro; surgirá una ventana de resultados perteneciente a la aplicación citada, por cierto muy poco accesible, pero en la que mediante las teclas Ctrl+"S" podrá almacenarse el archivo generado, usando el diálogo estándar que tiene Windows para estas ocasiones, tras lo que podrá cerrarse esa ventana con Alt+F4; como producto de estas operaciones habremos obtenido un archivo PDF gráfico, completamente inaccesible por la vía normal (si trata de extraerse su contenido literal aparece vacío o, peor aún, sólo se lee una sucesión incoherente de símbolos), pero que sí puede ser entregado a un programa reconocedor de caracteres, como los que se citan en el apartado 2.4 de esta guía, y tal vez acabar obteniendo por medio de él el texto íntegro del libro electrónico; como hemos dicho no es una gran solución pero, hasta que no surjan de mejores, cuanto menos funciona...

3.- APLICACIONES ESPECIALES PARA LEER ARCHIVOS «PDF»

3.1.- «PDF MAGIC» DE «PREMIER ASSISTIVE TECHNOLOGY»

   Esta compañía (ir al sitio Web de Premier Assistive Technology), antes llamada Premier Programming Solutions, está afincada en los Estados Unidos y se dedica a diseñar y vender aplicaciones que faciliten a las personas con discapacidad el desempeño de diferentes tareas, básicamente de lectura y aprendizaje, por medio de un ordenador personal: acceso a documentos, ampliación de imágenes escaneadas, conversión de textos a voz, etc.; todo ello se realiza buscando siempre la sencillez de manejo y sobre todo un coste muy reducido, objetivos que se cumplen con creces dando como fruto una serie de herramientas que, sin ser altamente sofisticadas ni profesionales, resuelven unas necesidades elementales y no requieren un complejo entrenamiento para ser manejadas. El programa del que vamos a hablar, PDF Magic, cuya versión 3.0 está viendo la luz en el momento de escribir esto, permite convertir archivos PDF de por sí inaccesibles a una decena de formatos de fácil lectura (HTML, RTF, MS Word, texto plano...), pudiendo soportar hasta 155 idiomas y usando una tecnología de reciente creación (Exact Match) que mantiene la estructura del archivo original en el documento convertido; actualmente, el precio de la versión estándar y única de este programa (antes había otra profesional cuyas capacidades ya reúne la nueva) es de 59,95 dólares USA, pudiéndose comprar al fabricante a través de su sitio Web, lugar desde el que también es posible descargar copias de evaluación de sus productos.
   Nada relevante hemos de decir del proceso de instalación de PDF Magic: al introducir el CD-ROM en que se suministra, se carga un asistente para tal fin, totalmente estándar, donde sólo se pregunta en qué carpeta se desea copiar y qué grupo de programas lo ha de contener; terminada esta tarea, se habrá creado en el menú "inicio" de Windows un apartado de accesos directos llamado "PDF Magic 3", que será desde donde lo tendremos que ejecutar, y que contiene también su manual del usuario (sólo en inglés, como toda la aplicación) en formato MS Word. Al entrar a la herramienta, lo primero que advertimos es su elaborada accesibilidad, pues los lectores de pantalla interpretan perfectamente sus controles y cuenta con iconos grandes que ilustran aquéllos a los ojos de los usuarios con resto visual; existen tres maneras (a través de menús, con teclas rápidas o por navegación en un cuadro de diálogo) de operar con PDF Magic, describiendo nosotros la tercera que tal vez sea la más lenta pero en ella apreciaremos mejor las capacidades del conversor. Para quienes deseen trabajar usando teclas rápidas, decir ahora que Ctrl+"O" permite seleccionar el archivo a abrir, con Ctrl+"C" se cambia el nombre del fichero destino (por defecto tiene la misma ruta y nombre que el de origen, con la extensión correspondiente al tipo resultante que se escoja), Ctrl+"S" inicia la conversión propiamente dicha y, como en casi todos los programas para Windows, F1 muestra el suplemento de ayuda del sistema y Alt+F4 regresa al escritorio.
   La pantalla principal del programa, con su barra de menús y sus iconos, es en sí un cuadro de diálogo a pesar de que se puede maximizar para comodidad del usuario, pero funciona de forma que el foco se desplaza entre sus controles usando Tab para avanzar y May+Tab para retroceder; bien, la operación da comienzo en la parte derecha de la ventana, justo debajo de las barras de herramientas y de menús de la aplicación, donde debe pulsarse un botón llamado "select PDF file" (atajo con Alt+"S" una vez y luego Espacio), lo que mostrará el clásico diálogo de Windows para la apertura de archivos, que se manipulará y validará en la forma ya conocida. Pulsando Tab se llegará a la lista de formatos de salida, que se irá cambiando con las flechas de arriba y abajo; otra vez Tab nos lleva al selector del idioma en que está escrito el texto a procesar: se puede elegir, también usando CursorArriba y CursorAbajo, entre 114, incluidos naturalmente el español, el catalán, el vasco y el gallego; como los idiomas no están en orden alfabético, lo más rápido para localizarlos es ir pulsando su letra inicial hasta que aparezcan, oprimiendo primero la tecla Inicio para situarse al comienzo de la lista; para llegar al español introduciremos una vez la letra "S", para el catalán tres veces la "C", para el vasco cinco veces la "B" y para el gallego dos veces la "G". Tab nos lleva a un cuadro de sólo lectura que muestra la ruta y nombre del archivo destino, generados a partir del de origen y que se pueden cambiar mediante el botón que sigue, que también es accesible con Alt+"S" por lo que el foco puede caer allí erróneamente al buscar el selector de archivo origen; tres casillas de verificación para controlar aspectos de presentación y funcionalidad, que no tienen mayor importancia, terminan el recorrido.
   Finalizados los preparativos, se iniciará el proceso con el comando "start process" del menú "file", haciendo clic en el icono correspondiente de la barra de herramientas o usando las teclas Ctrl+"S" antes citadas; la conversión puede tomar bastante tiempo según el volumen de datos a procesar y un par de parámetros que se establecen desde la opción "options" del menú "settings", que no juzgamos de interés; en cualquier caso, cuando la tarea ha finalizado se advierte claramente porque se muestra el resultado con la aplicación que por defecto utilice Windows para ver los archivos del tipo solicitado. ¿Y qué hemos obtenido de nuestro juego de documentos?..., un poco de todo pero en general textos de difícil lectura dado que el OCR que acompaña a PDF Magic es bastante sencillo; comenzando con los documentos polémicos, DOC3 se ha dejado leer a pesar de estar protegido pero su texto es de muy poca calidad, DOC4 sigue no permitiendo acceder a él por su bloqueo con contraseña, y DOC9 se ha procesado pero, una vez más, ha dado un texto casi incomprensible; en los demás casos se han obtenido textos medianamente legibles, donde se comprueba la validez del soporte multilenguaje, pero existen problemas de descolumnización en algunos (como el complejo DOC2) y en general esperábamos una mejor calidad de OCR. La característica de preservar el formato del original en el archivo destino está bastante lograda: se incorporan los gráficos, se respetan las columnas y los tipos y tamaños de fuente se tienen en cuenta siempre que es posible (las opciones del programa antes citadas permiten ajustar algunos de estos aspectos); es de destacar que este conversor es capaz de descifrar archivos PDF antiguos y modernos, con todas las implementaciones que su codificación ha ido sufriendo a lo largo del tiempo, hecho que no deja de ser interesante y tal vez exclusivo de él, he aquí sin duda su mayor atractivo...

3.2.- «PDFALOUD» DE «TEXTHELP! SYSTEMS»

   Esta compañía (ir al sitio Web de textHELP! Systems), antes llamada Lorien Systems, se encuentra en Irlanda del Norte y desde mediados de los años noventa se ha especializado en el área de las soluciones innovadoras basadas en tecnologías del habla; su misión principal es proporcionar formas alternativas de acceso a la información para las personas con discapacidad, buscando la sencillez de manejo y un coste asequible, siendo de destacar sus herramientas para el aprendizaje de idiomas, sus lectores de documentos y sobre todo sus implementaciones para servidores Web que añaden voz propia a los sitios que deciden contratarlas. El producto del que trataremos seguidamente, PDFAloud, consiste en un accesorio (plug-in) para los lectores estándar de Adobe, que una vez instalado permite acceder por voz sintética al contenido de los archivos mostrados por aquéllos, ofreciendo seguimiento visual de los textos verbalizados y con diversas facilidades de pronunciación y reajuste de las voces; en el momento de redactar esto, existen versiones del programa en cuestión tanto para Windows como para MacOS (aquí sólo estudiaremos la primera), y ambas cuestan 59 libras esterlinas, pudiéndose adquirir o probar en la página Web de sus diseñadores.
   Hay que poner especial atención en el proceso de instalación de este accesorio para que dé el resultado esperado; en primer lugar se opera con normalidad en el clásico asistente por pasos, que surge al ejecutar el archivo obtenido del fabricante, pero cuando se pregunta en qué directorio se encuentra el lector de archivos PDF, viene por defecto el de Acrobat Reader 5.0 (primera versión soportada por PDFAloud), debiendo cambiarse si por ejemplo se usa Adobe Reader 6.0; en una configuración estándar, la primera carpeta que se pide, correspondiente a Adobe Acrobat (programa del que no disponemos), se pasará por alto, y la segunda que es la de Acrobat Reader se rellenará, para el ejemplo expuesto, con "C:\Archivos de programa\Adobe\Acrobat 6.0\Reader". Terminada esta fase, y por tanto con la herramienta ya instalada, se debe entrar en Adobe Reader y abrir su cuadro de configuración, con las teclas Ctrl+"K" o mediante el comando "preferencias" del menú "edición"; hay ahora que seleccionar la página "inicio" del diálogo (llamada "opciones" en Acrobat Reader 5.x), donde se revisará si la casilla de verificación "usar sólo plug-ins certificados" (sin la palabra "usar" en la versión 5) está desactivada, cambiando su estado si no es así y validando luego la modificación con el botón "aceptar", lo que requerirá rearrancar el lector de Adobe.
   PDFAloud interacciona con el usuario por medio de una barra de herramientas adicional que se coloca bajo la de menús que posee Adobe Reader; para mostrar esta nueva barra, si no aparece al abrir el programa que la ostenta, debe accederse al menú "ver" del mismo, en cuyo submenú "barras de herramientas" se marcará la opción "PDFaloud toolbar" pulsando Intro o el botón izquierdo del ratón sobre ella. He aquí, de izquierda a derecha, la lista de los botones que incluye la barra citada, con sus teclas de acceso directo correspondientes: leer la unidad (palabra, frase o párrafo) actual (Ctrl+Alt+"P"), leer la unidad anterior (Ctrl+Alt+","), pausar o retomar el habla (Pausa), leer la unidad siguiente (Ctrl+Alt+"."), detener por completo el habla (Alt+Pausa), seleccionar el texto por párrafos (Ctrl+Alt+"3"), activar y desactivar la función de hacer clic y leer (Ctrl+Alt+"C"); entre los dos últimos botones existe uno de tamaño menor que ostenta un pequeño triángulo orientado hacia abajo, al pulsar el cual aparece un menú de contexto con diversas opciones adicionales, una de las cuales ("expandir este botón") agrega los botones representativos de las restantes a la derecha del de parada (antepenúltimo), siendo éstos para seleccionar el texto por palabras (Ctrl+Alt+"1") y seleccionar el texto por frases (Ctrl+Alt+"2"), y operando sus teclas de atajo aunque no estén visibles.
   Las funciones de los botones descritos, junto con algunas otras de configuración y ayuda, se encuentran también en el menú "PDFaloud" situado a la derecha de todo en la barra de menús de Adobe Reader; el plug-in, por defecto, se instala con el motor de voz gratuito en inglés Microsoft Text-to-Speech, al que se puede añadir cualquier otro de la familia Lernout & Hauspie TTS3000, para diversos idiomas (uno de ellos el español) e igualmente gratuitos, no siendo compatible ningún otro sintetizador del habla; a través del diálogo que surge con el comando "speech options..." del menú "PDFaloud", es posible elegir la voz a utilizar y algunos parámetros de lectura y visualización; el cuadro "pronunciation options" también del menú "PDFaloud" permite crear una lista de palabras que deben ser verbalizadas de forma especial, distinta a como lo haría originalmente el motor de voz activo. Como este programa actúa a partir de los datos que recaba del lector de Adobe, no funciona con los documentos que tienen la accesibilidad denegada o que directamente están protegidos por contraseña, como tampoco con los íntegramente gráficos (caso de nuestros DOC3, DOC4 y DOC9); el manejo básico de la herramienta pasa por abrir el archivo que se desea leer y, con él en pantalla, escoger primero una unidad de selección (palabra, frase o párrafo) para después ir navegando por el documento de una en una con las teclas de lectura, que obviamente verbalizan aquello que se va resaltando.
   Hemos encontrado muy lograda la característica llamada "hacer clic y leer" que, tras ser activada con su tecla de atajo correspondiente (Ctrl+Alt+"C"), consiste en situar el puntero del ratón sobre aquella palabra, frase o párrafo que se desea escuchar y pulsar el botón izquierdo de aquél, lo que resaltará y verbalizará el fragmento en cuestión; la función se deshabilita con la misma combinación de teclas, lo que devuelve al ratón su cometido de señalador y activador de enlaces y otros elementos que puedan incluir las páginas cargadas. No tenemos nada nuevo que aportar sobre la lectura de nuestro juego de documentos, pues lo que aquí hemos obtenido es idéntico a lo descrito en el apartado 2.3 de esta guía; sólo destacar la precisión de PDFAloud a la hora de detectar las columnas de texto y, en general, de resaltar visual y verbalmente las divisiones en el mismo a partir de los criterios especificados por el usuario. Es, en resumen, una ayuda que por un coste mucho menor que el de un lector de pantalla permite acceder por voz a los archivos PDF con alguna facilidad para quienes tienen baja visión; para problemas como la interpretación precisa de documentos complejos, por ejemplo nuestros DOC1 y DOC2, no es apto puesto que de hecho no ha sido diseñado con tal finalidad.

3.3.- PROGRAMAS CONVERSORES DE DIVERSOS FABRICANTES

   En este subapartado, de una forma muy esquemática, vamos a describir una serie de herramientas que convierten archivos de tipo PDF a otros formatos de más fácil lectura y manipulación; por lo general no aportaremos nada nuevo ni de especial interés a lo ya reflejado en el presente estudio, pero pensamos que es positivo incluir esta información dada la popularidad que han alcanzado algunas de las aplicaciones que citaremos, y también para cubrir distintas áreas en la interpretación del tipo de documentos aquí analizado. Sigue, pues, una lista de estos productos ordenados de mayor a menor de acuerdo con sus capacidades y funcionalidad:
   1) SolidConverter PDF: SolidDocuments (ir al sitio Web de SolidDocuments), afincada en los Estados Unidos, es una firma comercial del grupo VoyagerSoft LCC, especializado en programas de uso sencillo para el manejo de documentos, que ha desarrollado diversas utilidades para producir publicaciones de calidad; SolidConverter PDF, su principal creación, permite recuperar y reutilizar el contenido de archivos PDF convirtiéndolos a los formatos DOC, RTF y texto Unicode, conservando la estructura, el estilo y las imágenes que conforman el original, e incluso permitiendo abrir o crear archivos del primer tipo desde Microsoft Word. La aplicación, con soporte multilingüe que incluye el español, tiene un diseño no estándar que reduce algo su accesibilidad, pero puede ser usada con ampliadores y lectores de pantalla sin demasiados tropiezos; a través de un asistente por pasos o de la modificación de datos en un par de cuadros de diálogo, se selecciona el archivo origen, la carpeta que contendrá el de destino, los criterios de construcción de éste a partir del primero (elementos flotantes, tablas, texto plano...), el rango de páginas a considerar y algún dato más de escasa relevancia como el espaciado entre caracteres, lanzándose seguidamente el proceso, casi siempre breve y en el que pueden aparecer avisos cuando los documentos son de mala conversión por usar fuentes especiales, por tener partes directamente escaneadas, etc. El resultado que hemos logrado al aplicar este conversor a nuestro juego de documentos ha sido realmente sorprendente; decir ante todo que DOC3, DOC4 y DOC9 no se han podido abrir, por no contener texto el último y por poseer una contraseña desconocida para nosotros, que SolidConverter nos solicita, los otros dos; los demás se han exportado muy bien, excepto tal vez DOC2 que tiene algunos casi lógicos fallos de descolumnización, pero lo insuperable ha sido el trabajo realizado con DOC1, que se ha convertido sin un solo error y que, por primera vez hasta ahora, lo hemos podido leer sin corrupción en sus títulos de apartado y pies de página. Decir que SolidConverter PDF, cuya versión actual es la 1.0 pero sufre constantes actualizaciones menores (build's), tiene un coste de 49,95 dólares USA, se puede comprar en la Web de sus diseñadores y que, en ésta, es posible también obtener copias de evaluación del mismo, operativas durante quince días, que convierten el 10% de cada documento que se les pasa.
   2) Gemini: Iceni Technology (ir al sitio Web de Iceni Technology), ubicada en el Reino Unido, es una empresa muy ligada a Adobe Systems Incorporated que, desde mediados de los años noventa, se ha especializado en soluciones de extracción o conversión de tipos de archivos electrónicos, fundamentalmente propietarios de la otra compañía citada; uno de sus productos estrella es Gemini el cual, integrado en Adobe Acrobat o como programa autónomo, convierte rápidamente documentos PDF de cualquier tamaño a varios otros formatos como HTML, Open eBook y texto plano con diversas codificaciones. La herramienta trabaja a partir de los textos que recogería Adobe Reader, pues usa su mismo método de extracción, cosa que para nuestro caso descarta a los documentos gráficos y protegidos, además de no aportar nada nuevo en la corrección de errores en los que se pueden exportar; de sus ventajas destaca la posibilidad de elegir el rango de páginas a procesar, la inclusión de las imágenes del original en el documento destino, el mantenimiento (dentro de lo posible) del formato del archivo propuesto en su versión ya convertida, y en general muchas facilidades para personalizar los resultados que entrega. En el momento de escribir esta información, el programa va por su versión 5.0, tiene soporte para Windows y para MacOS, y cuesta 159 dólares USA completo o 59 si se adquiere una actualización de versiones previas o de su predecesor Gemini Solo; del sitio Web del fabricante, que también es el principal distribuidor, se puede descargar una copia de demostración del producto que funciona sin límites de tiempo, insertando en los archivos generados caracteres "basura" en los textos y líneas de distorsión en las imágenes.
   3) Advanced PDF to HTML converter: IntraPDF (ir al sitio Web de IntraPDF), es una pequeña empresa supuestamente estadounidense (no aparece tal dato en ninguna de sus publicaciones), que desde finales de los años noventa ha creado algunas soluciones para la manipulación de documentos; APDF2HTML es su principal producto, que ha alcanzado cierta popularidad, y sirve para convertir archivos PDF en páginas Web, manteniendo en la medida de lo posible la estructura del original (imágenes, fuentes, columnas...) en el resultante. La interfaz del programa está formada por una especie de diálogo no estándar, accesible por lectores de pantalla pero algo más complejo para usuarios con baja visión, en el que se eligen las rutas de los archivos origen y destino, cómo actuar en caso de protección del primero, la composición del segundo (esencialmente si ha de basarse en marcos o no), etc., obteniéndose al final unos documentos muy bien diseñados, paginados y de fácil acceso; con nuestro juego de archivos para pruebas hemos tenido problemas al procesar los más complejos, sobre todo por la presencia de elementos especiales que se han interpretado mal (caso de DOC1), pero se nos ha permitido exportar DOC3 a pesar de estar bloqueado contra la accesibilidad, si bien DOC4 sigue sin poderse abrir (de hecho el programa ha causado un error de sistema y se ha cerrado de forma súbita al intentarlo). APDF2HTML, que actualmente está en la versión 1.5, tiene un coste de 49,95 dólares USA y se puede adquirir en el servicio de compra segura enlazado desde el sitio Web de su fabricante; IntraPDF ofrece copias de evaluación de este conversor, que pueden usarse durante 30 días y un máximo de 50 veces, produciendo documentos que incorporan enlaces o reclamos para adquirir o registrar el producto.
   4) PDF2TXT: en el sitio Web Empowerment Zone, página personal del estadounidense Jamal Mazrui con gran cantidad de material de todo tipo y muchas ayudas para personas discapacitadas, es posible descargar PDF2TXT, un conjunto de utilidades gratuitas y ficheros de comandos que convierten uno o varios archivos PDF a texto plano; se trata de una aplicación muy antigua, de hecho debe ejecutarse en la línea de comandos DOS (o en la ventana de MS-DOS que se abre desde Windows), pero tiene una característica especial que nos motiva a citarla. En efecto, este programa es capaz de procesar sin restricciones los documentos hasta la versión 1.2 del código PDF, o sea los creados con el estándar Adobe Acrobat 3.x o anterior, que aún hoy son bastantes aunque lógicamente cada vez menos; si estos archivos no están protegidos con contraseña de acceso (como nuestro DOC4), se exportarán aunque tengan denegada la accesibilidad, hecho que hemos comprobado con DOC3 que se ha volcado íntegramente. Por lo demás, los textos obtenidos están bastante bien descolumnizados y distribuidos pero no hay que olvidar que en documentos de este tipo no es mucho lo que se puede hacer para plasmar estructuras complejas de información; PDF2TXT, que obviamente es gratuito, se instala desempaquetando el archivo ZIP que lo contiene en una carpeta, a la que se deberá crear acceso permanente desde cualquier ubicación colocando una sentencia "PATH" en el fichero AUTOEXEC.BAT del sistema operativo.

3.4.- SERVICIOS PÚBLICOS DE CONVERSIÓN DE DOCUMENTOS

   Algunas compañías, como la propia Adobe Systems Incorporated, ofrecen herramientas basadas en formularios Web o gestionadas por servidores de correo electrónico, que toman un documento PDF cuya ruta, local o remota, se les indica para devolver por la misma vía su versión convertida a otro formato más accesible; esto tiene la gran ventaja de que no requiere software especializado en la computadora del usuario, como tampoco que éste se familiarice con nuevas aplicaciones que sirvan para ese fin, pero lógicamente es poco versátil al no ofrecer casi la posibilidad de configurar cómo debe procederse. Vamos a ver en el presente apartado los servicios de este tipo que son más importantes a nivel internacional, lo cual no tiene por qué significar que son los más logrados:
   1) Adobe, como hemos comentado, no sólo proporciona programas para leer los archivos PDF sino que también cuenta con una herramienta gratuita basada en correo electrónico para exportarlos a HTML y a texto plano; debe editarse un mensaje en cualquier gestor de correo y noticias como Outlook Express, con el asunto en blanco y colocando como archivo adjunto aquél que se desea convertir, enviándolo después a la dirección pdf2html@adobe.com para obtener su versión en HTML, o a pdf2txt@adobe.com para la en texto plano ANSI/ISO; si el documento que se quiere procesar está en Internet, se indicará su dirección URL exacta, por ejemplo "http://www.funcaragol.org/ftp/manuales/guiateclado.pdf", como texto del cuerpo de tal mensaje, vigilando de no cortar las líneas en identificadores largos; en ambos casos y tras unos minutos, se recibirá en la cuenta que mandó la solicitud un nuevo mensaje cuyo archivo adjunto, de nombre nada semejante al del original enviado o apuntado, es la versión convertida del mismo. El código usado por este sistema es el mismo que incorpora Adobe Reader, así como las barreras de accesibilidad o protección de datos con que cuenta, luego seguimos obteniendo corrupción en los documentos que no se convertían bien, y la denegación del servicio para los que de una forma u otra están bloqueados; es de destacar la buena legibilidad de los archivos HTML generados, bien provistos de enlaces para cambiar fácilmente de página y sin elementos complejos como marcos, barras de navegación o imágenes, ya que no se respeta para nada la apariencia del original; los ficheros de texto plano son igualmente de sencilla lectura, y crearlos por este método tiene la ventaja del poco tiempo que se invierte en hacerlo, siempre y cuando las condiciones de acceso a Internet y de funcionamiento de los servidores sean las deseables. Para más información sobre este servicio, se puede acudir a la página Web Herramientas de Conversión en Línea para los Documentos Adobe PDF, hasta ahora disponible sólo en idiomas inglés y francés; este sitio contiene además otra ayuda, también gratuita y de iguales prestaciones, que permite convertir "al vuelo" un documento PDF hallado en la red, especificando algunos parámetros a considerar, a otro HTML que se carga en la misma pantalla del navegador que se esté usando.
   2) Password Crackers (ir al sitio Web de Password Crackers), a pesar de su no muy ortodoxo nombre, es una compañía estadounidense perfectamente legal que tiene gran experiencia en la recuperación de contraseñas perdidas, tanto de software (archivos comprimidos, documentos de oficina, etc.) como de hardware (discos removibles, placas base, ordenadores portátiles...); aseguran que son una de las organizaciones comerciales más antiguas del mundo especializadas en la averiguación de claves, y que sus expertos criptólogos han derrotado a miles de sistemas protegidos y tienen las herramientas para, como quien dice, enfrentarse a todo en tal terreno... Fuera de estos curiosos datos, la empresa en cuestión dispone de un servicio que puede recuperar las contraseñas perdidas o nunca poseídas de los archivos PDF, lo que para nuestro caso podrá ayudar a abrirlos y leerlos si de la forma convencional ello no es factible; para las claves de control del acceso, que permiten al usuario abrir y leer los documentos pero no copiar, imprimir o editar su contenido, el servicio elimina tal protección, devolviendo casi al instante un archivo totalmente abierto, por un precio de 40 dólares USA y con el éxito pleno garantizado. Para las contraseñas de usuario, que previenen todo acceso al documento encriptándolo por completo, no se utilizan algoritmos basados en el método "prueba y error" o "fuerza bruta", si no que se destinan muchos recursos técnicos para eliminar la protección y devolver igualmente un archivo liberado; en la mayoría de casos se puede dar una respuesta al cliente antes de 25 días, pero en unos pocos, y a raíz de la complejidad de los métodos de encriptación utilizados, no es posible brindar el servicio; esto último, por supuesto, comporta la devolución del importe íntegro abonado, que es de 500 dólares USA independientemente de la longitud de la clave o del tipo de protección empleada.
   3) Existen o han existido algunos servicios que consideramos deben desestimarse, los cuales vamos a detallar en este párrafo para argumentar tal opinión y resolver una serie de dudas que nuestros usuarios nos han planteado al respecto. El primero es una herramienta de conversión de documentos, muy similar a la descrita en el punto 1 de este apartado, que tenía disponible la Universidad de Wisconsin-Madison (EEUU), a través de la iniciativa Trace Center de su Colegio de Ingenieros; la conversión se efectuaba por correo electrónico a través de las direcciones pdf2html@sun.trace.wisc.edu y pdf2txt@sun.trace.wisc.edu, que desde hace un tiempo han quedado fuera de servicio y devuelven un mensaje donde se explica tal hecho, notificándose también que se está trabajando con Adobe en un proyecto futuro de filosofía semejante. Otra facilidad de conversión de la que se habla mucho es la que ofrece el popular buscador de Web's Google (ir al sitio Web de Google en español), que visualiza como páginas HTML todos aquellos documentos PDF que halla al darle unos criterios de búsqueda; el servicio sigue operativo, y es de suponer que no se retirará, pero sólo permite aplicarlo a aquellas páginas que el motor tiene indexadas, por lo que en realidad las genera al explorar la Web y no cuando se lo pide un usuario, y además lo hace valiéndose del mismo método de extracción que las herramientas de Adobe descritas en el punto 1 de este apartado; al contrario que la aplicación de traducción de páginas al vuelo, que incorpora Google en sus herramientas del idioma, la conversión de archivos PDF encontrados en Internet tampoco permite introducir a mano una dirección URL aunque ésta haya sido antes indexada por los robots de búsqueda.
   4) A pesar de que no se trata de un servicio de conversión de documentos, colocamos ahora esta mención pues no hallamos un lugar mejor para hacerlo, siendo que puede encajar aquí por tratarse de un servicio ofrecido a través de Internet; el caso es que por iniciativa de la compañía BinaryThing, que opera en USA, Europa y Australia, y está especializada en Adobe Acrobat y la tecnología del PDF, se han creado en la red cuatro portales dedicados a reunir y publicar material en otras tantas áreas que da de sí el tema propuesto. Estos sitios Web son: Planet PDF, el más popular, perteneciente a una comunidad independiente para los usuarios de Adobe Acrobat y del formato PDF; PDF Store, la tienda en línea de programas, con un extenso surtido de herramientas esenciales para crear, editar y publicar archivos PDF; ARTS PDF, un importante desarrollador de herramientas para los profesionales del PDF; ARTS PDF Solutions, integrado en el anterior, que es un suministrador global de servicios de desarrollo y consulta relativos a las aplicaciones en cuestión. De estos portales, sin duda el más interesante para nosotros es el primero, muy denso y cuya información no es siempre fácil de localizar, puesto que además la página no es accesible al 100%; sin embargo, nos ayuda a ponernos al día en todo lo que se va cociendo en el mundo del PDF, y echarle un vistazo periódicamente viene bien para averiguar si han surgido nuevas soluciones que nos pueden ser útiles para descifrar este tipo de documentos.

4.- CONCLUSIÓN ALGO PESIMISTA PERO CON ESPERANZA

   El problema, lo hemos visto teóricamente en la introducción a este trabajo y de forma práctica a lo largo del estudio propiamente dicho, es sencillo de exponer: cada día, para la publicación de documentos digitales que han de llegar a las manos de un público no experto en informática, se está utilizando con más preferencia el formato PDF, un tipo de archivo ideal para imprimir y visualizar pero de difícil acceso para quienes tienen problemáticas visuales; el motivo fundamental de esto es que tales archivos se suministran compilados y recuperar sus módulos fuente es técnicamente imposible, a pesar de que algunas herramientas pueden lograr simularlo con bastante eficiencia. Los documentos PDF poseen numerosos componentes que no son fácilmente identificables si no se dispone de su archivo madre, como gráficos, tipos de letra (fuentes), estructuras complejas de presentación (tablas, columnas...) y algunos más; a esto se suma que los programas responsables de generarlos cuentan con algunas facilidades, dicho sea entre comillas, que permiten protegerlos para evitar su redistribución o duplicación no autorizada, y que al final revierten en su accesibilidad cuando un lector de pantalla para ciegos u otro programa de misión similar trata de extraer su contenido.
   Cuando alguno de los usuarios de nuestros servicios me pregunta, como persona entendida que paso por ser en temas de accesibilidad, sobre qué tipo de archivos debe usar para publicar documentos que están destinados al público en general, o más específicamente sobre la conveniencia o no del formato PDF como de buena lectura también para ciegos, mi respuesta es inmediata y no admite dudas: ¿no te sería posible prescindir del PDF y usar otras técnicas como el HTML?; cierto, el PDF es vistoso, práctico, ocupa poco espacio, se puede cargar casi con cualquier sistema informático..., pero no es un aliado de los discapacitados visuales y otros recursos pueden lograr el mismo o casi igual efecto sin el inconveniente referido. Actualmente, la complejidad que han alcanzado las hojas de estilo CSS que deberían acompañar a todos los documentos HTML, han agregado a éstos una gran potencia presentacional hasta hace un tiempo impensable; no queremos decir con esto que pueden superar las posibilidades del formato PDF, pero es claro que obtener casi lo mismo por caminos diferentes es una garantía, y si no no hay más que ver algunos manuales muy prácticos que se distribuyen hoy día en HTML, que si respetan las pautas de accesibilidad para este lenguaje son 100% manejables por todo su público potencial.
   Muchas veces, y al contrario de lo que se tiende a pensar cuando surge la coyuntura, los autores de documentos PDF no los diseñan de forma accesible o los bloquean para evitar la extracción de su contenido por absoluto desconocimiento de la materia; el caso más cómico de este proceder lo encontramos una vez que intentamos abrir un libro que versaba sobre la accesibilidad en Internet, y cuál fue nuestra sorpresa al comprobar que el autor lo había protegido de forma que, no sólo no se podía imprimir (cosa lógica porque disponía de versión en papel), si no que tampoco era accesible..., ironías de la técnica. Para contribuir a evitar estos fenómenos y así dar a conocer la problemática harto descrita, Adobe ha distribuido un documento llamado How to Create Accessible Adobe PDF Files (en inglés), en español "Cómo Crear Archivos de Adobe PDF Accesibles", donde con pantallazos y explicaciones se ilustran los diferentes casos que se pueden presentar ante la creación y edición de un documento de este tipo; leemos en la introducción del escrito aludido, que se trata de una guía paso a paso que cubre los aspectos esenciales para crear y optimizar los archivos PDF, de modo que éstos puedan ser accesibles a los usuarios con discapacidades, sobre todo ciegos y con baja visión. Se dice también, traducimos directamente, "esta guía le indica cómo puede usar los programas Adobe Acrobat 5.0 y Adobe Acrobat Capture 3.0, para optimizar sus documentos de distribución como archivos Adobe PDF, que puedan ser fácilmente leídos con la ayuda de tecnología asistida basada en Windows como serían los lectores de pantalla"; es cierto que al no haber sido aún traducido al castellano este manual, del que existe también una edición para expertos (How to Create Advanced Accessible PDF), no llegará a todos los creadores que realmente lo necesitarían, pero sin duda muchos lo ojearán y es de esperar que tengan en cuenta sus recomendaciones, siendo que no les van a suponer un gran esfuerzo técnico ni mucho menos económico.
   Concluimos apelando a la esperanza para unos, a la concienciación para otros y a la paciencia para todos; cambiar los hábitos de conducta de un colectivo de hoy para mañana sería muy hermoso pero todos sabemos que es bastante más que utópico: esperar que aquellas personas acostumbradas a diseñar material sin pararse a pensar que éste puede ser requerido por otras con necesidades especiales, asuman esto de un día para otro y actúen en consecuencia sería absurdo, pero muchas iniciativas como la propia de Adobe que reflejábamos en el párrafo anterior o la de Freedom Scientific, que ha publicado un manual avanzado de elaboración de documentos PDF accesibles pensado para ser usado por ciegos (traducido al español por la ONCE como Creando archivos PDF accesibles), seguro que ayudarán a que nos vayamos aproximando poco a poco a este estado de cosas normal, que no ideal ni de ensueño. Los usuarios discapacitados visuales, con una buena selección de herramientas en la mano y los conocimientos mínimos para emplear éstas con soltura, muy pocas veces nos encontraremos ante muros infranqueables, y aún en esas situaciones debemos hacer valer nuestros derechos, concienciando a los demás para que cumplan y hagan cumplir los estándares de accesibilidad; por último, la empresa creadora del formato PDF, que es consciente que debe perfeccionarlo para derribar las barreras de lectura que aún sufre, no debe cesar en tal empeño, por su buena imagen y por la implantación a mayor nivel de sus productos, lo que es evidente que le ha de suponer mayores ganancias; confiamos que el tiempo nos dará la razón...




[ SUBIR UN NIVEL ] [ VOLVER A LA PÁGINA PRINCIPAL ]