topic Re: Identificar en un Transform el nombre del archivo in Alfresco Archive

Identificar en un Transform el nombre del archivo

normando — Tue, 06 Sep 2011 19:26:26 GMT

Hola amigos y amigas!Volviendo al temilla sobre el OCR con Tesseract que habíamos visto hace algún tiempo, ahora tengo la necesidad de distinguir el nombre del archivo TIFF porque en base a su nombre o parte del nombre debo decidir si efectuar el OCR en español, inglés o alemán.Por ejemplo, al archi

Re: Identificar en un Transform el nombre del archivo

normando — Thu, 08 Sep 2011 03:34:09 GMT

Bueno, he buscado y leído tantas cosas que ya estoy mareado. La verdad es que alfresco es una plataforma impresionante, pero captar toda la mecánica de configuración o extensión no es para cualquiera, especialmente si el conocimiento en java es poco.

Bueno, si alguien sabe al menor por dónde puedo encarar esto, le estaría muy agradecido.

Saludos

Re: Identificar en un Transform el nombre del archivo

ajv — Sun, 11 Sep 2011 14:56:39 GMT

Hola Normando,

La interfaz ContentTransformerWorker define el método:

public void transform(ContentReader reader, ContentWriter writer, TransformationOptions options) throws Exception‍

El parámetro options tiene un par de métodos que podrían venir bien para ello: options.getSourceNodeRef() y options.getTargetNodeRef(). A partír de ahí, y con el NodeService inyectado podrías obtener la propiedad cm:name para hacer el filtrado.

Ahora bien, no he visto ninguna opción de "alimentar" esas opciones directamente definiendo el transformador desde el RuntimeExecutableContentTransformerWorker.
Y peor aún, he definido mi propio transformador extendiendo de OCRContentTransformer para tener un control total de la transformación (y poder tener acceso a las opciones estas de transformación) y los nodos origen y destino me vienen vacíos. El motivo es que internamente utiliza el constructor "vacío" para pasar unas opciones sin opción alguna.
Así mirando código de Alfresco, el único punto donde he detectado el uso de las opciones de transformación pasándole datos reales de los nodos que participan en la transformación es en la clase org.alfresco.repo.action.executer.TransformActionExecuter, método doTransform (por si te da alguna pista de cómo seguir)…

Por cierto, ¿habeis podido transformar pdf's que contengan imágenes a través de este transformador de tesseract? Por defecto me aplica el de Alfresco (PdfBox) y no me llega a interpretar nada de la imagen del pdf…
Saludos y suerte!

Re: Identificar en un Transform el nombre del archivo

normando — Mon, 12 Sep 2011 05:37:22 GMT

Hola ajv. Muchas gracias por la detallada explicación de todo.

Voy a intentar ver qué se puede hacer utilizando TransformActionExecuter para obtener el name del archivo. Te cuento ni bien tenga novedades.

Con respecto a los pdfs no he utilizado tesseract aún en ellos, pero pronto lo haré. Por suerte ahora tesseract 3 ya maneja sin problemas archivos con extensión tiff y tif. Por ello es necesario convertir previamente de pdf a tiff para luego hacer el ocr. Con el convert de ImageMagick es perfectamente posible. Yo puedo convertir desde la consola directamente ejecutando:

convert archivo.pdf archivo.tif‍

Seguramente (no lo vi en detalle aún) existen algunos parámetros de conversión que aceleren la misma.

Otro detalle a considerar con los PDFs es cómo identificamos a los que contienen alguna imagen de los que no, y además cómo identificamos a los pdfs que ya vienen con el texto "buscable" incluido de los que no. Es todo un tema a analizar.

Saludos y gracias por todo.