<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Re: Identificar en un Transform el nombre del archivo in Alfresco Archive</title>
    <link>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173116#M126282</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bueno, he buscado y leído tantas cosas que ya estoy mareado. La verdad es que alfresco es una plataforma impresionante, pero captar toda la mecánica de configuración o extensión no es para cualquiera, especialmente si el conocimiento en java es poco.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Bueno, si alguien sabe al menor por dónde puedo encarar esto, le estaría muy agradecido.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Saludos&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Thu, 08 Sep 2011 03:34:09 GMT</pubDate>
    <dc:creator>normando</dc:creator>
    <dc:date>2011-09-08T03:34:09Z</dc:date>
    <item>
      <title>Identificar en un Transform el nombre del archivo</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173115#M126281</link>
      <description>Hola amigos y amigas!Volviendo al temilla sobre el OCR con Tesseract que habíamos visto hace algún tiempo, ahora tengo la necesidad de distinguir el nombre del archivo TIFF porque en base a su nombre o parte del nombre debo decidir si efectuar el OCR en español, inglés o alemán.Por ejemplo, al archi</description>
      <pubDate>Tue, 06 Sep 2011 19:26:26 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173115#M126281</guid>
      <dc:creator>normando</dc:creator>
      <dc:date>2011-09-06T19:26:26Z</dc:date>
    </item>
    <item>
      <title>Re: Identificar en un Transform el nombre del archivo</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173116#M126282</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Bueno, he buscado y leído tantas cosas que ya estoy mareado. La verdad es que alfresco es una plataforma impresionante, pero captar toda la mecánica de configuración o extensión no es para cualquiera, especialmente si el conocimiento en java es poco.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Bueno, si alguien sabe al menor por dónde puedo encarar esto, le estaría muy agradecido.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Saludos&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Thu, 08 Sep 2011 03:34:09 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173116#M126282</guid>
      <dc:creator>normando</dc:creator>
      <dc:date>2011-09-08T03:34:09Z</dc:date>
    </item>
    <item>
      <title>Re: Identificar en un Transform el nombre del archivo</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173117#M126283</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Hola Normando,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;La interfaz ContentTransformerWorker define el método:&lt;/SPAN&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;public void transform(ContentReader reader, ContentWriter writer, TransformationOptions options) throws Exception&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;SPAN&gt;El parámetro options tiene un par de métodos que podrían venir bien para ello: options.getSourceNodeRef() y options.getTargetNodeRef(). A partír de ahí, y con el NodeService inyectado podrías obtener la propiedad cm:name para hacer el filtrado.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Ahora bien, no he visto ninguna opción de "alimentar" esas opciones directamente definiendo el transformador desde el RuntimeExecutableContentTransformerWorker.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Y peor aún, he definido mi propio transformador extendiendo de OCRContentTransformer para tener un control total de la transformación (y poder tener acceso a las opciones estas de transformación) y los nodos origen y destino me vienen vacíos. El motivo es que internamente utiliza el constructor "vacío" para pasar unas opciones sin opción alguna.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Así mirando código de Alfresco, el único punto donde he detectado el uso de las opciones de transformación pasándole datos reales de los nodos que participan en la transformación es en la clase org.alfresco.repo.action.executer.TransformActionExecuter, método doTransform (por si te da alguna pista de cómo seguir)…&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Por cierto, ¿habeis podido transformar pdf's que contengan imágenes a través de este transformador de tesseract? Por defecto me aplica el de Alfresco (PdfBox) y no me llega a interpretar nada de la imagen del pdf…&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;Saludos y suerte!&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Sun, 11 Sep 2011 14:56:39 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173117#M126283</guid>
      <dc:creator>ajv</dc:creator>
      <dc:date>2011-09-11T14:56:39Z</dc:date>
    </item>
    <item>
      <title>Re: Identificar en un Transform el nombre del archivo</title>
      <link>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173118#M126284</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;Hola ajv. Muchas gracias por la detallada explicación de todo.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Voy a intentar ver qué se puede hacer utilizando TransformActionExecuter para obtener el name del archivo. Te cuento ni bien tenga novedades.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Con respecto a los pdfs no he utilizado tesseract aún en ellos, pero pronto lo haré. Por suerte ahora tesseract 3 ya maneja sin problemas archivos con extensión tiff y tif. Por ello es necesario convertir previamente de pdf a tiff para luego hacer el ocr. Con el convert de ImageMagick es perfectamente posible. Yo puedo convertir desde la consola directamente ejecutando:&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;PRE class="language-none line-numbers"&gt;&lt;CODE&gt;convert archivo.pdf archivo.tif&lt;SPAN class="line-numbers-rows"&gt;&lt;SPAN&gt;‍&lt;/SPAN&gt;&lt;/SPAN&gt;&lt;/CODE&gt;&lt;/PRE&gt;&lt;BR /&gt;&lt;SPAN&gt;Seguramente (no lo vi en detalle aún) existen algunos parámetros de conversión que aceleren la misma.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Otro detalle a considerar con los PDFs es cómo identificamos a los que contienen alguna imagen de los que no, y además cómo identificamos a los pdfs que ya vienen con el texto "buscable" incluido de los que no. Es todo un tema a analizar.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Saludos y gracias por todo.&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Mon, 12 Sep 2011 05:37:22 GMT</pubDate>
      <guid>https://connect.hyland.com/t5/alfresco-archive/identificar-en-un-transform-el-nombre-del-archivo/m-p/173118#M126284</guid>
      <dc:creator>normando</dc:creator>
      <dc:date>2011-09-12T05:37:22Z</dc:date>
    </item>
  </channel>
</rss>

